時間:2023-07-04 16:29:01
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)分析的方法范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。
企業(yè)數(shù)據(jù)分析編寫過程中,常用的分析方法有對比分析法、趨勢分析法、結(jié)構(gòu)分析法和綜合分析法等。本文結(jié)合工作實際,對如何運用這四種基本分析方法談點想法。
對比分析法
所謂對比分析法,是指將兩個或兩組以上的數(shù)據(jù)進(jìn)行比較,分析它們的差異性,從而揭示這些數(shù)據(jù)所代表的事物的發(fā)展變化情況和規(guī)律性。對比分析法是比較研究的一種方法,在企業(yè)數(shù)據(jù)分析中的應(yīng)用十分普遍。它的特點是,通過比較分析,可以非常直觀地看出企業(yè)某方面工作的變化或差距,并且可以準(zhǔn)確、量化地表示出這種變化或差距是多少。
在實際應(yīng)用中,企業(yè)數(shù)據(jù)的對比分析,一般有以下幾種具體情況:
一是將企業(yè)當(dāng)年的數(shù)據(jù)與歷年(去年或前幾年)的數(shù)據(jù)進(jìn)行對比分析,目的是為了搞清楚與去年或前幾年相比,企業(yè)某一方面或某些方面的發(fā)展變化情況。比如,某公司2006年利潤100萬元,2007年利潤115萬元,年增長率為15%。通過這種對比,我們就可以公司利潤的變化情況有一個更直觀、更清楚的認(rèn)識。當(dāng)然,在許多時候,這種對比分析不會局限在某一個數(shù)據(jù),而是一組數(shù)據(jù)。比如,在對企業(yè)當(dāng)年的利潤與去年利潤進(jìn)行對比分析的同時,還可以將產(chǎn)量、銷售量、銷售額、成本、稅金、市場占有量、占有率等指標(biāo)進(jìn)行對比分析,從而更全面了解掌握企業(yè)的發(fā)展現(xiàn)狀。
二是將本單位數(shù)據(jù)與同行業(yè)(外單位、同行業(yè)平均水平)的數(shù)據(jù)進(jìn)行對比分析,目的是為了搞清楚與外單位、同行業(yè)平均水平,本單位某一方面或各方面的發(fā)展水平處于什么樣的位置,明確哪些指標(biāo)是領(lǐng)先的,哪些指標(biāo)是落后的,進(jìn)而找出下一步發(fā)展的方向和目標(biāo)。比如,2005年,某發(fā)電廠供電煤耗為340克/千瓦時,當(dāng)年全國火電行業(yè)平均煤耗指標(biāo)為310克/千瓦時,該發(fā)電廠的實際煤耗指標(biāo)比全國火電行業(yè)平均煤耗多了30克/千瓦時。通過這樣的對比分析,我們可以看出,該發(fā)電廠在能耗方面存在著比較突出問題,如何節(jié)能降耗應(yīng)該成為企業(yè)下一步重點關(guān)注的一個工作內(nèi)容,也是提高企業(yè)經(jīng)濟(jì)效益的一條重要途徑。
為了一目了然地看出數(shù)據(jù)對比的直觀效果,對比分析一般可用柱式圖表表示。
趨勢分析法
所謂趨勢分析法,是指通過對某一個或幾個數(shù)據(jù)在一定階段的變化情況進(jìn)行分析,從而發(fā)現(xiàn)該數(shù)據(jù)所代表事物的發(fā)展趨勢和規(guī)律,并可進(jìn)一步分析形成這種趨勢的原因,為企業(yè)領(lǐng)導(dǎo)決策提供依據(jù)和參考。趨勢分析法實際上是一種歷史研究的方法,在企業(yè)數(shù)據(jù)分析的編寫中,主要用來表示企業(yè)某一方面或某些方面的工作在一定時期內(nèi)的發(fā)展趨勢和規(guī)律。其特點是對某一時期的某一數(shù)據(jù)進(jìn)行持續(xù)性考察,進(jìn)而得出趨勢性的結(jié)論。
一般說來,對數(shù)據(jù)進(jìn)行趨勢分析的結(jié)果不外乎以下四種情況:
一是某項數(shù)據(jù)的變化呈逐年加大的趨勢,稱為上升趨勢。比如某企業(yè)利潤額:2001年為150萬元、2002年173萬元、2003年220萬元、2004年360萬元、2005年500萬元。從對這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)的利潤呈逐年上升的趨勢。
二是某項數(shù)據(jù)的變化呈逐年減小的趨勢,稱為下降趨勢。例某企業(yè)產(chǎn)品的市場占有率:2001年為30%、2002年24%、2003年15%、2004年9%、2005年6%。從對這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)產(chǎn)品的市場占有率呈逐年下降的趨勢,說明該產(chǎn)品的市場競爭力正在下降,企業(yè)應(yīng)該對該產(chǎn)品進(jìn)行升級換代,或者開發(fā)生產(chǎn)新的產(chǎn)品。
三是某項數(shù)據(jù)或上升或下降,每年都有較大變化,稱為震蕩趨勢。比如某企業(yè)的經(jīng)營成本:2001年為50萬元、2002年83萬元、2003年61萬元、2004年46萬元、2005年103萬元。從對這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)每年的經(jīng)營成本變化較大,呈震蕩趨勢,說明企業(yè)在控制經(jīng)營成本方面還要進(jìn)一步采取措施。
四是某項數(shù)據(jù)幾年來基本不變,或變化很小,稱為穩(wěn)定趨勢。例如某企業(yè)的人均產(chǎn)值:2001年為60萬元、2002年63萬元、2003年61萬元、2004年62萬元、2005年63萬元。從對這組數(shù)據(jù)的分析中可以得出結(jié)論:該企業(yè)的人均產(chǎn)值每年變化不大,呈穩(wěn)定趨勢。
為了更形象地看出數(shù)據(jù)在一定時期內(nèi)的變化軌跡,對數(shù)據(jù)的趨勢分析一般可以用曲線圖表表示。
結(jié)構(gòu)分析法
所謂結(jié)構(gòu)分析法,就是通過分析數(shù)據(jù)的構(gòu)成情況,即分析構(gòu)成某一數(shù)據(jù)的各子數(shù)據(jù)的情況和權(quán)重,從而揭示構(gòu)成某一事物的各方面因素在其中的作用大小和變化情況。結(jié)構(gòu)分析法也是常用的企業(yè)數(shù)據(jù)分析方法,通過這一分析方法,有利于我們發(fā)現(xiàn)和把握事物的主要矛盾和矛盾的主要方面,對企業(yè)而言,可以據(jù)此確定工作重點或經(jīng)營的主攻方向。
在實際工作中,當(dāng)我們需要對企業(yè)的某一數(shù)據(jù)作深入分析時,常常需要用到結(jié)構(gòu)分析法。例如我們分析某供電局利潤的結(jié)構(gòu)情況:2007年,企業(yè)利潤為1000萬元,其中主業(yè)占80%、三產(chǎn)占20%。這就是結(jié)構(gòu)分析的方法,從中我們就可以清楚地知道,主業(yè)和三產(chǎn)對企業(yè)利潤的貢獻(xiàn)比例。在這個基礎(chǔ)上,我們還可以作進(jìn)一步的分析,在200萬元的三產(chǎn)利潤中:火電建設(shè)公司占35%、電力設(shè)計院占30%、電纜廠占15%、電表廠占10%、電桿廠占5%、賓館占5%。從而我們可以看出火電建設(shè)公司和電力設(shè)計院兩家對三產(chǎn)利潤的貢獻(xiàn)率達(dá)到了65%,是發(fā)展三產(chǎn)的主力軍。從供電局的角度而言,抓好三產(chǎn)工作,重點是要抓好火電建設(shè)公司和電力設(shè)計院的工作。
為了直觀地反映某一數(shù)據(jù)的構(gòu)成情況,結(jié)構(gòu)分析法一般采用圓餅圖表來表示分析的結(jié)果。
綜合分析法
在編寫企業(yè)數(shù)據(jù)分析時,往往不是單一地使用一種數(shù)據(jù)分析方法,為了使數(shù)據(jù)分析更透徹、更深入,更多時候我們都需要采用綜合分析的方法。所謂綜合分析法,就是將以上兩種或兩種以上的分析方法結(jié)合起來使用,從而多角度、多層次地分析揭示數(shù)據(jù)的變化、趨勢和結(jié)構(gòu)情況,以增加數(shù)據(jù)分析的深度。
綜合分析法在具體應(yīng)用中,有以下幾種情況:
一是對比分析與趨勢分析相結(jié)合的方法。就是通過對兩個或兩組以上的數(shù)據(jù)在一定階段的變化情況進(jìn)行比較分析,從而發(fā)現(xiàn)數(shù)據(jù)所代表事物的發(fā)展趨勢、差別和關(guān)系,并可進(jìn)一步分析原因,為企業(yè)領(lǐng)導(dǎo)決策提供依據(jù)和參考。比如,我們可以使用這一方法來分析一定階段企業(yè)利潤和成本的變化和相互關(guān)系。再如,我們將“十五”期間本企業(yè)的利潤指標(biāo)與其他企業(yè)的利潤指標(biāo)進(jìn)行比較分析,所應(yīng)用的也就是對比分析與趨勢分析相結(jié)合的方法。
二是對比分析與結(jié)構(gòu)分析相結(jié)合的方法。就是對兩個或兩組以上的數(shù)據(jù)的構(gòu)成情況進(jìn)行分析比較,從而可以看出構(gòu)成這兩個或兩組以上的數(shù)據(jù)的各種因素的差異性,以此剖析產(chǎn)生這種差異的原因,并提出相應(yīng)的對策措施。比如,2006年,A供電局利潤500萬元,B供電局利潤700萬元。如果只采取對比分析的方法,我們獲得的結(jié)論就是:“B供電局利潤比A供電局多200萬元”。結(jié)合結(jié)構(gòu)分析:A供電局利潤500萬元中,主業(yè)為450萬元,三產(chǎn)為50萬元;B供電局利潤700萬元中,主業(yè)為560萬元,三產(chǎn)為140萬元。由此看出,A、B供電局在主業(yè)利潤差距并不大,差距主要在三產(chǎn)上。因此,發(fā)展三產(chǎn)應(yīng)成為A供電局利潤增長的主要著力點。
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理論[1]是波蘭數(shù)學(xué)家Z.Pawlak于1982年提出的,它建立在完善的數(shù)學(xué)基礎(chǔ)之上,是一種新的處理含糊性和不確定性問題的數(shù)學(xué)工具。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則[2]。由于粗糙集理論不需要任何預(yù)備或額外的有關(guān)數(shù)據(jù)信息,使得粗糙集理論成為研究熱點之一,被廣泛應(yīng)用與知識發(fā)現(xiàn)、機(jī)器學(xué)習(xí)、決策分析、模式識別、專家系統(tǒng)和數(shù)據(jù)挖掘等領(lǐng)域。
屬性約簡是粗糙集理論中核心研究內(nèi)容之一[3]。在眾多的屬性約簡算法中,大致可以分為兩類:一類是基于信息熵的啟發(fā)式算法[4],這類算法往往不能得到系統(tǒng)的所有約簡.另一類是基于區(qū)分矩陣和區(qū)分函數(shù)構(gòu)造的算法[5],這種算法直觀,易于理解,能夠計算出所有約簡。但在區(qū)分矩陣中會出現(xiàn)大量的重復(fù)元素,造成時間和空間的浪費,從而降低了屬性約簡算法的效率。
本文基于數(shù)據(jù)分析方法[6]的屬性簡約算法是在保持分類能力不變的前提下,逐個約去冗余的屬性,直到不再有冗余的屬性,此時得到的屬性集是最小屬性集,即為約簡。該算法簡單,能夠求出所有約簡,不會出現(xiàn)區(qū)分矩陣中大
量的重復(fù)元素,從而提高了屬性約簡的效率。
2 粗糙集概念
定義2.1設(shè)U為所討論對象的非空有限集合,稱為論域;R為建立在U上的一個等價關(guān)系族,稱二元有序組S=(U,R)為近似空間。
定義2.2令R為等價關(guān)系族,設(shè)P?哿R,且P≠?I,則P中所有等價關(guān)系的交集稱為P上的不可分辨關(guān)系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價關(guān)系。
定義2.3稱4元有序組K=(U,A,V,f)為信息系統(tǒng),其中U為所考慮對象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個信息函數(shù),?坌x∈U,a∈A,f(x,a)∈Va。對于給定對象x,f(x,a)賦予對象x在屬性a下的屬性值。信息系統(tǒng)也可簡記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。
顯然,信息系統(tǒng)中的屬性與近似空間中的等價關(guān)系相對應(yīng)。
定義2.4設(shè)K=(U,A,V,f)為信息系統(tǒng),P?哿A且P≠?I,定義由屬性子集P導(dǎo)出的二元關(guān)系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
則IND(P)也是等價關(guān)系,稱其為由屬性集P導(dǎo)出的不可分辨關(guān)系。
定義2.5稱決策表是一致的當(dāng)且僅當(dāng)D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說明:在不同個體的條件屬性值相同時,他們的決策屬性值也相同。
定義2.6設(shè)K=(U,A)為一個信息系統(tǒng)。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個約簡,或稱為信息系統(tǒng)的一個約簡。
定義2.7設(shè)K=(U,CUD)為一個決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個約簡。其中POSC(D)表示決策D關(guān)于屬性集C的正域。
定義2.8數(shù)據(jù)分析方法對于信息系統(tǒng)K=(U,A),逐個移去A中的屬性,每移去一個屬性即刻檢查新得到的屬性子集的不可分辨關(guān)系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對于決策表K=(U,CUD),逐個移去C中的屬性,每移去一個屬性即刻檢其決策表,如果不出現(xiàn)新的不一致,則該屬性可被約去,否則該屬性不可被約去。
3 基于數(shù)據(jù)分析方法的屬性簡約算法
3.1 算法思路
利用函數(shù)的遞歸調(diào)用,逐個判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續(xù)檢查A‘中的每個屬性是否能被約去,此過程一直進(jìn)行下去,直到出現(xiàn)某一屬性子集中的每個屬性都不可約去為止,此時該屬性子集即為所求的屬性簡約。對于決策表,每次檢查是否增加了不一致的決策規(guī)則,作為是否約去屬性的依據(jù)。
算法如下:
輸入:信息系統(tǒng)K=(U,A)。
輸出:K的屬性約簡。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基數(shù)//
for j=i+1to|U|
begin
r=|R|//|R|表示屬性個數(shù)//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被約去,return0
end
a可以被約去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示屬性個數(shù)//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被輸出)then
輸出A中所有元素//flag≠0,說明A中所有元素不可移去,且不會被重復(fù)輸出//
End
end
以上給出的函數(shù)是求解信息系統(tǒng)的屬性約簡算法;對于決策表,只要將Match(A’)函數(shù)中的if語句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個數(shù),ag是決策屬性。Reduce (A)函數(shù)中|R|換成|C|即可。該算法適用于一致決策表,對非一致決策表,算法類似,也就是逐個移去屬性并檢查決策表是否出現(xiàn)新的不一致,作為約去此屬性的依據(jù)。
4 舉例
文獻(xiàn)[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡是{a,b,d}
應(yīng)用本算法,求得的屬性約簡為{a,e}和{a,b,d},得到?jīng)Q策簡化表2和表3。
表1 決策表表2簡化表表3簡化表
如果將決策表表1看作一信息系統(tǒng),運用本算法,求得的屬性約簡有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 結(jié)束語
本文通過數(shù)據(jù)分析方法討論了屬性約簡問題。該算法是基于不可分辨關(guān)系的,具有直觀、易于理解和完備性的特點。當(dāng)屬性和對象都較少時,效率較高,但當(dāng)屬性和對象較多時,計算的復(fù)雜度較高。實例表明,該算法是有效的。
參考文獻(xiàn):
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]張文修,吳偉志,梁吉業(yè)等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計算機(jī)學(xué)報,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
分析網(wǎng)站流量這是首要工作,如果是網(wǎng)站建設(shè)初期,那么此時的流量分析就只要記住網(wǎng)站登陸搜索引擎后的流量基數(shù)即可。如果是網(wǎng)站建設(shè)中期的話,就要記錄網(wǎng)站流量一周的平均值,如果是網(wǎng)站建設(shè)后期的話,就要記錄網(wǎng)站流量的階段性波動值!記錄好了流量值之后,就可以很好的計劃出下一步優(yōu)化推廣的流量值了。
網(wǎng)站優(yōu)化數(shù)據(jù)分析方法二:關(guān)鍵詞分析
網(wǎng)站關(guān)鍵詞分析也是網(wǎng)站優(yōu)化的重要工作之一!分析現(xiàn)在網(wǎng)站關(guān)鍵詞的布局,分析網(wǎng)站有流量的關(guān)鍵詞,分析網(wǎng)站還沒有覆蓋的與網(wǎng)站業(yè)務(wù)相關(guān)的關(guān)鍵詞,分析出網(wǎng)站主關(guān)鍵詞的排名情況,分析關(guān)鍵詞的設(shè)計是否合理。分析頂級關(guān)鍵詞是否占據(jù)了搜索引擎首頁的排名,分析搜索關(guān)鍵詞的質(zhì)量高不高,與網(wǎng)站業(yè)務(wù)的相關(guān)度如何?!分析關(guān)鍵詞轉(zhuǎn)化率如何等等。
中圖分類號:TP274文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)15-20ppp-
The Research Content And Data Analysis Methods On the Gene Regulatory Networks
GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1
(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)
Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.
Key words:gene regulatory networks;Self-organizing Map;machine learning
基因調(diào)控網(wǎng)絡(luò)是計算機(jī)科學(xué)、數(shù)學(xué)、信息學(xué)向分子生物學(xué)滲透形成的交叉點,是運用生物信息學(xué)的方法和技術(shù)通過數(shù)據(jù)采集、分析、建模、模擬和推斷等手段研究復(fù)雜的基因網(wǎng)絡(luò)關(guān)系。作為一種系統(tǒng)的、定量的研究方法建立在包括分子生物學(xué),非線性數(shù)學(xué)和程序算法設(shè)計等知識等基礎(chǔ)上,運用生物信息學(xué)的方法和技術(shù)通過數(shù)據(jù)采集、分析、建模、模擬和推斷等手段,整合已有的實驗數(shù)據(jù)和知識,構(gòu)建生物基因調(diào)控網(wǎng)絡(luò),從整體的層次,了解細(xì)胞的功能;從整體的角度,闡述基因參與的生物調(diào)控過程,在全基因組水平上以系統(tǒng)的、全局的觀點研究生命現(xiàn)象及其本質(zhì),是后基因組時代研究的重要內(nèi)容。
1 基因調(diào)控網(wǎng)絡(luò)概念
基因調(diào)控網(wǎng)絡(luò)本質(zhì)上是一個連續(xù)而復(fù)雜的動態(tài)系統(tǒng),即復(fù)雜的動力系統(tǒng)網(wǎng)絡(luò)。
1.1 基因調(diào)控網(wǎng)絡(luò)的定義
生物體任何細(xì)胞的遺傳信息、基因都是同樣的,但同一個基因在不同組織、不同細(xì)胞中的表現(xiàn)并不一樣。一個基因的表達(dá)既影響其它的基因,又受其它基因的影響,基因之間相互促進(jìn)、相互抑制,在特定的細(xì)胞內(nèi)和時間下綜合環(huán)境等因素這樣的大環(huán)境中呈現(xiàn)活化狀態(tài),構(gòu)成一個復(fù)雜的基因調(diào)控網(wǎng)絡(luò)。
1.2 基因調(diào)控網(wǎng)絡(luò)的特性:
基因調(diào)控網(wǎng)絡(luò)是連續(xù)的多層次動力系統(tǒng)模型,具有穩(wěn)定姓、層次性、復(fù)雜性、動態(tài)性等。
1.2.1 復(fù)雜性
生物具有大量的基因,諸多基因組成各個模塊,不同的基因網(wǎng)絡(luò)模塊可以在不同層次上發(fā)生相互作用,同一個基因可能參與各種不同的分子機(jī)理,使得基因網(wǎng)絡(luò)有著高度的復(fù)雜性。
1.2.2 層次性
基因調(diào)控網(wǎng)絡(luò)具有一定層次結(jié)構(gòu),按照調(diào)控元件、motif、模塊和整個網(wǎng)絡(luò)的四層結(jié)構(gòu),將各個節(jié)點有規(guī)律的來接在一起。調(diào)控元件分為順式(cis-)和反式(trans-)兩種類型, 分別表示受調(diào)控基因的結(jié)合位點DNA 序列和結(jié)合在該序列上對基因起激活或者抑制作用的轉(zhuǎn)錄因子。Motif 和模塊都是由基因集合構(gòu)成的調(diào)控模式, 是分析網(wǎng)絡(luò)局部特征和網(wǎng)絡(luò)構(gòu)成以及研究調(diào)控機(jī)理的重要結(jié)構(gòu)。
1.2.3 動態(tài)性
生物過程是動態(tài)的,用來理解生物過程意義的基因調(diào)控網(wǎng)絡(luò)自然就動態(tài)存在?;蛘{(diào)控網(wǎng)絡(luò)是隨著生物過程的動態(tài)發(fā)生而具有動態(tài)的特性,不同條件、不同時間的基因調(diào)控網(wǎng)絡(luò)是不同的。
1.2.4 穩(wěn)定性
基因調(diào)控網(wǎng)絡(luò)的穩(wěn)定性體現(xiàn)在生物體緩解突變的影響方面,功能上無關(guān)基因之間的相互作用可以抵抗系統(tǒng)突變;一個基因在突變中喪失的功能,有另外一個或更多具有相似功能的基因所補償,以減弱該突變對表型造成的影響,保持生物進(jìn)化中的穩(wěn)定性。
1.2.5 功能模塊性
基因調(diào)控相關(guān)的生物功能主要是通過網(wǎng)絡(luò)模塊來實現(xiàn)的,有適當(dāng)尺度下的動力學(xué)特征和生物學(xué)功能解釋的模塊是由多個motif 構(gòu)成的,實現(xiàn)相同功能的基因或蛋白質(zhì)存在拓?fù)浣Y(jié)構(gòu)上是相關(guān)的。
1.3 基因調(diào)控網(wǎng)絡(luò)研究的目的
通過對基因調(diào)控網(wǎng)絡(luò)的研究,識別和推斷基因網(wǎng)絡(luò)的結(jié)構(gòu)、特性和調(diào)控關(guān)系,認(rèn)識復(fù)雜的分子調(diào)控過程,理解支配基因表達(dá)和功能的基本規(guī)則,揭示基因表達(dá)過程中的信息傳輸規(guī)律,清楚整體的框架下研究基因的功能。
2 基因調(diào)控網(wǎng)絡(luò)研究內(nèi)容
基因調(diào)控網(wǎng)絡(luò)的研究是假設(shè)兩個基因列譜相似,則這兩個基因協(xié)作調(diào)控,并可能功能相近,有同樣表達(dá)模式的基因可能有同樣的表達(dá)過程?;蛘{(diào)控網(wǎng)絡(luò)主要在三個水平上進(jìn)行:DNA水平、轉(zhuǎn)錄水平、翻譯水平。DNA水平主要是研究基因在空間上的關(guān)系影響基因的表達(dá);轉(zhuǎn)錄水平主要研究代謝或者是信號轉(zhuǎn)導(dǎo)過程決定轉(zhuǎn)錄因子濃度的調(diào)控過程;翻譯水平主要研究蛋白質(zhì)翻譯后修飾,從而影響基因產(chǎn)物的活性和種類的過程?;蜣D(zhuǎn)錄調(diào)控信息隱藏在基因組序列中,基因表達(dá)數(shù)據(jù)代表基因轉(zhuǎn)錄調(diào)控的結(jié)果,是轉(zhuǎn)錄調(diào)控信息的實際體現(xiàn)。
基因調(diào)控網(wǎng)絡(luò)試圖從DNA微陣列等海量數(shù)據(jù)中推斷基因之間的調(diào)控關(guān)系,對某一物種或組織中全部基因的表達(dá)關(guān)系進(jìn)行整體性研究。采用帶有反饋回路的基因網(wǎng)絡(luò),首先是按照同步或反同步表達(dá),以及表達(dá)強(qiáng)度的變化,系統(tǒng)地識別各基因的特點,再用聚類的方法將各基因歸類,在此基礎(chǔ)上構(gòu)建基因調(diào)控網(wǎng)絡(luò),分析相關(guān)控制參數(shù).利用其本身或調(diào)節(jié)位點或拓?fù)浣Y(jié)構(gòu)進(jìn)行不同的研究。
一、SOM算法介紹
由Kohonen提出的自組織映射(SOM)的神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中適合用于對數(shù)據(jù)進(jìn)行分類的有效方法。SOM神經(jīng)網(wǎng)絡(luò)包含一個輸入層和一個輸出層,組織成一個二維的網(wǎng)格結(jié)構(gòu)(圖1.1)。該網(wǎng)絡(luò)能夠從任意一個隨機(jī)選擇輸入的結(jié)點開始最終形成一個拓?fù)浣Y(jié)構(gòu)的映射,這個映射反映了輸入模式的內(nèi)在的關(guān)系。但是運用SOM有一些參數(shù)的限制,首先需要指定類別數(shù)目,對映射空間結(jié)點進(jìn)行權(quán)值的初始化等。如(圖1.1)所示,SOM網(wǎng)絡(luò)是一個的映射,如果這個神經(jīng)元被安排在一個平面網(wǎng)格上面的話,這個神經(jīng)網(wǎng)絡(luò)就稱為二維神經(jīng)網(wǎng)絡(luò),因為這個網(wǎng)絡(luò)將一個高維的輸入向量映射到一個二維的平面上面。給定一個網(wǎng)絡(luò),輸入向量是一個維的向量,相應(yīng)的第個突觸向量的第個元素與輸入向量的第個元素相連,這樣,一個維的突觸向量就和第個神經(jīng)元實行連接。
圖1.1 SOM網(wǎng)絡(luò)的基本結(jié)構(gòu)
SOM算法描述如下:
(1)令網(wǎng)絡(luò)學(xué)習(xí)次數(shù),賦予初始化權(quán)值向量一個小的隨機(jī)向量值,對拓?fù)溧徲颍ǎW(xué)習(xí)率()進(jìn)行初始化,設(shè)置網(wǎng)絡(luò)總的學(xué)習(xí)次數(shù)()。
(2)當(dāng)學(xué)習(xí)次數(shù)()小于總的學(xué)習(xí)次數(shù)()時,重復(fù)步驟3至步驟6。
(3)隨機(jī)選一個輸入向量進(jìn)入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(4)確定獲勝神經(jīng)元,相應(yīng)的權(quán)值向量為與輸入向量距離最短的向量,成為獲勝神經(jīng)元,輸入向量與獲勝神經(jīng)元的最短距離為,定義如下:
(1.1)
(5)按照下式更新獲勝神經(jīng)元及其鄰域內(nèi)神經(jīng)元權(quán)值向量:
(1.2)
與函數(shù)定義如下:(1.3)
(6)令,如果,回到第(3)步繼續(xù)訓(xùn)練,否則結(jié)束訓(xùn)練。
二、數(shù)值模擬計算
本文以HUGEindex數(shù)據(jù)庫中人7000多條基因在19個正常組織中的表達(dá)情況這19個組織中表達(dá)的基因為樣本對其進(jìn)行分析。不同組織下的全基因表達(dá)數(shù)據(jù)構(gòu)成了一個7070x59的數(shù)據(jù)矩陣,其中每一個元素表示第個基因在第個組織中的表達(dá)水平值,行向量代表基因在19個人組織中的表達(dá)水平,成為基因的表達(dá)譜,列向量代表某一組織的各基因的表達(dá)水平。
(1.4)
本文運用SOM方法對人基因19個組織的59個樣本進(jìn)行聚類,SOM網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)見(圖1.2)及參數(shù)選擇見表(表1.1)。
圖1.2 樣本聚類SOM網(wǎng)絡(luò)結(jié)構(gòu)圖
上圖中,根據(jù)Genechip得到的人體19個組織的59個微陣列數(shù)據(jù)所得到的信息,我們采用4x5的二維拓?fù)浣Y(jié)構(gòu)的SOM網(wǎng)絡(luò)對人體組織樣本進(jìn)行分類(其中第(4,5)個結(jié)點為空),圖中每個結(jié)點的位置(結(jié)點位置用與輸入模式維數(shù)相同的向權(quán)值向量表示,初始權(quán)值由系統(tǒng)自動產(chǎn)生)為各個結(jié)點權(quán)值尺度化之后所得到的位置。
三、結(jié)論
通過分類可以將芯片實驗的59個樣本按照人體組織類別分為19個類別,并且與采用層次聚類法所得結(jié)果進(jìn)行比較,可以看出自組織映射的聚類方法與層次聚類方法比較,可以看出采用SOM網(wǎng)絡(luò)聚類方法比層次聚類得到的結(jié)果更為明確,其分類正確率達(dá)到了92.2%,證明了SOM方法是有效的。
參考文獻(xiàn):
[1]孫嘯,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].北京:清華大學(xué)出版社,2005:282-285.
[2]許東,吳錚.基于matlab6.x的神經(jīng)網(wǎng)絡(luò)系統(tǒng)分析與設(shè)計[M].西安電了科技大學(xué)出版社,2002.
[3]閻凡平,張長水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計算[M].北京:清華大學(xué)出版社,2005.:11-34,360-395.
一、數(shù)據(jù)統(tǒng)計分析的內(nèi)涵
數(shù)據(jù)分析是指運用一定的分析方法對數(shù)據(jù)進(jìn)行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數(shù)據(jù)統(tǒng)計分析就是運用統(tǒng)計學(xué)的方法對數(shù)據(jù)進(jìn)行處理。在實際的市場調(diào)研工作中,數(shù)據(jù)統(tǒng)計分析能使我們挖掘出數(shù)據(jù)中隱藏的信息,并以恰當(dāng)?shù)男问奖憩F(xiàn)出來,并最終指導(dǎo)決策的制定。
二、數(shù)據(jù)統(tǒng)計分析的原則
(1)科學(xué)性。科學(xué)方法的顯著特征是數(shù)據(jù)的收集、分析和解釋的客觀性,數(shù)據(jù)統(tǒng)計分析作為市場調(diào)研的重要組成部分也要具有同其他科學(xué)方法一樣的客觀標(biāo)準(zhǔn)。(2)系統(tǒng)性。市場調(diào)研是一個周密策劃、精心組織、科學(xué)實施,并由一系列工作環(huán)節(jié)、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數(shù)據(jù)統(tǒng)計分析方法而言,無論是基礎(chǔ)的分析方法還是高級的分析方法,都會有它的適用領(lǐng)域和局限性。(4)趨勢性。市場所處的環(huán)境是在不斷的變化過程中的,我們要以一種發(fā)展的眼光看待問題。(5)實用性。市場調(diào)研說到底是為企業(yè)決策服務(wù)的,而數(shù)據(jù)統(tǒng)計分析也同樣服務(wù)于此,在保證其專業(yè)性和科學(xué)性的同時也不能忽略其現(xiàn)實意義。
三、推論性統(tǒng)計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統(tǒng)計方法,它可以看作是t檢驗的一種擴(kuò)展。它所研究的是分類型自變量對數(shù)值型因變量的影響,比如它們之間有沒有關(guān)聯(lián)性、關(guān)聯(lián)性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數(shù)值型因變量是否有顯著影響。(2)回歸分析。在數(shù)據(jù)統(tǒng)計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應(yīng)的因果變化往往無法用精確的數(shù)學(xué)公式來描述,只有通過大量觀察數(shù)據(jù)的統(tǒng)計工作才能找到他們之間的關(guān)系和規(guī)律,解決這一問題的常用方法是回歸分析?;貧w分析是從定量的角度對觀察數(shù)據(jù)進(jìn)行分析、計算和歸納。
四、多元統(tǒng)計分析方法
(1)相關(guān)分析。相關(guān)分析是描述兩組變量間的相關(guān)程度和方向的一種常用的統(tǒng)計方法。值得注意的是,事物之間有相關(guān)關(guān)系,不一定是因果關(guān)系,也可能僅僅是伴隨關(guān)系;但如果事物之間有因果關(guān)系,則兩者必然存在相關(guān)關(guān)系。(2)主成分分析。在大部分?jǐn)?shù)據(jù)統(tǒng)計分析中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個彼此不相關(guān)的綜合指標(biāo)盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標(biāo)轉(zhuǎn)化為幾個綜合指標(biāo)的多元統(tǒng)計分析方法,很顯然在一個低維空間識別系統(tǒng)要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數(shù)據(jù)簡單化,它是將具有錯綜復(fù)雜關(guān)系的變量綜合為數(shù)量較少的幾個因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,同時根據(jù)不同因子,對變量進(jìn)行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調(diào)研中,市場細(xì)分是最常見的營銷術(shù)語之一,它按照一定的標(biāo)準(zhǔn)將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內(nèi)部在這種特征上具有相似性。聚類分析就是實現(xiàn)分類的一種多元統(tǒng)計分析方法,它根據(jù)聚類變量將樣本分成相對同質(zhì)的族群。聚類分析的主要優(yōu)點是,對所研究的對象進(jìn)行了全面的綜合分析,歸類比較客觀,有利于分類指導(dǎo)。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統(tǒng)計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標(biāo)準(zhǔn),以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區(qū)別于聚類分析的地方,而在判別分析中,至少要有一個已經(jīng)明確知道類別的“訓(xùn)練樣本”,從而利用這個數(shù)據(jù)建立判別準(zhǔn)則,并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠(yuǎn)近來把對象歸類的。
參考文獻(xiàn)
doi:10.3969/j.issn.1006-1010.2015.10.004 中圖分類號:TN929.53 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-1010(2015)10-0022-06
引用格式:李梅,杜翠鳳,沈文明. 基于大數(shù)據(jù)分析的移動通信網(wǎng)絡(luò)規(guī)劃方法[J]. 移動通信, 2015,39(10): 22-27.
1 引言
隨著移動通信網(wǎng)絡(luò)的發(fā)展和移動互聯(lián)網(wǎng)業(yè)務(wù)的增長,移動通信網(wǎng)絡(luò)的各類相關(guān)數(shù)據(jù)呈爆炸式增長。借助大數(shù)據(jù)強(qiáng)大的數(shù)據(jù)處理能力和數(shù)據(jù)挖掘技術(shù),通過分析用戶行為、基于用戶價值和用戶感知規(guī)劃設(shè)計網(wǎng)絡(luò),成為運營商提升網(wǎng)絡(luò)競爭力的關(guān)鍵環(huán)節(jié)。
傳統(tǒng)的移動通信網(wǎng)絡(luò)規(guī)劃需要借助海量的測試,分析總結(jié)網(wǎng)絡(luò)存在的問題,再基于對市場和業(yè)務(wù)的經(jīng)驗預(yù)測,制定規(guī)劃方案。該過程中,測試結(jié)果的普遍性和業(yè)務(wù)預(yù)測的準(zhǔn)確性制約了規(guī)劃方案的合理性,高昂的測試成本和冗長的測試工期影響了規(guī)劃效率。
基于此,提出了基于大數(shù)據(jù)分析的移動通信網(wǎng)絡(luò)規(guī)劃方法,通過大數(shù)據(jù)工具分析海量數(shù)據(jù),實現(xiàn)用戶業(yè)務(wù)趨勢預(yù)測、用戶價值挖掘、用戶感知評估分析,進(jìn)而能夠以用戶為中心、面向具體業(yè)務(wù)場景展開通信網(wǎng)絡(luò)規(guī)劃。同時,該方法能夠綜合分析CQT(Call Quality Test,呼叫質(zhì)量撥打測試)、DT(Drive Test,路測)等多種前端測試數(shù)據(jù)和信令數(shù)據(jù)、位置數(shù)據(jù)、用戶業(yè)務(wù)信息等大量后臺數(shù)據(jù),克服單一數(shù)據(jù)分析的局限,不僅能夠大規(guī)模降低測試成本、縮短方案制定時間,而且還提高了方案的科學(xué)合理性。
2 基于大數(shù)據(jù)分析的移動通信網(wǎng)絡(luò)規(guī)劃
體系
如圖1所示,本文提出的移動通信網(wǎng)絡(luò)規(guī)劃體系可分為數(shù)據(jù)層、管理層、業(yè)務(wù)層和展示層,各層均與大數(shù)據(jù)密切相關(guān)。
2.1 大數(shù)據(jù)數(shù)據(jù)層
該層采用HDFS數(shù)據(jù)庫和Hbase數(shù)據(jù)庫管理通信網(wǎng)絡(luò)相關(guān)的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)主要來自于網(wǎng)管側(cè)和計費側(cè),包括:核心網(wǎng)管數(shù)據(jù)、詳單數(shù)據(jù)、網(wǎng)優(yōu)平臺數(shù)據(jù)、投訴數(shù)據(jù)、用戶信息表等,這些數(shù)據(jù)經(jīng)過預(yù)處理、算法處理后,按照標(biāo)準(zhǔn)數(shù)據(jù)格式存放在Hbase里面。
2.2 大數(shù)據(jù)管理層
該層基于Hadoop管理平臺建立特定的數(shù)據(jù)預(yù)處理腳本和算法模型,實現(xiàn)對用戶價值和用戶感知數(shù)據(jù)的分析管理。
數(shù)據(jù)的預(yù)處理主要包括確實數(shù)據(jù)處理以及噪音數(shù)據(jù)處理。為分析用戶價值和用戶感知,本系統(tǒng)用到的大數(shù)據(jù)分析算法模型主要有層次分析法和聚類閾值法。
2.3 大數(shù)據(jù)業(yè)務(wù)層
該層是對用戶價值和用戶感知業(yè)務(wù)實施梳理與管理,對影響用戶價值和感知業(yè)務(wù)的各維度進(jìn)行分析并找出其關(guān)聯(lián)關(guān)系。例如:用戶價值與收入、終端、業(yè)務(wù)、套餐的各維度關(guān)聯(lián)關(guān)系的梳理;用戶感知與回落之間的關(guān)系梳理等。
2.4 大數(shù)據(jù)展示層
該層是以圖表進(jìn)行展示數(shù)據(jù)分析結(jié)果,輔助開展通信規(guī)劃,重點是對用戶價值與感知進(jìn)行地理化展現(xiàn)、相關(guān)圖表的輸出。
3 用戶價值與感知評價分析方法構(gòu)建
3.1 用戶價值評價體系構(gòu)建
通信領(lǐng)域中的用戶價值評估是一個多層次、多因素的問題,需要針對相關(guān)的業(yè)務(wù)構(gòu)建評價指標(biāo)體系,能夠全面考慮用戶的收入特征、層次結(jié)構(gòu)、業(yè)務(wù)特征相互聯(lián)系。
(1)建立用戶價值評價體系結(jié)構(gòu)模型――AHP分析法
采用AHP法評價用戶價值時,首先是把用戶價值進(jìn)行梳理,建立出以業(yè)務(wù)為基礎(chǔ)的層次結(jié)構(gòu)模型,然后將用戶價值分解成收入、套餐、業(yè)務(wù)和終端4部分。具體如圖2所示:
用戶價值評價模型的層次一般分為:
最高層:用戶價值。
中間層:用戶潛力和消費能力。
最底層:用戶潛力包括用戶的套餐指標(biāo)與終端指標(biāo);消費能力包括用戶的收入指標(biāo)與業(yè)務(wù)指標(biāo)。
基于以上的維度進(jìn)行評分,可將評分落到各基站扇區(qū),根據(jù)評分做出扇區(qū)化的圖層,并將網(wǎng)絡(luò)的價值扇區(qū)進(jìn)行地理化呈現(xiàn)。
(2)確定用戶價值評價模型各指標(biāo)權(quán)重
以AHP法確定用戶價值評價模型各指標(biāo)的權(quán)重分為以下兩步:
首先,構(gòu)建遞階層次結(jié)構(gòu)。如圖2所示,目標(biāo)層是用戶價值,該層是建立評價模型的目的和追求的最終結(jié)果。一級指標(biāo)層為{用戶潛力,消費能力};二級指標(biāo)層包括套餐、終端、收入、業(yè)務(wù)等。
其次,要建立判斷矩陣。根據(jù)模型同一層級的相關(guān)指標(biāo)體系指標(biāo)可構(gòu)造判斷矩陣,將同一層次的指標(biāo)元素按照其上層指標(biāo)元素的重要性進(jìn)行兩兩比較,判斷相對重要程度。一般都會邀請通信專業(yè)人士和資深人員組成專家小組,依據(jù)他們的通信專業(yè)知識和研究經(jīng)驗進(jìn)行評估,構(gòu)造判斷矩陣。
(3)綜合權(quán)重計算用戶價值
針對移動通信系統(tǒng),服從一定社會(地理和邏輯)分布的具有不同消費能力、行為和移動特征的客戶群體,在通信過程中形成的具有運營價值的業(yè)務(wù)活動區(qū)域叫做價值區(qū)域。
價值區(qū)域可以采用收入、終端、用戶、業(yè)務(wù)(數(shù)據(jù)和語音)“四維度”,基于各自評分標(biāo)準(zhǔn)進(jìn)行評分;將評分落到各基站扇區(qū),再根據(jù)評分做出扇區(qū)化的圖層,就可以將網(wǎng)絡(luò)的價值扇區(qū)進(jìn)行地理化呈現(xiàn)。
根據(jù)AHP法得出的權(quán)重以及各維度的評分標(biāo)準(zhǔn),可以算出各小區(qū)的綜合評分;再根據(jù)綜合評分,可定義TOP30%為高價值扇區(qū),TOP30%~TOP50%為中價值扇區(qū),TOP50%~TOP80%為一般價值扇區(qū),TOP80%以上為低價值扇區(qū);最后,根據(jù)高低價值區(qū)域的評定,可以將網(wǎng)絡(luò)的價值扇區(qū)進(jìn)行地理化呈現(xiàn)。
該價值分析結(jié)果在規(guī)劃中可進(jìn)一步拓展到區(qū)域?qū)用妗⑽⒕W(wǎng)格層面,從而實現(xiàn)網(wǎng)絡(luò)建設(shè)目標(biāo)精準(zhǔn)定位,以更好地指導(dǎo)網(wǎng)絡(luò)資源投放。
3.2 用戶感知分析方法
(1)建立用戶感知評價體系結(jié)構(gòu)模型
如圖3所示,與用戶價值評價體系結(jié)構(gòu)模型建立的方法相似,仍采用AHP分析法,用戶感知評價模型可分為:
最高層:用戶感知。
中間層:網(wǎng)絡(luò)覆蓋和網(wǎng)絡(luò)質(zhì)量。
最底層:網(wǎng)絡(luò)覆蓋主要為MR(Measurement Report,測量報告)覆蓋指標(biāo);網(wǎng)絡(luò)質(zhì)量包括HSDPA(High Speed Downlink Packet Access,高速下行分組接入)用戶速率與3G回落指標(biāo)。
(2)確定用戶感知評價模型各指標(biāo)權(quán)重
與用戶價值評價模型各指標(biāo)權(quán)重計算方法相似。
首先,構(gòu)建遞階層次結(jié)構(gòu)。如圖3所示,目標(biāo)層是用戶感知,該層是建立用戶感知評價模型的目的和追求的最終結(jié)果。一級指標(biāo)層為{網(wǎng)絡(luò)覆蓋,網(wǎng)絡(luò)質(zhì)量};二級指標(biāo)層包括MR覆蓋指標(biāo)、HSDPA用戶速率、3G回落指標(biāo)等。
其次,建立判斷矩陣。由專家根據(jù)經(jīng)驗確定權(quán)重。
(3)綜合權(quán)重計算用戶感知
用戶感知可以采用MR覆蓋指標(biāo)、HSDPA用戶速率、3G回落指標(biāo)“三維度”,按照評分標(biāo)準(zhǔn)進(jìn)行評分,再將評分結(jié)果落到各基站扇區(qū),做出扇區(qū)化圖層實現(xiàn)網(wǎng)絡(luò)感知的地理化呈現(xiàn)。
3.3 價值與感知聯(lián)合評估
為了更好地指導(dǎo)網(wǎng)絡(luò)規(guī)劃建設(shè),可將用戶價值分析方法和用戶感知分析方法聯(lián)合起來,建立4×3的價值與感知聯(lián)合評估矩陣,針對不同矩陣中的網(wǎng)格分別制定對應(yīng)的資源投放策略。
價值與感知聯(lián)合評估矩陣中,不同網(wǎng)格的資源投放策略建議如表1所示(紅色、綠色區(qū)域為重點投資區(qū)域)。
4 應(yīng)用案例
在某運營商本地網(wǎng)的無線網(wǎng)絡(luò)規(guī)劃中,運用上述的分析方法對2014年6月的7 000萬條語音原始詳單、5億條數(shù)據(jù)原始詳單、238萬條用戶原始信息詳單進(jìn)行了大數(shù)據(jù)分析。
4.1 價值區(qū)域分析
(1)終端分布分析
網(wǎng)上現(xiàn)有用戶約110萬戶,其中支持3G業(yè)務(wù)的終端56萬戶,占比50.7%,僅支持2G業(yè)務(wù)的終端54萬戶,占比49.3%;約一半用戶終端不支持3G業(yè)務(wù),3G終端使用者中有一半終端使用的是2G套餐。
(2)業(yè)務(wù)分布分析
現(xiàn)網(wǎng)用戶的業(yè)務(wù)分布統(tǒng)計情況是:語音業(yè)務(wù)63%承載在2G網(wǎng)絡(luò)上,37%承載在3G網(wǎng)絡(luò)上;數(shù)據(jù)流量2G承載24%,3G承載76%??紤]到3G網(wǎng)絡(luò)的業(yè)務(wù)體驗更好,且網(wǎng)絡(luò)資源更為豐富,應(yīng)通過各種措施加快業(yè)務(wù)的遷移,促進(jìn)2G/3G網(wǎng)絡(luò)的融合發(fā)展。
(3)套餐分布分析
現(xiàn)有用戶的套餐數(shù)據(jù)統(tǒng)計結(jié)果如圖4所示:
從圖4統(tǒng)計分布可知,低端用戶貢獻(xiàn)了61%的收入,但占用了73%的流量資源和65%的語音資源。低端用戶單位收入消耗的網(wǎng)絡(luò)資源更高,說明高流量不一定帶來高收入;市場營銷策略是影響用戶規(guī)模、用戶行為以及網(wǎng)絡(luò)資源使用的主要因素,為此,建議規(guī)劃與市場應(yīng)緊密結(jié)合,以計劃為先、網(wǎng)絡(luò)先行,市場與建設(shè)互相配合、逐步推進(jìn)。
(4)用戶收入分布分析
從用戶收入角度分析,結(jié)果如表2所示:
從表2統(tǒng)計分析可知,使用2G套餐2G終端ARPU(Average Revenue Per User,每用戶平均收入)值低于2G套餐3G終端,3G套餐2G終端ARPU值低于3G套餐3G終端,3G套餐ARPU值整體高于2G套餐,3G終端ARPU值整體高于2G終端。
從以上“收入、套餐、終端、業(yè)務(wù)”四維度進(jìn)行扇區(qū)化統(tǒng)計,各扇區(qū)統(tǒng)計結(jié)果如圖5所示:
從圖5統(tǒng)計分布可知,高價值小區(qū)數(shù)占比為30%,收入占比達(dá)到72%;中價值小區(qū)數(shù)占比為20%,收入占比達(dá)到16%;高/中價值全網(wǎng)小區(qū)數(shù)占比為50%,收入占比達(dá)到88%,高價值小區(qū)各維度占比均接近70%,各維度評估合理。
4.2 用戶感知分析
(1)用戶速率分析
網(wǎng)絡(luò)單用戶下載速率統(tǒng)計分布如圖6所示:
從圖6統(tǒng)計分布可知,全網(wǎng)速率大于1Mbps的扇區(qū)占比為90.3%,需重點關(guān)注低于1Mbps區(qū)域的速率改善。
(2)3G用戶回落分析
3G用戶回落指標(biāo)統(tǒng)計分布如圖7所示:
從圖7統(tǒng)計分布可知,全網(wǎng)回落評估指標(biāo)差的扇區(qū)占比為23.2%,需重點關(guān)注回落評估指標(biāo)差的扇區(qū)的深度覆蓋問題。
(3)用戶感知MR覆蓋分析
對MR數(shù)據(jù)中扇區(qū)級的RSCP(Received Signal Code Power,接收信號碼功率)進(jìn)行統(tǒng)計,其分布如圖8所示:
從圖8統(tǒng)計分布可知,全網(wǎng)MR覆蓋指標(biāo)差的扇區(qū)占比為20.87%,需重點關(guān)注MR覆蓋指標(biāo)差的扇區(qū)的深度覆蓋問題。
4.3 價值與感知聯(lián)合分析
綜合以上價值區(qū)域及用戶感知分析,按照專家法取定的權(quán)重對各維度指標(biāo)進(jìn)行綜合評分,得到全網(wǎng)各小區(qū)的綜合評估分析結(jié)果,統(tǒng)計各類小區(qū)占比如圖9所示:
從圖9統(tǒng)計分布可知,全網(wǎng)綜合評估高/中價值扇區(qū)中感知中/差的扇區(qū)占比為34%,這部分區(qū)域?qū)⑹潜敬我?guī)劃中需要重點投入網(wǎng)絡(luò)資源的區(qū)域。具體分布如圖10所示:
5 結(jié)束語
綜上所述,通過對現(xiàn)網(wǎng)用戶的收入分布、終端分布、套餐、業(yè)務(wù)、用戶感知等多維度分析,可精準(zhǔn)定位高價值扇區(qū)及高價值區(qū)域,以進(jìn)一步指導(dǎo)網(wǎng)絡(luò)的精準(zhǔn)化規(guī)劃設(shè)計,引導(dǎo)投資的精準(zhǔn)投放。除此之外,基于用戶價值和用戶感知的多維度分析還可以應(yīng)用于市場營銷、渠道規(guī)劃等領(lǐng)域。
基于大數(shù)據(jù)的價值分析對運營商而言,是市場驅(qū)動、精細(xì)化管理的重要途徑,有利于改變傳統(tǒng)的經(jīng)營模式,改善用戶感知、增強(qiáng)自身競爭力,從而能夠有效應(yīng)對來自于虛擬運營和OTT業(yè)務(wù)的沖擊。
參考文獻(xiàn):
[1] 黃勇軍,馮明,丁圣勇,等. 電信運營商大數(shù)據(jù)發(fā)展策略探討[J]. 電信科學(xué), 2013(3): 6-11.
[2] 劉旭峰,耿慶鵬,許立群. 運營商獲取移動互聯(lián)網(wǎng)用戶價值的策略研究[J]. 郵電設(shè)計技術(shù), 2012(8): 9-12.
[3] 袁首. 多網(wǎng)協(xié)同下的電信無線網(wǎng)絡(luò)規(guī)劃方法研究[D]. 北京: 北京郵電大學(xué), 2012.
[4] 曹艷艷. 3G無線網(wǎng)絡(luò)規(guī)劃[D]. 濟(jì)南: 山東大學(xué), 2005.
[5] 李勇輝. 大數(shù)據(jù)概念辨析及應(yīng)對措施[J]. 互聯(lián)網(wǎng)天地, 2014(1): 11-14.
[6] 龍青良,李巍,呂非彼. 基于用戶感知的WCDMA無線資源效能評估方法研究[J]. 郵電設(shè)計技術(shù), 2014(9): 33-39.
[7] 朱強(qiáng). 3G無線網(wǎng)絡(luò)規(guī)劃和優(yōu)化的探討[J]. 通信世界, 2005(30): 57.
[8] 任毅. 3G無線網(wǎng)絡(luò)規(guī)劃流程[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2005(11): 15-18.
0.引言
為了評測區(qū)域內(nèi)電網(wǎng)調(diào)度能力,根據(jù)調(diào)度能力評測結(jié)果,調(diào)整輸變電調(diào)度方案,提高變壓器等主要設(shè)備的可靠運行,合理利用電網(wǎng)中各項資源和設(shè)備。本發(fā)明的目的是提供一種基于計算機(jī)實現(xiàn)的評測電網(wǎng)調(diào)度能力的方法,該方法通過對電壓、有功功率、無功功率的分析,保持各個變壓器都處于最佳工作狀態(tài),提高設(shè)備使用壽命,降低設(shè)備故障率,降低設(shè)備運行的電能損耗,提高電網(wǎng)運行的可靠性,提升電網(wǎng)調(diào)度水平。
1.大數(shù)據(jù)分析評測電網(wǎng)的現(xiàn)狀
隨著我國城市化的發(fā)展逐漸加快,我國對電力的需求也在逐漸的增多,未來十幾甚至幾十年,電力需求的增長主要集中在城市地區(qū)。這也就對我國的電網(wǎng)帶來很大的挑戰(zhàn),城市電網(wǎng)是城市的重要基礎(chǔ)設(shè)施,也是電力網(wǎng)的重要組成部分。建設(shè)好城市電網(wǎng)對滿足城市經(jīng)濟(jì)發(fā)展、人民生活水平提高具有重大意義。但是,由于我國長期以來收著“重主網(wǎng)、輕配網(wǎng)”的思想,導(dǎo)致我國很長一段時間內(nèi),對電網(wǎng)的投資非常的少,城市的電網(wǎng)發(fā)展普遍落后于高壓電網(wǎng)[1]。導(dǎo)致我國在很長一段時間內(nèi),處于用電不平衡的情況,很多的地方在年前或者重大節(jié)日之前就會出現(xiàn)的停電的現(xiàn)象。
2.大數(shù)據(jù)分析評測電網(wǎng)調(diào)度能力的具體方法
2.1獲取兩卷變或三卷變高低壓側(cè)的監(jiān)控數(shù)據(jù)
該方法主要是用根據(jù)變壓器端的終端設(shè)備,來獲取的,首先通過各地市部署的調(diào)度EMS系統(tǒng),將變電站中各變壓器的運行情況準(zhǔn)確的監(jiān)控,通過變壓器內(nèi)的監(jiān)控元件,對變壓器的的運行情況、采集電壓、有功負(fù)荷、無功負(fù)荷等檢測數(shù)據(jù),按指定頻率采集。然后將采集的數(shù)據(jù)通過生產(chǎn)區(qū)的專用網(wǎng)絡(luò)進(jìn)行傳輸,通過生產(chǎn)區(qū)的安全交換機(jī)制放置到電力系統(tǒng)信息內(nèi)網(wǎng),開始清洗、篩選,去除設(shè)備檢測的異常數(shù)據(jù),保留有效數(shù)據(jù)用于負(fù)載率分析該評測電網(wǎng)調(diào)度能力工具通過在信息內(nèi)網(wǎng)中載入電網(wǎng)運行的監(jiān)控數(shù)據(jù)[2]。
2.2得到變壓器實際功率與額定功率的比值
通過對變壓器內(nèi)高低壓側(cè)的檢測數(shù)據(jù),計算變壓器實際功率與額定功率的比值,負(fù)責(zé)率分析,接下來對采集的調(diào)度EMS系統(tǒng)的電網(wǎng)運行數(shù)據(jù)進(jìn)行計算,負(fù)載率有兩種計算方法,一是根據(jù)選定的地區(qū)、時間段,使用公式二“有功負(fù)荷與無功負(fù)荷平方根/容量”計算每個時點該地區(qū)各個變壓器的負(fù)載率;二是根據(jù)選定的地區(qū)、時間段,使用公式“有功負(fù)荷/(容量*0.95)”計算每個時點該地區(qū)各個變壓器的負(fù)載率[3]。
2.3計算各個變壓器的平均負(fù)載率以及平均負(fù)載率的平均值
首先要通過選定的地區(qū)、時間段,得到該地區(qū)在本時間段內(nèi)各個變壓器的平均負(fù)載率以及平均負(fù)載率的平均值。然后再計算各個變壓器平均負(fù)載率的均方差,由變壓器的均方差,判斷選定區(qū)域在該時間段的調(diào)度運行能力。主變不均衡度分析,根據(jù)選定地區(qū)和時間段,統(tǒng)計負(fù)載率分析結(jié)果,得出平均負(fù)載率[4]。根據(jù)平均負(fù)載率計算各個變壓器平均負(fù)載率的均方差,作為變壓器的不均衡度,將結(jié)果逐級放大,能夠得出變壓器、變電站、縣公司、市公司乃至網(wǎng)省公司在該時間段的調(diào)度健康情況,從而有效的調(diào)整調(diào)度策略和計劃,改善電網(wǎng)運行情況。
3.大數(shù)據(jù)分析評測電網(wǎng)調(diào)度能力的應(yīng)用
3.1調(diào)度EMS數(shù)據(jù)采集
要對EMS數(shù)據(jù)采集,首先要制定EMS系統(tǒng)監(jiān)控數(shù)據(jù)的格式,然后加載指定格式的調(diào)度數(shù)據(jù),其中指定數(shù)據(jù)額格式要求主要為:(1)按“變電站+地區(qū)+變電站電壓等級+主變名稱+時間”的順序排序,每小時記錄一次,主要記錄每個整點、時點的有功、無功負(fù)荷該數(shù)據(jù)容量的單位是MVA,負(fù)荷的單位是MW。(2)時間,變電站,地區(qū),變電站電壓等級,主變名稱,繞組電壓,容量,有功負(fù)荷值,無功負(fù)荷值。(3)變電站的數(shù)據(jù)采集按照一定的順序進(jìn)行,不可以同時多個變電站的數(shù)據(jù)進(jìn)行采集。
在這個過程中還要對數(shù)據(jù)進(jìn)行“清洗”。清洗的流程為:(1)使用8個逗號作為數(shù)據(jù)的分隔符,分別隔開不同字段的數(shù)據(jù)。如果有多余逗號或缺逗號或兩個逗號中間為空的行,則該行數(shù)據(jù)無效。(2)在計算的過程中除了容量、有功負(fù)荷值及無功負(fù)荷值外,其他各字段如數(shù)據(jù)超長,則頁面拋出提示錯誤,結(jié)束導(dǎo)入。(3)廠站電壓等級為110kV的變壓器容量小于等于100MVA(系統(tǒng)用戶可以在管理端修改此值大?。?,否則該行數(shù)據(jù)無效。
3.2負(fù)載率計算
負(fù)載率計算有兩種情況,分別是近似計算和精確計算,其中近似計算效率高,能夠很快得到近似結(jié)果。但是在常規(guī)檢查時可使用本公式計算;精確計算算法相對復(fù)雜、比較耗時,但是計算準(zhǔn)確,通常用于分析調(diào)度情況時使用。
簡便公式為:
計算要求:
1、選定地區(qū)、場站或主變和時間段;
2、根據(jù)選定的地區(qū)、時間段,使用公式計算每個時點該地區(qū)各個變壓器的負(fù)載率;
3、使用意義在于根據(jù)負(fù)載率大小得出各變壓器負(fù)載率的最高或最低時點,從而判斷當(dāng)前電網(wǎng)的負(fù)荷情況。
精確公式:
計算方法:
1、選定地區(qū)、場站或主變和時間段;
2、根據(jù)選定的地區(qū)、時間段,使用公式二計算每個時點該地區(qū)各個變壓器的負(fù)載率;
3、使用意義在于根據(jù)負(fù)載率大小得出各變壓器負(fù)載率的最高或最低時點,從而判斷當(dāng)前電網(wǎng)的負(fù)荷情況。
4.結(jié)語
該發(fā)明可及時調(diào)整調(diào)度方案,從而均衡電網(wǎng)的運行負(fù)荷,保持各個變壓器都處于最佳工作狀態(tài),提高設(shè)備使用壽命,降低設(shè)備故障率,降低設(shè)備運行的電能損耗,提高電網(wǎng)運行的可靠性,提升電網(wǎng)調(diào)度水平,對提高大數(shù)據(jù)分析電網(wǎng)調(diào)度能力具有顯著的作用。
參考文獻(xiàn)
[1]李庚銀,羅艷,周明,等.基于數(shù)學(xué)形態(tài)學(xué)和網(wǎng)格分形的電能質(zhì)量擾動檢測及定位[J].中國電機(jī)工程學(xué)報,2012,26(03):25-30.
所謂的交通事故預(yù)測是根據(jù)已發(fā)生交通事故的數(shù)據(jù)進(jìn)行統(tǒng)計,在對事故原因進(jìn)行分析的基礎(chǔ)上,探尋事故規(guī)律,以針對交通事故做出更為合理的推測和判斷。當(dāng)前,交通事故預(yù)測方法相對較為多樣,如回歸分析、時間序列等,雖然都能對交通事故做出科學(xué)合理的決策性指導(dǎo),但各具優(yōu)缺點和適用條件,因而有關(guān)人員應(yīng)在遵循交通事故預(yù)測思想的基礎(chǔ)上,對幾種主要預(yù)測方法進(jìn)行分析,確保交通部門人員能夠根據(jù)實際情況而合理選擇交通事故預(yù)測方法。
1 交通事故預(yù)測思想
交通事故對人類造成的危害相對較大,對人類產(chǎn)生嚴(yán)重的威脅。從我國發(fā)展實踐中可知,交通事故在一定程度上制約我國經(jīng)濟(jì)的發(fā)展進(jìn)程,尤其對人類社會福利、醫(yī)療保險等方面的影響較大。據(jù)不完全統(tǒng)計,2015年全年間,我國交通事故約為10597358起,死亡人數(shù)約為68432人,財產(chǎn)損失高達(dá)10億元以上??梢?,交通事故威脅隱患相對較大。交通事故預(yù)測能夠根據(jù)已發(fā)生交通事故進(jìn)行統(tǒng)計、分析、處理,在遵循規(guī)律的基礎(chǔ)上,對未來可能發(fā)生的交通事故作出科學(xué)合理的預(yù)測,該預(yù)測結(jié)果以科學(xué)邏輯推斷為基礎(chǔ)。就交通事故原因而言,道路環(huán)境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預(yù)測,我國交通部門人員能夠?qū)煌ㄊ鹿首鞒隹茖W(xué)合理的判斷和制定有效的預(yù)防策略,以最大限度降低和消除交通事故隱患。
2 交通事故主要預(yù)測方法
2.1 回歸分析預(yù)測法
回歸分析預(yù)測法在交通事故預(yù)測中的有效應(yīng)用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預(yù)測法,通過對自變量和因變量之間關(guān)系問題的探討,對因變量趨勢加以預(yù)測,其模型為:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分別表示臨時人口、常住人口、機(jī)動車輛、自行車、道路長度、道路面積、燈控路口、交通標(biāo)志、交通標(biāo)線、失控部位、交警人數(shù)。
其次,英國倫敦大學(xué)SemeedR.J教授對歐洲國家十余載的交通事故資料進(jìn)行研究,提出非線性回歸分析預(yù)測法。對此,他建立冪函數(shù)曲線事故模型,
即:D=0.0003。其中D為交通事故死亡人數(shù);N是機(jī)動車保有量;P為人口數(shù)量。
回歸分析預(yù)測法能夠?qū)煌ㄊ鹿视绊懸蛩亻g的因果關(guān)系加以反應(yīng),以達(dá)到預(yù)測結(jié)果的目的,但對變化趨勢的反應(yīng)可能較為遲鈍。該預(yù)測方法適用于樣本量較大、數(shù)據(jù)波動小和極具規(guī)律性的預(yù)測實踐中。
2.2 時間序列預(yù)測法
時間序列預(yù)測法主要有兩種類型,分別為移動平均預(yù)測法和指數(shù)平滑預(yù)測法。首先,移動平均預(yù)測法是比較簡單的平滑預(yù)測技術(shù),通過計算項數(shù)時序平均值,對長期發(fā)展趨勢變化做出科學(xué)合理的預(yù)測。內(nèi)蒙古科技大學(xué)韋麗琴、徐勇勇利用時間序列ARIMA模型做出科學(xué)合理的預(yù)測分析,對交通事故加以預(yù)測。其次,指數(shù)平滑預(yù)測法的通式為:
Ft+1=αxt+(1-α)Ft
時間序列預(yù)測法屬于定量預(yù)測方法,擬合效果良好,但在短期預(yù)測中,受諸多因素干擾影響較大,使預(yù)測結(jié)果具有不確定性。該方法適用于國內(nèi)縣區(qū)等區(qū)域范圍較小的預(yù)測實踐中。
2.3 灰色馬爾科夫鏈預(yù)測法
道路交通系統(tǒng)屬于動態(tài)時變系統(tǒng),但影響交通安全的因素多且復(fù)雜。在灰色馬爾科夫鏈預(yù)測法的指導(dǎo)下,相關(guān)人員能夠通過灰色預(yù)測模型,做出短期預(yù)測,以縮小預(yù)測區(qū)間,提高預(yù)測效率。云南交通職業(yè)技術(shù)學(xué)院王剛對灰色馬爾科夫鏈預(yù)測法而建立模型,對交通事故進(jìn)行預(yù)測,根據(jù)實踐可知,基于該模型的預(yù)測精確度十分高,取得良好的預(yù)測成效。
灰色預(yù)測以短期預(yù)測為主,馬爾科夫鏈預(yù)測以長期預(yù)測為主,通過二者結(jié)合,可提高預(yù)測精度,但如若數(shù)據(jù)變化大,則灰色模型的吻合度和精度下降。借助該預(yù)測方法,能夠?qū)顟B(tài)下的轉(zhuǎn)移規(guī)律加以預(yù)測,并揭示交通事故時序變化總趨勢。
2.4 貝葉斯預(yù)測法
貝葉斯預(yù)測法主要相對于交通事故中的車速問題而言。在交通事故中,車速是重要影響因素,如若車輛速度過快,則駕駛員反應(yīng)的時間較少,其應(yīng)急策略不足,造成重大交通安全隱患。貝葉斯預(yù)測法能夠?qū)ξ磥斫煌ㄊ鹿拾l(fā)生的可能性進(jìn)行預(yù)測。該預(yù)測方法應(yīng)用中,必須建立在交通事故和車速有關(guān)聯(lián)的基礎(chǔ)之上,有助于交通部門人員更好開展數(shù)據(jù)統(tǒng)計和交通流進(jìn)行觀測。
2.5 灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測法
就灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測法而言,哈爾濱工業(yè)大學(xué)交通研究所和中國城市規(guī)劃設(shè)計研究院的裴玉龍與張宇提出該方法,旨在通過交通事故影響因素分析,對事故進(jìn)行進(jìn)一步解析,并建立合理的模型理論和確定預(yù)測指標(biāo),對未來交通事故發(fā)展趨勢加以預(yù)測。該預(yù)測方法的適應(yīng)性較強(qiáng),在我國交通事故預(yù)測工作實踐中有著較為有效的運用,可解決傳統(tǒng)預(yù)測方法難以解決的問題,建立在BP網(wǎng)絡(luò)基礎(chǔ)之上,并利用計算機(jī)開展輔計算活動。
2.6 多層遞階預(yù)測方法
多層遞階預(yù)測方法能夠規(guī)避傳統(tǒng)統(tǒng)計預(yù)測方法的缺陷,以現(xiàn)代控制理論“系統(tǒng)辨識”為重要基礎(chǔ),對對象的未來狀態(tài)做科學(xué)的預(yù)測。動態(tài)系統(tǒng)數(shù)學(xué)模型為:y(k)=。在交通事故預(yù)測中,多層遞階預(yù)測方法是大數(shù)據(jù)時代背景下的重要處理方式,有利于增強(qiáng)預(yù)測效果。
3 結(jié)論
交通部門對交通事故進(jìn)行合理的預(yù)測,有利于提高道路交通系統(tǒng)的安全系數(shù)。所以,相關(guān)人員合理選擇交通事故預(yù)測方法具有必要性,為規(guī)避交通事故而做出科學(xué)合理的決策。目前,使用較多的交通事故預(yù)測方法主要有:回歸分析預(yù)測法、時間序列預(yù)測法、灰色馬爾科夫鏈預(yù)測法、貝葉斯預(yù)測法、灰關(guān)聯(lián)分析及神經(jīng)網(wǎng)絡(luò)預(yù)測法等,因其各具優(yōu)缺點和適用條件,因而要求相關(guān)人員必須對系列問題進(jìn)行深入探究,確保公路交通事故預(yù)測的有效性。
參考文獻(xiàn)
[1]李景文,高桂清.交通事故預(yù)測分析[J].中國安全科學(xué)學(xué)報,2015,6(01):20-23.
[2]劉志強(qiáng).道路交通事故預(yù)測方法比較研究[J].交通與計算機(jī),2013,19(05):7-10.
0引言
Web技術(shù)的飛速發(fā)展產(chǎn)生了海量的用戶生成內(nèi)容,大量信息蘊藏其中,是潛在用戶決策支持的有價值資源。如何挖掘海量用戶生成內(nèi)容催生了數(shù)據(jù)分析人才的市場需求。麥肯錫全球研究院報告預(yù)計,美國在2018年數(shù)據(jù)分析人才缺口將達(dá)到50%~60%,甚至可能更大。我國政府提出的“互聯(lián)網(wǎng)+”行動計劃,使得數(shù)據(jù)幾乎滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域。在大數(shù)據(jù)時代,具有豐富經(jīng)驗的數(shù)據(jù)分析人才需求倍增。
1數(shù)據(jù)分析人才必備的重要素質(zhì)
數(shù)據(jù)分析人才能對行業(yè)已有數(shù)據(jù)進(jìn)行統(tǒng)計、分析、預(yù)測,能為企業(yè)經(jīng)營決策提供科學(xué)量化的分析依據(jù)。2007年,復(fù)旦大學(xué)首先在國內(nèi)開始培養(yǎng)數(shù)據(jù)分析人才,隨后香港中文大學(xué)、北京航空航天大學(xué)等高等院校也相繼開設(shè)了相關(guān)課程。分析上述高校人才培養(yǎng)計劃可知,數(shù)據(jù)分析人才應(yīng)該系統(tǒng)地掌握數(shù)據(jù)分析相關(guān)技能(主要包括數(shù)學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)分析、商業(yè)分析和自然語言處理等),應(yīng)具有較寬的知識面、獨立獲取知識的能力及較強(qiáng)的實踐能力和創(chuàng)新意識,是一種復(fù)合型專業(yè)人才。《中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》在數(shù)據(jù)人才一章中明確指出,數(shù)據(jù)分析人才的培養(yǎng)要從本科階段開始,要注重運用算法分析問題、解決問題,由此可見,計算思維能力是數(shù)據(jù)分析人才必須具備的重要素質(zhì)之一。
2計算思維能力培養(yǎng)現(xiàn)狀
自2002年以來,我國計算機(jī)教育專家將計算思維能力歸結(jié)為計算機(jī)專業(yè)人才必備的4大專業(yè)基本能力,并且強(qiáng)調(diào)計算思維能力是其他3項能力(算法設(shè)計與分析、程序設(shè)計與實現(xiàn)以及系統(tǒng)能力)的基石。那么,如何在大數(shù)據(jù)時代背景下,依托應(yīng)用型本科軟件工程試點專業(yè)建設(shè),培養(yǎng)軟件工程專業(yè)學(xué)生的計算思維能力,為社會輸送高質(zhì)量數(shù)據(jù)分析人才?計算思維能力的強(qiáng)弱主要表現(xiàn)為學(xué)生能否正確運用抽象與分解、遞歸、啟發(fā)式等方法解決計算求解問題。訓(xùn)練學(xué)生的計算思維能力可在算法與數(shù)據(jù)結(jié)構(gòu)以及算法設(shè)計與分析課程(以下簡稱算法類課程)的教學(xué)中進(jìn)行,因而算法類課程是本科階段培養(yǎng)數(shù)據(jù)分析人才的重要課程。
然而,在算法類課程的實際教學(xué)過程中,存在兩個較為常見的問題:
(1)學(xué)生理論聯(lián)系實際的能力薄弱。學(xué)生要達(dá)到靈活運用算法解決實際問題,必須掌握算法的核心思想,但由于算法類課程中許多概念抽象,一些經(jīng)典算法較為復(fù)雜,在這兩門課程的學(xué)習(xí)和實踐中,能體會到理論學(xué)習(xí)意義和動手實踐樂趣的學(xué)生很少。
(2)系統(tǒng)能力培養(yǎng)沒有受到教師的足夠重視。由于算法類課程相關(guān)的綜合設(shè)計課內(nèi)學(xué)時少,教師無法引導(dǎo)學(xué)生從系統(tǒng)的角度認(rèn)知綜合設(shè)計,并對其進(jìn)行分析、開發(fā)與應(yīng)用。
由此可見,在算法類課程的現(xiàn)有教學(xué)環(huán)節(jié)中,訓(xùn)練學(xué)生計算思維能力的機(jī)會較少,必須結(jié)合當(dāng)前數(shù)據(jù)分析人才市場需求的發(fā)展趨勢,重新審視算法類課程的定位和內(nèi)容,以達(dá)到夯實學(xué)生計算思維能力的目的。
3在算法類課程教學(xué)中培養(yǎng)學(xué)生計算思維能力的方法
從整體上,一個較高層次的數(shù)據(jù)分析人才應(yīng)該掌握7大版塊的知識結(jié)構(gòu),分別是數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)提取、數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)以及數(shù)據(jù)應(yīng)用。以數(shù)據(jù)分析人才驅(qū)動為導(dǎo)向,培養(yǎng)軟件工程專業(yè)學(xué)生計算思維能力的算法類教學(xué)方法主要是把算法類課程中算法分析與設(shè)計的思想融入數(shù)據(jù)分析中,用數(shù)據(jù)分析中的實際需求驅(qū)動學(xué)生學(xué)習(xí)書本上抽象的理論知識。以7大版塊中最重要的數(shù)據(jù)挖掘版塊作為載體,在算法類課程教學(xué)中培養(yǎng)學(xué)生的計算思維能力。
3.1基于實際數(shù)據(jù)分析任務(wù)的實驗項目設(shè)計
目前,國際權(quán)威學(xué)術(shù)組織IEEE International Conference on Data Mining(ICDM)已評選出數(shù)據(jù)挖掘的10大經(jīng)典算法:C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Navie Bayes和CART。在教學(xué)過程中,可以根據(jù)不同類型的應(yīng)用問題,結(jié)合這些經(jīng)典數(shù)據(jù)挖掘算法布置實驗任務(wù),對每一實驗任務(wù)制定實現(xiàn)該任務(wù)的實驗?zāi)康?、實驗要求、實驗?nèi)容、實驗步驟和預(yù)期實驗結(jié)果,讓學(xué)生清晰地理解并實現(xiàn)這些實驗任務(wù)。
以2013級軟件工程專業(yè)學(xué)生參加中國好創(chuàng)意的“互聯(lián)網(wǎng)情緒指標(biāo)和生豬價格的關(guān)聯(lián)關(guān)系挖掘和預(yù)測”為例,說明實驗項目的設(shè)計。
(1)實驗?zāi)康模横槍碜試鴥?nèi)互聯(lián)網(wǎng)的生豬歷年消費者情緒數(shù)據(jù),挖掘消費者情緒指標(biāo)和生豬價格之間的關(guān)聯(lián)關(guān)系。
(2)實驗要求:采用Apriori算法,對近期國內(nèi)五花肉價格及生豬價格進(jìn)行預(yù)測。
(3)實驗內(nèi)容及步驟:首先,對原始的生豬數(shù)據(jù)清洗是分析消費者情緒與生豬價格之間的關(guān)聯(lián)關(guān)系的第一個階段,其目的是刪除無關(guān)數(shù)據(jù);其次,統(tǒng)計與消費者正面情緒或消費者負(fù)面情緒同時出現(xiàn)的相關(guān)指標(biāo),并根據(jù)自定義的最小支持度閾值獲得正面情緒或負(fù)面情緒的頻繁項集;最后,根據(jù)自定義的置信度對獲得的頻繁項集進(jìn)行篩選,得到有意義的頻繁項集。
(4)預(yù)期實驗結(jié)果:解讀最終得到的頻繁項集,將挖掘的結(jié)果反饋到生豬養(yǎng)殖戶,讓其掌握生豬市場的供求關(guān)系。
個別有能力的學(xué)生還可以對以上內(nèi)容進(jìn)行拓展,從互聯(lián)網(wǎng)大數(shù)據(jù)中找出其他一些具有參考價值的生豬價格預(yù)測先導(dǎo)指標(biāo)。
實驗任務(wù)的編碼完成后,還要求學(xué)生從軟件開發(fā)的角度撰寫規(guī)范的項目報告,內(nèi)容包括項目的需求分析、總體設(shè)計、詳細(xì)設(shè)計、編碼與測試等。教師可通過報告清楚了解學(xué)生是否有良好的計算思維能力。針對計算思維能力薄弱的學(xué)生,教師可以再布置另外的實驗項目讓其訓(xùn)練。例如,在“互聯(lián)網(wǎng)情緒指標(biāo)和生豬價格的關(guān)聯(lián)關(guān)系挖掘和預(yù)測”實踐項目中,要求項目報告中有目標(biāo)場景、需求理解、方案創(chuàng)意說明、模型數(shù)據(jù)選取、數(shù)據(jù)分析、算法設(shè)計、實驗設(shè)計、結(jié)果分析、原型系統(tǒng)介紹等。
3.2算法類課程教學(xué)內(nèi)容拓展
由于本科階段算法類課程的教學(xué)內(nèi)容只涉及完成基于實際數(shù)據(jù)分析任務(wù)的基礎(chǔ)知識,不包括數(shù)據(jù)挖掘算法,這就需要教師在算法類課程中拓展教學(xué)內(nèi)容。因此,在教學(xué)過程中需要將經(jīng)典的數(shù)據(jù)挖掘算法與算法類課程的理論知識巧妙融合。為此,教師需要詳細(xì)分析實現(xiàn)每個數(shù)據(jù)分析任務(wù)需要的基本理論知識,然后按照書本相關(guān)內(nèi)容的先后順序串聯(lián)起來并編寫授課計劃,體現(xiàn)算法類課程精華內(nèi)容與實際數(shù)據(jù)分析任務(wù)的融合。為了保證學(xué)生對數(shù)據(jù)挖掘算法的深入理解,需要鼓勵其利用課余時間廣泛查閱相關(guān)資料,進(jìn)行自主學(xué)習(xí)。
在2013級軟件工程專業(yè)學(xué)生參加中國好創(chuàng)意的“互聯(lián)網(wǎng)情緒指標(biāo)和生豬價格的關(guān)聯(lián)關(guān)系挖掘和預(yù)測”競賽中,指導(dǎo)教師們利用課外時間給學(xué)生講解關(guān)聯(lián)規(guī)則挖掘算法的思想、原理、特點等。學(xué)生在學(xué)習(xí)關(guān)聯(lián)規(guī)則挖掘算法的過程中進(jìn)一步掌握了遞歸與分治思想、回溯法思想;理解了樹型存儲結(jié)構(gòu)對關(guān)聯(lián)規(guī)則挖掘算法性能的改進(jìn)。通過這樣的實踐,參賽學(xué)生完成的作品清晰展示了他們在學(xué)習(xí)算法類課程中培養(yǎng)的計算思維能力。
3.3計算思維能力培養(yǎng)的跟蹤
為了改進(jìn)軟件工程學(xué)生計算思維能力培養(yǎng)中可能存在的問題,收集應(yīng)用于13級軟件工程專業(yè)學(xué)生的實驗項目、授課計劃、項目報告、算法類課程的理論成績與實踐成績。通過跟蹤他們畢業(yè)設(shè)計的完成情況,分析曾在算法類課程上得到較好計算思維能力培養(yǎng)的學(xué)生的畢業(yè)設(shè)計情況,檢驗提出的方法。由于本研究的對象還沒有進(jìn)入畢業(yè)設(shè)計環(huán)節(jié),故只進(jìn)行算法類課程的理論成績與基于實際數(shù)據(jù)分析任務(wù)的實驗項目完成情況的分析。通過兩門課程期末考試成績可以看出,認(rèn)真完成實驗項目的學(xué)生理論考試成績普遍高于不認(rèn)真的學(xué)生,這充分說明基于實際數(shù)據(jù)分析任務(wù)的實驗項目能有效改進(jìn)目前算法類教學(xué)課程中存在的問題。
此外,還準(zhǔn)備通過學(xué)院學(xué)生管理部門跟蹤2013級軟件工程專業(yè)學(xué)生的就業(yè)情況和用人單位的反饋意見,了解學(xué)生的專業(yè)能力,及時修改計算思維能力的培養(yǎng)方法,為探索應(yīng)用型本科軟件工程試點專業(yè)建設(shè)提供有力支撐。
3.4充分利用移動平臺