時(shí)間:2023-03-23 15:05:43
序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過(guò)程,我們?yōu)槟扑]十篇大數(shù)據(jù)技術(shù)范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來(lái)更深刻的閱讀感受。
大數(shù)據(jù)(Big Data)是目前最重要的科學(xué)、技術(shù)和社會(huì)話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術(shù)和架構(gòu),具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經(jīng)濟(jì)地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價(jià)值。”
大數(shù)據(jù)定義有著如下的基本前提和含義。
① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長(zhǎng)。用世界著名的咨詢公司高德納(Gartner)研究報(bào)告的描述:“同一類型的數(shù)據(jù)量快速增長(zhǎng);數(shù)據(jù)增長(zhǎng)速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來(lái)源和新數(shù)據(jù)種類的不斷增加?!?/p>
② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)采集的技術(shù)發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲(chǔ)成為可能。網(wǎng)絡(luò)技術(shù)、移動(dòng)設(shè)備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術(shù)、氣候和環(huán)境監(jiān)測(cè)技術(shù)等等,每時(shí)每刻都在各種形式、各種類型的大量數(shù)據(jù)。
③ 計(jì)算技術(shù)的進(jìn)步與發(fā)展:現(xiàn)代計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫(kù)處理技術(shù)等可以處理各種形式的海量數(shù)據(jù),產(chǎn)生出大量的高附加值的數(shù)據(jù)、結(jié)果、狀態(tài)和知識(shí)。
④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術(shù)平臺(tái)對(duì)數(shù)據(jù)的綜合處理,造成了知識(shí)邊界擴(kuò)展、知識(shí)價(jià)值提升、知識(shí)衍生能力加快,它極大地影響到了企業(yè)、個(gè)人、社會(huì)和政府的決策,極大地促進(jìn)了社會(huì)生產(chǎn)力的發(fā)展,使掌握大數(shù)據(jù)技術(shù)者獲得了競(jìng)爭(zhēng)優(yōu)勢(shì)和難于模仿的核心競(jìng)爭(zhēng)力。因此,大數(shù)據(jù)技術(shù)也成為了國(guó)家的核心戰(zhàn)略資源。
大數(shù)據(jù)的含義廣博、技術(shù)領(lǐng)域廣泛、技術(shù)平臺(tái)多樣、作用效果巨大、影響意義深遠(yuǎn)。理解大數(shù)據(jù)的理論、方法和架構(gòu),適應(yīng)大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來(lái)的種種便利和收益,便能夠在大數(shù)據(jù)時(shí)代占領(lǐng)先機(jī)。
1.2 大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)技術(shù)的影響
大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫(kù)技術(shù)自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫(kù)技術(shù)也具有明顯的特殊性。
1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術(shù)面臨的新特點(diǎn)
數(shù)據(jù)量宏大。對(duì)數(shù)據(jù)庫(kù)技術(shù)影響最大、最直接的方面莫過(guò)于數(shù)據(jù)的爆炸性增長(zhǎng)。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴(kuò)展到GB,現(xiàn)在再擴(kuò)展到TB,不遠(yuǎn)的將來(lái)數(shù)據(jù)庫(kù)將經(jīng)常面對(duì)PB量級(jí)的數(shù)據(jù),這必然對(duì)數(shù)據(jù)庫(kù)的硬件架構(gòu)、數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)庫(kù)應(yīng)用產(chǎn)生重大的影響。
數(shù)據(jù)形式多樣。另外一個(gè)對(duì)數(shù)據(jù)庫(kù)技術(shù)產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進(jìn)行處理,并且和傳統(tǒng)關(guān)系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價(jià)值數(shù)據(jù)并不多,例如多張圖片定對(duì)象的變化,連續(xù)視頻影像中對(duì)特殊對(duì)象的跟蹤等等,其數(shù)據(jù)抽取方式、過(guò)濾方法和存儲(chǔ)、計(jì)算方式均有別于傳統(tǒng)數(shù)據(jù)庫(kù)。
單機(jī)或小型局域網(wǎng)的數(shù)據(jù)庫(kù)處理無(wú)法滿足。當(dāng)前,數(shù)據(jù)量爆炸式增長(zhǎng),數(shù)據(jù)類型日趨多樣,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的處理能力已難于滿足,需要新的數(shù)據(jù)庫(kù)處理技術(shù)。
傳統(tǒng)的并行數(shù)據(jù)庫(kù)的靈活性具有局限性。并行數(shù)據(jù)庫(kù)系統(tǒng)取得了輝煌的成績(jī),但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴(kuò)展成本非常高。這樣的系統(tǒng)適合于“相對(duì)固定結(jié)構(gòu)”的計(jì)算結(jié)構(gòu),例如機(jī)銀行業(yè)務(wù)管理系統(tǒng)或城市交通管理系統(tǒng)等。
結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化形式并存。讓數(shù)據(jù)庫(kù)有能力處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化(有時(shí)不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫(kù)技術(shù)的一項(xiàng)迫切要求。
對(duì)結(jié)果要求的模糊化。在大數(shù)據(jù)的時(shí)代,計(jì)算技術(shù)不僅限于回答“是/非”問(wèn)題,而是需要更多的模糊化結(jié)果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級(jí)左右地震、近一周國(guó)際往返機(jī)票將上漲……這些答案并不精確,但足以指導(dǎo)人們的活動(dòng)。非結(jié)構(gòu)化數(shù)據(jù)的處理結(jié)果常常是給出模糊化的答案。
新數(shù)據(jù)庫(kù)技術(shù)的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術(shù)的產(chǎn)生,為處理非結(jié)構(gòu)化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應(yīng)各自需要的新型數(shù)據(jù)庫(kù)系統(tǒng),相關(guān)的專家經(jīng)過(guò)分析和總結(jié)提出了NoSQL的設(shè)計(jì)理念,并創(chuàng)建了許多成功的產(chǎn)品。
1.2.2 新型數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)
與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比較,新型數(shù)據(jù)庫(kù)技術(shù)具有一些明顯的特點(diǎn),具體如下:
可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結(jié)構(gòu)化或數(shù)據(jù)代表性而人為地選取部分?jǐn)?shù)據(jù)或進(jìn)行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來(lái)控制結(jié)果的置信區(qū)間和置信度。新的數(shù)據(jù)庫(kù)處理技術(shù)試圖利用“全部數(shù)據(jù)”,完成對(duì)結(jié)果的計(jì)算和推斷。
使用更多的非結(jié)構(gòu)化數(shù)據(jù),而不是片面地強(qiáng)調(diào)全部使用結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化的高復(fù)雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結(jié)論和結(jié)果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術(shù)“以概率說(shuō)話”的特點(diǎn)。
不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復(fù)雜、混亂、無(wú)結(jié)構(gòu)化與確定、規(guī)整、結(jié)構(gòu)化數(shù)據(jù)之間做出平衡。
在遇到“使用全部數(shù)據(jù),得出模糊化結(jié)果”與“實(shí)用部分?jǐn)?shù)據(jù),得出準(zhǔn)確結(jié)論”的選擇時(shí),新型數(shù)據(jù)庫(kù)技術(shù)一般會(huì)選擇前者,從一個(gè)更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。
科學(xué)地在因果關(guān)系與相關(guān)關(guān)系中做出抉擇。如果數(shù)據(jù)總體支持因果關(guān)系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫(kù)那樣提供因果關(guān)系斷語(yǔ);如果數(shù)據(jù)計(jì)算量宏大、成本高昂或條件不具備,則把關(guān)注點(diǎn)由“因果關(guān)系”調(diào)整為“相關(guān)關(guān)系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關(guān)關(guān)系的選擇不能是隨機(jī)的,而是預(yù)先設(shè)計(jì)和規(guī)劃好的。
不同的數(shù)據(jù)庫(kù)開發(fā)理念,不同的應(yīng)用目標(biāo),不同的技術(shù)方案,早就了新型數(shù)據(jù)庫(kù)豐富多彩、特點(diǎn)各異的局面。
1.3 從傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)到非關(guān)系數(shù)據(jù)
在計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關(guān)系數(shù)據(jù)庫(kù)的概念和規(guī)則,這是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)重要的里程碑??频露x的關(guān)系數(shù)據(jù)庫(kù)具有結(jié)構(gòu)化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關(guān)系明確、一致性好的優(yōu)點(diǎn)。關(guān)系數(shù)據(jù)庫(kù)模型把數(shù)據(jù)庫(kù)操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結(jié)構(gòu)化查詢語(yǔ)言則把關(guān)系數(shù)據(jù)庫(kù)及其操作模式完整地固定下來(lái),其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫(kù)技術(shù)的重要基石。關(guān)系數(shù)據(jù)庫(kù)中定義的關(guān)系模型的實(shí)質(zhì)是二維表格模型,關(guān)系數(shù)據(jù)庫(kù)就是通過(guò)關(guān)系連接的多個(gè)二維表格之間的數(shù)據(jù)集合。當(dāng)前流行的數(shù)據(jù)庫(kù)軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關(guān)系數(shù)據(jù)庫(kù)。
到二十世紀(jì)八十年代后期,IBM的研究員提出了數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉(cāng)庫(kù)定義:“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定?!睌?shù)據(jù)倉(cāng)庫(kù)的進(jìn)步在于,它把決策支持定為數(shù)據(jù)庫(kù)中數(shù)據(jù)組織和管理的目標(biāo),從而把智能性和決策能力融入到數(shù)據(jù)庫(kù)中。Inmon之后,Ralph Kimball建立了更加方便、實(shí)用的“自底向上”數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術(shù)受到企業(yè)及廠家的歡迎并采納實(shí)施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉(cāng)庫(kù),但是它的出現(xiàn)誘發(fā)了商務(wù)智能和聯(lián)機(jī)分析技術(shù)的流行。
一、分布集群數(shù)據(jù)庫(kù)在大數(shù)據(jù)中的應(yīng)用
目前,許多數(shù)據(jù)增長(zhǎng)率很高的大型數(shù)據(jù)庫(kù)系統(tǒng)正被用于改善全球人類活動(dòng),如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫(kù)已成為提高數(shù)據(jù)訪問(wèn)速度的解決方案之一。為多種類型的用戶在多個(gè)存儲(chǔ)中組織數(shù)據(jù)訪問(wèn),分布集群數(shù)據(jù)庫(kù)的問(wèn)題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲(chǔ)中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時(shí)間的最佳方法之一?;谝?guī)則的聚類是提供數(shù)據(jù)庫(kù)自動(dòng)聚類和數(shù)據(jù)存儲(chǔ)模式解釋的解決方案之一,基于規(guī)則的集群通過(guò)分析屬性和記錄上的數(shù)據(jù)庫(kù)結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個(gè)集群,每個(gè)規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫(kù)是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點(diǎn)的可重用性,而節(jié)點(diǎn)本身就是圖形結(jié)構(gòu)的功能。為了實(shí)現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫(kù)可以通過(guò)分析記錄來(lái)處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫(kù)的圖形結(jié)構(gòu)由三種節(jié)點(diǎn)組成:起始節(jié)點(diǎn)、判斷節(jié)點(diǎn)和處理節(jié)點(diǎn)。開始節(jié)點(diǎn)表示節(jié)點(diǎn)轉(zhuǎn)換的開始位置;判斷節(jié)點(diǎn)表示要在數(shù)據(jù)庫(kù)中檢查的屬性。分布集群數(shù)據(jù)庫(kù)規(guī)則提取的節(jié)點(diǎn)準(zhǔn)備包括兩個(gè)階段:節(jié)點(diǎn)定義和節(jié)點(diǎn)排列。節(jié)點(diǎn)定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點(diǎn)排列是選擇重要的節(jié)點(diǎn),以便高效地提取大量規(guī)則。節(jié)點(diǎn)排列由以下兩個(gè)順序過(guò)程執(zhí)行,第一個(gè)過(guò)程是查找模板規(guī)則,第二個(gè)過(guò)程是結(jié)合第一個(gè)過(guò)程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過(guò)程中,分布集群數(shù)據(jù)庫(kù)規(guī)則提取中只使用了少數(shù)幾個(gè)屬性,它旨在增加獲得高支持模板的可能性。與沒(méi)有模板規(guī)則的方法相比,該節(jié)點(diǎn)排列方法具有更好的聚類結(jié)果,這兩個(gè)過(guò)程中的規(guī)則生成都是通過(guò)圖結(jié)構(gòu)的演化來(lái)實(shí)現(xiàn)。
二、在線規(guī)則更新系統(tǒng)的應(yīng)用
在線規(guī)則更新系統(tǒng)用于通過(guò)分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個(gè)節(jié)點(diǎn)都有自己的節(jié)點(diǎn)號(hào),描述每個(gè)節(jié)點(diǎn)號(hào)的節(jié)點(diǎn)信息。程序大小取決于節(jié)點(diǎn)的數(shù)量,這會(huì)影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點(diǎn)表示根據(jù)連接順序執(zhí)行的判斷節(jié)點(diǎn)序列的起始點(diǎn),開始節(jié)點(diǎn)的多個(gè)位置將允許一個(gè)人提取各種規(guī)則。判斷節(jié)點(diǎn)表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個(gè)起始節(jié)點(diǎn)開始的節(jié)點(diǎn)序列用虛線a、b和c表示,節(jié)點(diǎn)序列流動(dòng),直到支持判斷節(jié)點(diǎn)的下一個(gè)組合不滿足閾值。在節(jié)點(diǎn)序列中,如果具有已出現(xiàn)在上一個(gè)節(jié)點(diǎn)序列,將跳過(guò)這些節(jié)點(diǎn)。在更新每個(gè)集群中的規(guī)則時(shí),重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過(guò)程確定。當(dāng)計(jì)算集群中每個(gè)屬性和數(shù)據(jù)之間的輪廓值時(shí),閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過(guò)程中的判斷節(jié)點(diǎn)的屬性選擇。一些數(shù)據(jù)的庫(kù)存值和權(quán)重值低于0.85,因此這些值不包括在國(guó)民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個(gè)集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點(diǎn),進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過(guò)程,這是一個(gè)標(biāo)準(zhǔn)的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過(guò)程,對(duì)初始數(shù)據(jù)集進(jìn)行初始集群;改善規(guī)則更新過(guò)程,僅對(duì)輪廓值低于閾值的數(shù)據(jù)執(zhí)行。
三、大規(guī)模并行處理技術(shù)的應(yīng)用
中圖分類號(hào):TP311.13
關(guān)于數(shù)據(jù)方面的新名詞是層出不窮,云計(jì)算、物聯(lián)網(wǎng)的概念還沒(méi)有完全理解,大數(shù)據(jù)的概念又頻頻出現(xiàn)在媒體中,特別是今年“兩會(huì)”期間,在央視報(bào)道中,多次使用大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。大數(shù)據(jù)的概念從計(jì)算機(jī)業(yè)界也迅速傳播到各行各業(yè),與我們的日常生活也密切的聯(lián)系在一起。不但中國(guó)如此,2012年3月,奧巴馬宣布美國(guó)政府五大部門投資兩億美元啟動(dòng)“大數(shù)據(jù)研究與開發(fā)計(jì)劃”,【1】大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國(guó)的科研、教育與國(guó)家安全能力,美國(guó)政府以及把“大數(shù)據(jù)”技術(shù)上升到國(guó)家安全戰(zhàn)略的高度。其他國(guó)家也紛紛加大對(duì)大數(shù)據(jù)研究的資金投入,同時(shí),許多大公司企業(yè)也將此技術(shù)視作創(chuàng)新前沿。
1 大數(shù)據(jù)概念與特征
但是,到目前為止,業(yè)界關(guān)于大數(shù)據(jù)的概念尚未有統(tǒng)一的定義。最早將大數(shù)據(jù)應(yīng)用于IT環(huán)境的是著名的咨詢公司麥肯錫,它關(guān)于大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。另外,被引用較多得到大家認(rèn)可的還有維基百科的定義:大數(shù)據(jù)指數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)集合,現(xiàn)有的數(shù)據(jù)庫(kù)管理工具或傳統(tǒng)的數(shù)據(jù)處理應(yīng)用難以對(duì)其進(jìn)行處理。這些挑戰(zhàn)包括如捕獲、收集、存儲(chǔ)、搜索、共享、傳遞、分析與可視化等?!?】
當(dāng)前,較為統(tǒng)一的認(rèn)識(shí)是大數(shù)據(jù)有四個(gè)基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價(jià)值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念?!?】
首先,數(shù)據(jù)量龐大是大數(shù)據(jù)的最主要的特征,大數(shù)據(jù)的數(shù)據(jù)規(guī)模是以PB、EB、ZB量級(jí)為存儲(chǔ)單位的,數(shù)據(jù)量非常龐大。同時(shí),此類數(shù)據(jù)還在不斷的加速產(chǎn)生,因此,傳統(tǒng)的數(shù)據(jù)庫(kù)管理技術(shù)無(wú)法在短時(shí)間內(nèi)完成對(duì)數(shù)據(jù)的處理。第二,數(shù)據(jù)種類多。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)的數(shù)據(jù)類型種類繁多,包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)采取關(guān)系型數(shù)據(jù)庫(kù)較多,結(jié)構(gòu)單一,而大數(shù)據(jù)重點(diǎn)關(guān)注的是包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)不能適應(yīng)新的大數(shù)據(jù)的要求,傳統(tǒng)的數(shù)據(jù)處理方式也面臨著巨大的挑戰(zhàn)。第三,大數(shù)據(jù)的產(chǎn)生與存儲(chǔ)是動(dòng)態(tài)的,有的處理結(jié)果時(shí)效性要求很高,這就要求對(duì)數(shù)據(jù)能夠快速處理,數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別數(shù)據(jù)倉(cāng)庫(kù)的主要因素。數(shù)據(jù)產(chǎn)生的速度以及快速變化形成的數(shù)據(jù)流,超越了傳統(tǒng)的信息系統(tǒng)的承載能力。最后,數(shù)據(jù)價(jià)值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。大數(shù)據(jù)分析是采用原始數(shù)據(jù)的分析,保留了數(shù)據(jù)的全貌,因此一個(gè)事件的全部數(shù)據(jù)都會(huì)被保存,產(chǎn)生的數(shù)據(jù)量激增,而有用的信息可能非常少,因此價(jià)值密度偏低。
2 大數(shù)據(jù)可用性的面臨的技術(shù)與問(wèn)題
大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價(jià)值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強(qiáng)企業(yè)生產(chǎn)能力和競(jìng)爭(zhēng)能力的機(jī)會(huì),能夠給企業(yè)帶來(lái)巨大的潛在商業(yè)價(jià)值?!?】但不可否認(rèn)的是,大數(shù)據(jù)目前也面臨很多負(fù)面影響。低質(zhì)量低密度的數(shù)據(jù)也可能對(duì)決策造成致命性的錯(cuò)誤。如何把大數(shù)據(jù)從理論研究到企業(yè)應(yīng)用的轉(zhuǎn)變,還面臨很多問(wèn)題與挑戰(zhàn)。
(1)可用性理論體系的建立。大數(shù)據(jù)的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數(shù)據(jù)可用性、如何評(píng)估數(shù)據(jù)可用性、數(shù)據(jù)錯(cuò)誤自動(dòng)發(fā)現(xiàn)和修復(fù)依據(jù)什么理論、如何管理數(shù)據(jù)和數(shù)據(jù)融合、數(shù)據(jù)安全性采取何種策略和理論等一系列問(wèn)題。因此,要建立完整可用性理論體系,構(gòu)建統(tǒng)一的模型,為大數(shù)據(jù)的進(jìn)一步應(yīng)用提供堅(jiān)實(shí)的理論基礎(chǔ)。
(2)高質(zhì)量數(shù)據(jù)的獲取的能力。大數(shù)據(jù)技術(shù)最基礎(chǔ)的對(duì)象就是數(shù)據(jù),是一切應(yīng)用和分析決策的前提。因此,獲取高質(zhì)量數(shù)據(jù)是確保信息可用性的重要因素之一。隨著互聯(lián)網(wǎng)的數(shù)據(jù)不斷增大,物聯(lián)網(wǎng)的興起以及復(fù)雜物理信息系統(tǒng)的應(yīng)用,大數(shù)據(jù)的來(lái)源也多種多樣,數(shù)據(jù)模型千差萬(wàn)別,質(zhì)量也參差不齊,這就為加工整合數(shù)據(jù)帶來(lái)非常大的困難。
大數(shù)據(jù)是對(duì)事物最原始的全貌記錄,數(shù)據(jù)量規(guī)模很大,但是其中有用的信息非常少,因此,對(duì)于處理數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)并不是越多越好。如何提高數(shù)據(jù)中的有效數(shù)據(jù)是非常關(guān)鍵的。大量的數(shù)據(jù)中如果僅僅包含了少量的錯(cuò)誤數(shù)據(jù),對(duì)分析結(jié)果可能不會(huì)造成很大的影響。但是如果對(duì)錯(cuò)誤數(shù)據(jù)沒(méi)有有效控制的話,大量錯(cuò)誤數(shù)據(jù)的涌入很可能會(huì)得到完全錯(cuò)誤的結(jié)果。
因此,獲取高質(zhì)量數(shù)據(jù)的能力是大數(shù)據(jù)能否進(jìn)行實(shí)用的關(guān)鍵因素,否則只會(huì)在浪費(fèi)人力物力后獲得完全無(wú)效甚至錯(cuò)誤的結(jié)果。但是目前還缺乏系統(tǒng)的研究,對(duì)于出現(xiàn)的問(wèn)題還沒(méi)有很好的解決方案,在獲取數(shù)據(jù)方面的工作任重而道遠(yuǎn)。
目前,業(yè)界已經(jīng)從對(duì)大數(shù)據(jù)重要性的認(rèn)識(shí)階段,發(fā)展到實(shí)踐大數(shù)據(jù)必要性的戰(zhàn)略實(shí)施階段。中國(guó)市場(chǎng)在大數(shù)據(jù)概念產(chǎn)生的初期便已經(jīng)步入大數(shù)據(jù)認(rèn)知和探索階段,并逐步成為全球市場(chǎng)最具行動(dòng)力的市場(chǎng)之一。據(jù)IDC預(yù)測(cè),2013年中國(guó)大數(shù)據(jù)市場(chǎng)將達(dá)到1.8億美元。而賽迪顧問(wèn)數(shù)據(jù)顯示,到2016年,中國(guó)有望成為世界最大的大數(shù)據(jù)市場(chǎng),市場(chǎng)份額達(dá)到8.03億美元(約50億人民幣)。
數(shù)據(jù)改變世界
在感知化、物聯(lián)化和智能化的交會(huì)下,世界的面貌即將改變。
2013年7月11日,IBM 2013技術(shù)峰會(huì)(IBM Tech Summit 2013)在京舉行。牛津大學(xué)教授、大數(shù)據(jù)權(quán)威專家、《大數(shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格博士在會(huì)上表示:“大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型,正在變革我們的生活、工作和思維。中國(guó)是世界上最復(fù)雜的大數(shù)據(jù)國(guó)家,面臨著充滿變化的局面和無(wú)限的可能性,但是她同時(shí)也擁有最大的發(fā)展機(jī)會(huì)。因?yàn)樵诖髷?shù)據(jù)環(huán)境下,充分的數(shù)據(jù)樣本能夠幫助企業(yè)揭示規(guī)律,更好的洞察和預(yù)測(cè)未來(lái);另外,中國(guó)人憑借在數(shù)學(xué)和統(tǒng)計(jì)方面的優(yōu)勢(shì),成為全球矚目的大數(shù)據(jù)人才據(jù)點(diǎn)。我很高興看到,在IBM和牛津大學(xué)年初的大數(shù)據(jù)調(diào)研中,中國(guó)市場(chǎng)有四分之一的企業(yè)已經(jīng)步入大數(shù)據(jù)實(shí)踐階段。這表明中國(guó)不僅快速把握了創(chuàng)新的趨勢(shì),更有可能成為全球大數(shù)據(jù)領(lǐng)域的先驅(qū)?!?/p>
在大數(shù)據(jù)和分析領(lǐng)域,IBM已充分展現(xiàn)了在該市場(chǎng)的領(lǐng)先優(yōu)勢(shì)。近期,IBM被IT分析機(jī)構(gòu)capioIT評(píng)為2013年亞太區(qū)商業(yè)智能和分析解決方案供應(yīng)商行業(yè)第一名 。作為目前業(yè)界唯一能夠集咨詢、服務(wù)、軟硬件綜合實(shí)力,提供端到端全面整合解決方案的廠商,IBM相關(guān)產(chǎn)品和服務(wù)覆蓋了“大數(shù)據(jù)”相關(guān)領(lǐng)域的各個(gè)階段和各個(gè)領(lǐng)域。
IBM軟件集團(tuán)大中華區(qū)戰(zhàn)略及市場(chǎng)總監(jiān)吳立東認(rèn)為:在大數(shù)據(jù)時(shí)代,企業(yè)既可以基于數(shù)據(jù)更好地做到以客戶為中心,也可以利用大數(shù)據(jù)幫助企業(yè)整合后端業(yè)務(wù),從而更好地為客戶服務(wù)。
同時(shí),IBM在全球的大數(shù)據(jù)實(shí)踐已經(jīng)深入到包括中國(guó)在內(nèi)的全球市場(chǎng)的各個(gè)行業(yè)。包括電信、金融、醫(yī)療、零售、制造等全球30000家客戶已在IBM大數(shù)據(jù)平臺(tái)及大數(shù)據(jù)分析等技術(shù)和理念支持下獲得收益。
前不久,IBM更是推出了大數(shù)據(jù)方面的多款產(chǎn)品和技術(shù),大力提升了其分析產(chǎn)品的加速性能,簡(jiǎn)化了開發(fā)和運(yùn)營(yíng),并推出了企業(yè)級(jí)別的開源Hadoop系統(tǒng),同時(shí)推出了企業(yè)移動(dòng)業(yè)務(wù)解決方案MessageSight,以及升級(jí)DB2 10.5等系列產(chǎn)品。在認(rèn)知計(jì)算領(lǐng)域,更推出第一款面向消費(fèi)者的Waston應(yīng)用。其中,業(yè)內(nèi)首創(chuàng)的分析加速技術(shù)BLU Acceleration,延續(xù)了傳統(tǒng)的內(nèi)存管理系統(tǒng)功能,能夠幫助用戶更快速地抓取關(guān)鍵信息,并將數(shù)據(jù)分析速度提高25倍。全新的“大數(shù)據(jù)專家”PureData for Hadoop系統(tǒng)能夠大幅提升企業(yè)部署Hadoop的速度,同時(shí)降低部署難度。新版本企業(yè)級(jí)Hadoop產(chǎn)品InfoSphere BigInsights可以利用現(xiàn)有的SQL技術(shù),更便捷地開發(fā)應(yīng)用組件。
技術(shù)維新助力再現(xiàn)代化
隨著IT技術(shù)的進(jìn)一步發(fā)展,技術(shù)正在彰顯著前所未有的特殊作用,人們對(duì)技術(shù)的追求也越來(lái)越迫切。
IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠表示:“最新的IBM全球CEO調(diào)研顯示全球企業(yè)領(lǐng)導(dǎo)者將技術(shù)列為最重要的外部力量,而‘科技是第一生產(chǎn)力’一直被廣大中國(guó)的企業(yè)家和技術(shù)人們奉為至理名言。IBM認(rèn)為,在由新一代技術(shù)組成的智慧計(jì)算時(shí)代,中國(guó)的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運(yùn)用到自身的變革轉(zhuǎn)型之中。作為智慧地球的推進(jìn)者,IBM正在引領(lǐng)商業(yè)和科技的創(chuàng)新,通過(guò)業(yè)務(wù)前線化實(shí)現(xiàn)以客戶為中心的業(yè)務(wù)轉(zhuǎn)型,通過(guò)企業(yè)內(nèi)部全面整合大幅優(yōu)化流程和運(yùn)營(yíng),充分發(fā)揮最新的科技能力,攜手合作伙伴幫助中國(guó)企業(yè)、組織和政府共同打造‘再現(xiàn)代化’發(fā)展的全新方式?!?/p>
顯然,這三大經(jīng)典的技術(shù)信條在大數(shù)據(jù)時(shí)代面臨動(dòng)搖,
技術(shù)信徒的思維模式也即將發(fā)生顛覆。
那么,大數(shù)據(jù)對(duì)技術(shù)信徒意味著什么?
他們又將如何面對(duì)這一顛覆性的變革?
“技術(shù)匯成一條大河,一波推動(dòng)另外一波?!盜BM中國(guó)開發(fā)中心首席技術(shù)官兼新技術(shù)研發(fā)中心總經(jīng)理毛新生帶著對(duì)技術(shù)的滿腔癡迷這樣形容道。
一波未平一波又起,移動(dòng)、社交商務(wù)、云計(jì)算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢(shì)正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進(jìn)而推動(dòng)商業(yè)和社會(huì)的演進(jìn)。這也就意味著“科技是第一生產(chǎn)力”在當(dāng)下有了更深層次的涵義——“IBM認(rèn)為,在由新一代技術(shù)組成的智慧運(yùn)算時(shí)代,中國(guó)的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運(yùn)用到自身的變革轉(zhuǎn)型之中?!?IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻(xiàn)策。
由2012年的“軟件技術(shù)峰會(huì)”改名為2013年的“技術(shù)峰會(huì)”,在這么一個(gè)盛會(huì)上,IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動(dòng)應(yīng)用、大數(shù)據(jù)、云計(jì)算、DevOps軟件持續(xù)交付、應(yīng)用整合、社交商務(wù)、專家集成系統(tǒng)等熱議話題,上百場(chǎng)技術(shù)主題演講、28場(chǎng)分論壇、22場(chǎng)動(dòng)手實(shí)驗(yàn)室和80個(gè)未來(lái)產(chǎn)品的現(xiàn)場(chǎng)演示,再加上被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”的《大數(shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來(lái)自IBM的院士、杰出工程師、相關(guān)領(lǐng)域的全球首席技術(shù)官和首席架構(gòu)師的現(xiàn)場(chǎng)分享,IBM 2013技術(shù)峰會(huì)再次成為技術(shù)精英們關(guān)注的焦點(diǎn)。 大數(shù)據(jù)的新信條
《大數(shù)據(jù)時(shí)代》作者、牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實(shí)讓場(chǎng)內(nèi)數(shù)以萬(wàn)計(jì)的技術(shù)信徒激動(dòng)了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來(lái)的大變革的第一人,維克托以價(jià)格預(yù)測(cè)網(wǎng)站的例子作為開場(chǎng)白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來(lái)改變。
“全體性、混雜性和相關(guān)性是大數(shù)據(jù)的三個(gè)主要特點(diǎn),而且這三個(gè)特點(diǎn)是互相加強(qiáng)的。”維克托歸納出了大數(shù)據(jù)對(duì)應(yīng)的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細(xì)節(jié),這些細(xì)節(jié)恰恰是隨機(jī)抽樣所錯(cuò)失的?!案蓛簟钡?、高質(zhì)量的數(shù)據(jù)不再是標(biāo)的,大數(shù)據(jù)需要我們摒棄對(duì)宏觀上精確性的追求,轉(zhuǎn)而獲得微觀上的準(zhǔn)確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關(guān)系,即不再糾結(jié)于為什么,而是直接獲得“是什么”的答案,并通過(guò)應(yīng)用相關(guān)關(guān)系,更好地捕捉現(xiàn)在和預(yù)測(cè)未來(lái)——抽樣因錯(cuò)失細(xì)節(jié)得不償失,盲目追求精確性已經(jīng)過(guò)時(shí),執(zhí)著于因果關(guān)系喪失機(jī)遇。
如何在大數(shù)據(jù)時(shí)代生存?維克托指出了兩個(gè)關(guān)鍵點(diǎn):一是意識(shí)到技術(shù)或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟(jì),因?yàn)樗男б鏁?huì)逐漸淡化。20年前,一個(gè)公司只有擁有上十萬(wàn)臺(tái)的服務(wù)器才能提供搜索服務(wù),但在大數(shù)據(jù)時(shí)代,由于云計(jì)算的便利性,不擁有實(shí)體服務(wù)器的公司,如前文提到的,它只有30個(gè)員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時(shí)代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍(lán)色被谷歌選為搜索窗口的色彩,但藍(lán)色實(shí)際上有51種,而且這51種藍(lán)色人依靠裸眼無(wú)法明確區(qū)分,卻能在心理層面給人帶來(lái)不同的感受。經(jīng)過(guò)大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來(lái)的藍(lán)色會(huì)導(dǎo)致谷歌損失200億~300億美元的收入,因?yàn)檫@一種藍(lán)色并不最具備誘惑力,無(wú)法激起人們點(diǎn)擊的欲望。
大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級(jí)開發(fā)經(jīng)理James R Giles闡述了IBM對(duì)大數(shù)據(jù)的看法:“我們正一步步走到了一個(gè)新紀(jì)元——大數(shù)據(jù)時(shí)代。如同對(duì)待自然資源一樣,我們需要開掘、轉(zhuǎn)變、銷售、保護(hù)大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無(wú)窮無(wú)盡的,我們不能任由大數(shù)據(jù)淹沒(méi)自己,而應(yīng)該在獲得洞察需求的驅(qū)使下獲得價(jià)值?!?/p>
大數(shù)據(jù)的類型廣義而言有移動(dòng)數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),這對(duì)應(yīng)著不同的處理方式?!凹夹g(shù)人員的責(zé)任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來(lái)、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結(jié)論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時(shí)代提供技術(shù)支撐,以保證管理、安全、商業(yè)的持續(xù)性?!?James R Giles號(hào)召技術(shù)人員積極行動(dòng),以大數(shù)據(jù)的思維模式展現(xiàn)技術(shù)的價(jià)值和魅力。
找到內(nèi)在聯(lián)系
技術(shù)的趨勢(shì)總是融合,也只有有機(jī)融合才能形成合力,發(fā)揮更大的威力,而實(shí)現(xiàn)這一合力的前提是明確各個(gè)趨勢(shì)之間的內(nèi)在聯(lián)系。
“實(shí)際上,社交商務(wù)、移動(dòng)、大數(shù)據(jù)、云計(jì)算是一體化的?!泵律ㄗh技術(shù)人員用一個(gè)全面的、融合的范式來(lái)沉著看待和應(yīng)對(duì)紛繁的熱點(diǎn)技術(shù),理解這些熱點(diǎn)會(huì)如何影響整個(gè)IT的走向,進(jìn)而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務(wù)轉(zhuǎn)型和創(chuàng)新,“讓每個(gè)行業(yè)都可以從新的技術(shù)轉(zhuǎn)型當(dāng)中獲得足夠的原動(dòng)力”。
從貼近最終用戶的角度來(lái)看,移動(dòng)技術(shù)、社交技術(shù)改變了商業(yè)機(jī)構(gòu)與其雇員、客戶進(jìn)行互動(dòng)的方式?!熬臀覀€(gè)人的經(jīng)歷而言,航空公司的移動(dòng)應(yīng)用可以提供更好的客戶交互。我是西北航空公司的粉絲,因?yàn)樗业囊苿?dòng)應(yīng)用服務(wù)很貼心,比如查詢航班信息、根據(jù)我的喜好預(yù)留位置、定制化地進(jìn)行社交推薦等?!泵律砸粋€(gè)普通消費(fèi)者的感受證明了企業(yè)通過(guò)移動(dòng)應(yīng)用收集并利用用戶行為數(shù)據(jù)所帶來(lái)的服務(wù)質(zhì)量的提升。
移動(dòng)催生了“一種嶄新的服務(wù)交付端點(diǎn)”,即為用戶提供了更多樣化的服務(wù)體驗(yàn)點(diǎn),讓用戶隨時(shí)隨地可以利用碎片化的時(shí)間去獲得業(yè)務(wù)服務(wù),也為企業(yè)帶來(lái)了全新的服務(wù)交付渠道。移動(dòng)這個(gè)渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎(chǔ)上,大數(shù)據(jù)分析就更可信?!耙苿?dòng)所具備的碎片化特點(diǎn)會(huì)帶來(lái)更大量的用戶行為信息。當(dāng)把所有的人的行為結(jié)合在一起,就可以做群體的社會(huì)性分析。社會(huì)性分析會(huì)得到比較準(zhǔn)確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機(jī)會(huì)。”毛新生認(rèn)為移動(dòng)與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機(jī)會(huì)。
移動(dòng)的設(shè)備無(wú)處不在。人、汽車,甚至建筑物、道路、橋梁,它們無(wú)時(shí)無(wú)刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領(lǐng)我們來(lái)到維克托所描述的更為廣闊的大數(shù)據(jù)世界。
移動(dòng)和社交商務(wù)的便捷性使得企業(yè)的整個(gè)業(yè)務(wù)流程變得非常自動(dòng)化,用戶可以享受自助服務(wù),對(duì)應(yīng)到企業(yè)端就意味著業(yè)務(wù)流程對(duì)前端的需求要反應(yīng)得更為迅速,也意味著各個(gè)業(yè)務(wù)系統(tǒng)之間無(wú)縫連接,否則沒(méi)有辦法支撐以最終用戶為中心的服務(wù)體驗(yàn),但跨部門和跨應(yīng)用的整合實(shí)屬不易。進(jìn)一步延伸開來(lái),對(duì)用戶體驗(yàn)的追求是無(wú)止境的,合作伙伴的API和服務(wù)可以作為補(bǔ)充,這即是“跨企業(yè)邊界”的行為。這種行為必然導(dǎo)致大規(guī)模的用戶訪問(wèn)。這些整合和外部拓展都需要云計(jì)算提供靈活有效的基礎(chǔ)。沒(méi)有云計(jì)算,移動(dòng)前端的體驗(yàn)、大數(shù)據(jù)分析的效果都會(huì)大打折扣?!霸频幕A(chǔ)設(shè)施使大規(guī)?;?dòng)、大規(guī)模數(shù)據(jù)處理、大規(guī)模應(yīng)用可以更好地服務(wù)我們?!泵律赋觥?/p>
環(huán)境變化加速,競(jìng)爭(zhēng)更加激烈,要求企業(yè)的反應(yīng)速度越來(lái)越快,應(yīng)用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個(gè)改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應(yīng)用和業(yè)務(wù)流程的設(shè)計(jì)、開發(fā)、部署、測(cè)試、維護(hù)的整個(gè)過(guò)程要大大加快,也就是所謂的DevOps。只有把敏捷的開發(fā)和運(yùn)維結(jié)合起來(lái),生命周期變得以天為周期,才能響應(yīng)新的商業(yè)環(huán)境?!?/p>
“移動(dòng)、云計(jì)算、大數(shù)據(jù)、社交商務(wù)之間的緊密聯(lián)系讓我們應(yīng)該以整體的眼光來(lái)審視它們?!焙乐覉?jiān)信,它們的組合可以創(chuàng)造可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì),可以迸發(fā)變革的力量。
至于一個(gè)企業(yè)應(yīng)該從哪里下手來(lái)實(shí)現(xiàn)這一幅宏偉藍(lán)圖?毛新生給出的答案是:“每一個(gè)企業(yè),因?yàn)樗幍男袠I(yè)或者特定的情況而擁有不同的切入點(diǎn),有一些企業(yè)需要從移動(dòng)開始,有一些企業(yè)需要從云計(jì)算開始,有一些企業(yè)需要從大數(shù)據(jù)開始,但是它們是不可分割的整體,只有綜合地運(yùn)用它們,找到適合自己的切入點(diǎn),一步一步腳踏實(shí)地,才能掌握先機(jī),打造競(jìng)爭(zhēng)力。在這個(gè)過(guò)程中,要擁有正確的思維,改變既有思維,理解趨勢(shì),制定策略?!?/p>
例如,銀行、保險(xiǎn)、零售業(yè)這一類和最終消費(fèi)者打交道的服務(wù)業(yè)在很大概率上需要先從移動(dòng)、社交商務(wù)入手,從而使其有機(jī)會(huì)改善和用戶交互的過(guò)程。而以數(shù)據(jù)為生的行業(yè)會(huì)琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值,而傳統(tǒng)的運(yùn)營(yíng)基礎(chǔ)設(shè)施的重資產(chǎn)企業(yè),會(huì)追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進(jìn)行分析,以優(yōu)化資產(chǎn)的生命周期管理來(lái)預(yù)防性地降低維護(hù)成本,這些企業(yè)是以大數(shù)據(jù)作為切入點(diǎn)的。還有一些企業(yè)希望跨行業(yè)整合進(jìn)行業(yè)務(wù)創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務(wù)模式和新業(yè)務(wù)模式的整合,這種情況下需要以云的方式構(gòu)建新的應(yīng)用、服務(wù)、商業(yè)流程。
毛新生認(rèn)為切入點(diǎn)不同只是表象,每一種場(chǎng)景到最后都是綜合性的運(yùn)用,要把這幾個(gè)技術(shù)綜合運(yùn)用起來(lái)。從前端開始,首先是利用移動(dòng),并借助社交渠道交流,很快這些渠道會(huì)得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來(lái)做進(jìn)一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關(guān)聯(lián)推薦了。隨后,能不能跨界再實(shí)現(xiàn)更廣泛的銷售?跟別的價(jià)值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎(chǔ)設(shè)施可以讓成本更合理。“所以說(shuō),到最后都是綜合性的應(yīng)用,盡管起點(diǎn)不一樣”,毛新生說(shuō)。
對(duì)技術(shù)人員而言,IT就是交付業(yè)務(wù)流程的基礎(chǔ),是信息化的工具。它的目標(biāo)無(wú)非是優(yōu)化業(yè)務(wù)流程或者創(chuàng)新業(yè)務(wù)流程。創(chuàng)新到達(dá)一定程度后,業(yè)務(wù)流程的量變會(huì)導(dǎo)致質(zhì)變?!斑@就解釋了為何全球越來(lái)越多的CEO將技術(shù)視為驅(qū)動(dòng)企業(yè)發(fā)展的首要因素。” IBM軟件集團(tuán)大中華區(qū)中間件集團(tuán)總經(jīng)理李紅焰強(qiáng)調(diào),技術(shù)人員有能力,也有責(zé)任將“看不見(jiàn)的技術(shù)轉(zhuǎn)變?yōu)榭吹靡?jiàn)的享受”。
移動(dòng)開發(fā)的轉(zhuǎn)變
在大數(shù)據(jù)的帶領(lǐng)下我們進(jìn)入移動(dòng)時(shí)代,企業(yè)有了新機(jī)遇,技術(shù)人員卻有了新挑戰(zhàn)。為什么移動(dòng)開發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術(shù)人員腦子里最主要的兩個(gè)問(wèn)題。
IBM杰出工程師及IBM移動(dòng)平臺(tái)首席架構(gòu)師Greg Truty解答了這兩個(gè)疑問(wèn)。他認(rèn)為,很多企業(yè)現(xiàn)在所做的事情與在移動(dòng)的狀態(tài)下做的事情是不一樣的,移動(dòng)狀態(tài)下的任務(wù)和規(guī)劃更具有戰(zhàn)略性。移動(dòng)應(yīng)用是在不穩(wěn)定的網(wǎng)絡(luò)上運(yùn)行的,所占用的資源更少。用戶在移動(dòng)設(shè)備上和非移動(dòng)設(shè)備上的體驗(yàn)是完全不一樣的,他們會(huì)希望在不穩(wěn)定的網(wǎng)絡(luò)上仍然能夠獲得良好的體驗(yàn)。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗(yàn)變成一些有意義的體驗(yàn)。同時(shí),移動(dòng)管理的需求也不一樣了,開發(fā)的特性也不一樣了。比如對(duì)一個(gè)企業(yè)來(lái)說(shuō),移動(dòng)開發(fā)周期更短,有更多設(shè)備需要支持,有更多開發(fā)方法可供選擇,也有更多的工具和庫(kù)可供選擇,這時(shí)候企業(yè)就需要仔細(xì)斟酌,哪些開發(fā)方法和工具是自己需要的。
自然而然,對(duì)于設(shè)備的管理也有了變化,因?yàn)閼?yīng)用變化了?!耙恢币詠?lái),客戶端服務(wù)器的應(yīng)用架構(gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務(wù)器端的服務(wù)以及在客戶端的服務(wù),挑戰(zhàn)非常大。你不可能強(qiáng)迫客戶運(yùn)行你的應(yīng)用,而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關(guān)鍵的一點(diǎn)?!?Greg Truty強(qiáng)調(diào)了設(shè)備管理的重要性。
1.1什么是大數(shù)據(jù)
大數(shù)據(jù)概念可以從四個(gè)維度去解,即三個(gè)V和一個(gè)C。三個(gè)V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長(zhǎng)速度快(Velocity),最后一個(gè)C指的是處理、升級(jí)或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多(Complexity)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計(jì)算框架將復(fù)雜的計(jì)算任務(wù)分配到“云”中成百上千的節(jié)點(diǎn)。
1.2大數(shù)據(jù)與云計(jì)算
大數(shù)據(jù)本身就是一個(gè)問(wèn)題集,云計(jì)算技術(shù)是目前解決大數(shù)據(jù)問(wèn)題集最重要最有效的手段。云計(jì)算提供了基礎(chǔ)的架構(gòu)平臺(tái),大數(shù)據(jù)應(yīng)用在這個(gè)平臺(tái)上運(yùn)行。目前公認(rèn)為分析大數(shù)據(jù)集最有效手段的分布式處理技術(shù),也是云計(jì)算思想的一種具體體現(xiàn)。
云計(jì)算是分布式處理、并行處理和網(wǎng)格計(jì)算的發(fā)展,或者說(shuō)是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。云計(jì)算將網(wǎng)絡(luò)上分布的計(jì)算、存儲(chǔ)、服務(wù)構(gòu)件、網(wǎng)絡(luò)軟件等資源集中起來(lái),基于資源虛擬化的方式,為用戶提供方便快捷的服務(wù), 實(shí)現(xiàn)了資源和計(jì)算的分布式共享和并行處理,能夠很好地應(yīng)對(duì)當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長(zhǎng)的勢(shì)頭。
1.3大數(shù)據(jù)與Hadoop
Hadoop是一個(gè)Apache的開源項(xiàng)目,主要面向存儲(chǔ)和處理成百上千TB直至PB級(jí)別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問(wèn)題分解成多個(gè)子問(wèn)題,并將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上,再將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。
Hadoop項(xiàng)目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強(qiáng)的靈活性、允許用戶自己修改代碼等特點(diǎn),同時(shí)能支持海量數(shù)據(jù)的存儲(chǔ)和計(jì)算任務(wù)。這些特點(diǎn)讓Hadoop被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái)。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲(chǔ)、管理和分析數(shù)據(jù)方面遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的數(shù)據(jù)庫(kù)軟件工具。Hadoop經(jīng)常在構(gòu)建大數(shù)據(jù)解決方案時(shí)被用作基礎(chǔ)構(gòu)架軟件。
二、大數(shù)據(jù)技術(shù)綜述
大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應(yīng)用場(chǎng)景是需要實(shí)時(shí)分析和互動(dòng)反饋的,這時(shí)候就需要利用包括內(nèi)存檢索、流處理和實(shí)時(shí)計(jì)算等其他技術(shù)。而云計(jì)算的分布式存儲(chǔ)和計(jì)算架構(gòu)開啟了大數(shù)據(jù)技術(shù)研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術(shù)結(jié)合在一起,才是一個(gè)完整的大數(shù)據(jù)處理系統(tǒng)。
2.1分布式計(jì)算框架
MapReduce是Google開發(fā)的一種簡(jiǎn)化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,使云計(jì)算環(huán)境下的編程變得十分簡(jiǎn)單。
MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map(映射)和Reduce(化簡(jiǎn))操作對(duì)。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲(chǔ).用戶在使用該編程模型時(shí),只需按照自己熟悉的語(yǔ)言實(shí)現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會(huì)自動(dòng)對(duì)任務(wù)進(jìn)行劃分以做到并行執(zhí)行。
Pregel是Google 提出的迭代處理計(jì)算框架,它具有高效、可擴(kuò)展和容錯(cuò)的特性,并隱藏了分布式相關(guān)的細(xì)節(jié),展現(xiàn)給人們的僅僅是一個(gè)表現(xiàn)力很強(qiáng)、很容易編程的大型圖算法處理的計(jì)算框架。Pregel的主要應(yīng)用場(chǎng)景是大型的圖計(jì)算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關(guān)領(lǐng)域。
2.2分布式文件系統(tǒng)
為保證高可用、高可靠和經(jīng)濟(jì)性,基于云計(jì)算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲(chǔ)的方式來(lái)保存數(shù)據(jù),用冗余存儲(chǔ)的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS。
GFS即Google文件系統(tǒng),是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問(wèn)的應(yīng)用。GFS的設(shè)計(jì)思想不同于傳統(tǒng)的文件系統(tǒng),是針對(duì)大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計(jì)的,運(yùn)行成本低廉,并提供容錯(cuò)功能。
HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯(cuò)性,并且可以被部署在低價(jià)的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個(gè)master/slave的結(jié)構(gòu),在master上只運(yùn)行一個(gè)Namenode,而在每一個(gè)slave上運(yùn)行一個(gè)Datanode。HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu),對(duì)文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過(guò)Namenode來(lái)控制,Datanode用來(lái)存放數(shù)據(jù)塊。
2.3大數(shù)據(jù)管理技術(shù)
互聯(lián)網(wǎng)數(shù)據(jù)已超出關(guān)系型數(shù)據(jù)庫(kù)的管理范疇,電子郵件、超文本、博客、標(biāo)簽(Tag)以及圖片、音視頻等各種非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)不能滿足數(shù)據(jù)快速訪問(wèn)、大規(guī)模數(shù)據(jù)分析的需求,隨之而來(lái),一系列新型的大數(shù)據(jù)管理技術(shù)和工具應(yīng)運(yùn)而生。
2.3.1 非關(guān)系型數(shù)據(jù)庫(kù)
NoSQL,也有人理解為Not Only SQL,它是一類非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱。其特點(diǎn)是:沒(méi)有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對(duì)關(guān)系型數(shù)據(jù)庫(kù),而是針對(duì)其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)、鍵-值存儲(chǔ)、圖存儲(chǔ)、對(duì)象數(shù)據(jù)、列存儲(chǔ)等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對(duì)象來(lái)處理,形成一個(gè)巨大的表格,用來(lái)分布存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量可達(dá)PB級(jí)。而HBase是Hadoop團(tuán)隊(duì)基于Bigtable的開源實(shí)現(xiàn),使用HDFS作為其文件存儲(chǔ)系統(tǒng)。同時(shí),Cassandra(K/V型數(shù)據(jù)庫(kù))、MongoDB(文檔數(shù)據(jù)庫(kù))和Redis等一系列優(yōu)秀的非關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)品如雨后春筍般問(wèn)世。
2.3.2 數(shù)據(jù)查詢工具
Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉(cāng)庫(kù),其目標(biāo)是簡(jiǎn)化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負(fù)擔(dān).它借鑒關(guān)系數(shù)據(jù)庫(kù)的模式管理、SQL接口等技術(shù),把結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫(kù)表,提供類似于SQL的描述性語(yǔ)言HiveQL供程序員使用,可自動(dòng)將HiveQL語(yǔ)句解析成一優(yōu)化的MapReduce任務(wù)執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。
PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺(tái).兩者的區(qū)別主要在于語(yǔ)言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說(shuō)Pig利用操作符來(lái)對(duì)Hadoop進(jìn)行封裝,Hive利用SQL進(jìn)行封裝。
Google Dremel是個(gè)可擴(kuò)展的、交互式的即時(shí)查詢系統(tǒng),用于完成大規(guī)模查詢結(jié)構(gòu)化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語(yǔ)法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒(méi)有表索引。數(shù)據(jù)被列式存儲(chǔ),這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補(bǔ)充,被用于分析MapReduce的結(jié)果或者是作為大規(guī)模計(jì)算的測(cè)試。
2.4實(shí)時(shí)流處理技術(shù)
伴隨著互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展的步調(diào),以及業(yè)務(wù)流程的復(fù)雜化,企業(yè)的注意力越來(lái)越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時(shí)發(fā)生的數(shù)據(jù)流的架構(gòu),現(xiàn)有的分布式計(jì)算架構(gòu)并不適合數(shù)據(jù)流處理。流計(jì)算強(qiáng)調(diào)的是數(shù)據(jù)流的形式和實(shí)時(shí)性。MapReduce系統(tǒng)主要解決的是對(duì)靜態(tài)數(shù)據(jù)的批量處理,當(dāng)MapReduce任務(wù)啟動(dòng)時(shí),一般數(shù)據(jù)已經(jīng)到位了(比如保存到了分布式文件系統(tǒng)上),而流式計(jì)算系統(tǒng)在啟動(dòng)時(shí),一般數(shù)據(jù)并沒(méi)有完全到位,而是經(jīng)由外部數(shù)據(jù)源源不斷地流入,重視的是對(duì)數(shù)據(jù)處理的低延遲,希望進(jìn)入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結(jié)果就越有價(jià)值,這也是實(shí)時(shí)處理的價(jià)值所在。
流計(jì)算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準(zhǔn)備的時(shí)間,有數(shù)據(jù)流入就開始計(jì)算,解決了數(shù)據(jù)準(zhǔn)備和延遲的兩個(gè)問(wèn)題。現(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計(jì)算的場(chǎng)景。Storm是開源的分布式實(shí)時(shí)計(jì)算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進(jìn)行實(shí)時(shí)計(jì)算,單機(jī)性能可達(dá)到百萬(wàn)記錄每秒,開發(fā)語(yǔ)言為Clojure和Java,并具備容錯(cuò)特性。S4是面向流式數(shù)據(jù)和實(shí)時(shí)處理的,所以針對(duì)實(shí)時(shí)性較高的業(yè)務(wù),可以很好地對(duì)數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預(yù),源源不斷的數(shù)據(jù)流會(huì)被自動(dòng)路由并分析。對(duì)于海量數(shù)據(jù),它和MapReduce都可以應(yīng)對(duì),但它能比后者更快地處理數(shù)據(jù)。
三、思考與展望
以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段為知識(shí)生產(chǎn)提供了工具,通過(guò)對(duì)大數(shù)據(jù)分析、預(yù)測(cè)會(huì)使得決策更為精準(zhǔn),這對(duì)媒體融合具有重要意義。
21世紀(jì)是信息化的時(shí)代,也是數(shù)據(jù)時(shí)代,隨著世界范圍內(nèi)數(shù)據(jù)挖掘技術(shù)的不斷深入研究,大數(shù)據(jù)時(shí)代的到來(lái)給數(shù)據(jù)挖掘技術(shù)帶來(lái)了機(jī)遇的同時(shí),也帶來(lái)了挑戰(zhàn)。面對(duì)浩瀚的數(shù)據(jù)庫(kù)海洋,如何在茫茫海洋中尋找針對(duì)特點(diǎn)人群有用的數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代背景下的意義。通過(guò)數(shù)據(jù)挖掘技術(shù)的充分應(yīng)用分類技術(shù),挖掘大數(shù)據(jù)時(shí)代中的數(shù)據(jù)刪選,同時(shí)通過(guò)大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用技術(shù)探討了數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代背景下的應(yīng)用。
1 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘的意義
在信息時(shí)代的背景下,數(shù)字化技術(shù)和信息化技術(shù)在各行各業(yè)的應(yīng)用,隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)等數(shù)字信息技術(shù)的高速發(fā)展,結(jié)合當(dāng)前高速發(fā)展的移動(dòng)互聯(lián)網(wǎng)技術(shù)以及數(shù)字地球技術(shù)的發(fā)展與應(yīng)用,全世界范圍內(nèi)數(shù)據(jù)呈爆炸式增長(zhǎng),據(jù)統(tǒng)計(jì)2012年世界范圍內(nèi)產(chǎn)生的數(shù)據(jù)總量約1.86萬(wàn)億GB。國(guó)際互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計(jì)中心根據(jù)近十年來(lái)來(lái)的數(shù)據(jù)增長(zhǎng)速度計(jì)算,2020年全球范圍內(nèi)數(shù)據(jù)總量預(yù)計(jì)達(dá)到100萬(wàn)億GB。信息化技術(shù)的發(fā)展給企業(yè)帶來(lái)的沖擊是巨大的,信息化技術(shù)徹底改變了傳統(tǒng)的社會(huì)信息傳輸方式,帶來(lái)全新的信息傳播途徑。對(duì)于社會(huì)來(lái)說(shuō),信息化是社會(huì)未來(lái)發(fā)展方向。信息化要求社會(huì)重視信息的形成、信息運(yùn)用,社會(huì)用信息化的工具整合業(yè)務(wù)、共享信息構(gòu)建企業(yè)“信息化網(wǎng)絡(luò)體系”才能使企業(yè)在當(dāng)今信息爆炸,高效率的社會(huì)背景下,是企業(yè)高效運(yùn)轉(zhuǎn),才能綜合企業(yè)的人力、物力、財(cái)力和管理能力是企業(yè)的各種資源通過(guò)信息化網(wǎng)絡(luò)凝聚在一起,共同為企業(yè)的高效發(fā)展和全球化的進(jìn)程的目標(biāo)凝聚力量。企業(yè)信息化作為國(guó)民經(jīng)濟(jì)發(fā)展的重要組成部分,同時(shí)也是我國(guó)社會(huì)邁向信息化進(jìn)程的重要前提。
企業(yè)信息化要求企業(yè)將大量的信息資源進(jìn)行整合和電子化處理,從而提高信息的交互與傳輸效率,并希望藉此提高企業(yè)的生產(chǎn)經(jīng)營(yíng)管理方式和管理效率,從而達(dá)到利用現(xiàn)代信息技術(shù)提高企業(yè)生產(chǎn)力、提高企業(yè)生產(chǎn)效率和利潤(rùn)的根本目的。云計(jì)算作為現(xiàn)代信息化產(chǎn)業(yè)發(fā)展的新技術(shù),給社會(huì)的信息化建設(shè)帶來(lái)了巨大的改變,降低了社會(huì)在信息化建設(shè)中的投入,隨著近年來(lái)云計(jì)算技術(shù)的不斷成熟,云計(jì)算構(gòu)建的信息化平臺(tái)使社會(huì)的信息化、生產(chǎn)與辦公效率前所未有地提高毫無(wú)疑問(wèn),當(dāng)前的信息時(shí)代的發(fā)展已經(jīng)達(dá)到了大數(shù)據(jù)時(shí)代的階段,大數(shù)據(jù)時(shí)代的來(lái)臨意味著人們?cè)趹?yīng)用和利用數(shù)字信息技術(shù)時(shí)不得不花費(fèi)更多的人力、物力、財(cái)力去篩選、存儲(chǔ)和利用龐大的數(shù)據(jù)庫(kù)。例如對(duì)于一個(gè)銀行系統(tǒng)來(lái)說(shuō),每天數(shù)以萬(wàn)計(jì)的銀行和ATM終端都發(fā)生龐大的交易和數(shù)據(jù)交換,這些龐大的數(shù)據(jù)交換信息構(gòu)成了龐大的數(shù)據(jù),如何在龐大的數(shù)據(jù)中篩選、分類和提取有價(jià)值的數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)在當(dāng)前大數(shù)據(jù)時(shí)代存在的意義。
2 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的分類應(yīng)用
數(shù)據(jù)挖掘技術(shù)在當(dāng)代數(shù)據(jù)爆炸的現(xiàn)代社會(huì)的重要性越來(lái)越強(qiáng),隨著社會(huì)信息化程度的不斷提升,數(shù)據(jù)挖掘技術(shù)也逐漸發(fā)展成為一門獨(dú)立的學(xué)科,數(shù)據(jù)挖掘技術(shù)為了滿足用戶在龐大的數(shù)據(jù)庫(kù)中篩選有用的數(shù)據(jù)的需要,通過(guò)分類技術(shù)對(duì)數(shù)據(jù)進(jìn)行分類挖掘,是當(dāng)前大數(shù)據(jù)時(shí)代背景下大數(shù)據(jù)技術(shù)應(yīng)用最為廣泛的手段之一。
通過(guò)數(shù)據(jù)庫(kù)類型分類技術(shù)是數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代的應(yīng)用之一。數(shù)據(jù)庫(kù)的自動(dòng)存儲(chǔ)系統(tǒng)在數(shù)據(jù)存儲(chǔ)過(guò)程中按照數(shù)據(jù)的類型、場(chǎng)景進(jìn)行基礎(chǔ)分類,數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)存儲(chǔ)的基礎(chǔ)分類的基礎(chǔ)上進(jìn)行數(shù)據(jù)庫(kù)類型細(xì)分,通過(guò)數(shù)據(jù)模型的導(dǎo)入和數(shù)據(jù)類型包括關(guān)系型、對(duì)象型、時(shí)間型、空間型的分類進(jìn)行數(shù)據(jù)挖掘的分類。其次通過(guò)數(shù)據(jù)知識(shí)類型分類技術(shù)是數(shù)據(jù)挖掘的重要分類方法之一。知識(shí)類型分類包括知識(shí)相關(guān)性、知識(shí)預(yù)測(cè)型和樣本偏離分析法等知識(shí)類型分類方法。數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度是數(shù)據(jù)知識(shí)類型分類的層次之一。通過(guò)挖掘數(shù)據(jù)分類中的抽象層和價(jià)值層找出數(shù)據(jù)的模式和規(guī)則性。數(shù)據(jù)的規(guī)則性通過(guò)不同的方法挖掘,通過(guò)數(shù)據(jù)概念的描述和數(shù)據(jù)預(yù)測(cè)等方法實(shí)現(xiàn)大數(shù)據(jù)精細(xì)化分類。
3 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘的應(yīng)用技術(shù)
大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用技術(shù)主要包括神經(jīng)網(wǎng)絡(luò)算法、數(shù)據(jù)遺傳、數(shù)據(jù)決策樹、數(shù)據(jù)粗糙集等算法。數(shù)據(jù)神經(jīng)算法通過(guò)對(duì)龐大的數(shù)據(jù)庫(kù)進(jìn)行分類,對(duì)符合優(yōu)先條件的有用數(shù)據(jù)進(jìn)行分類,能夠在規(guī)模龐大的數(shù)據(jù)中迅速定位和精選有用數(shù)據(jù)。例如網(wǎng)絡(luò)構(gòu)架的基礎(chǔ)傳輸通道光纜發(fā)生故障時(shí),通過(guò)神經(jīng)網(wǎng)絡(luò)算法能夠及時(shí)診斷網(wǎng)絡(luò)中的損壞數(shù)據(jù)點(diǎn),能夠迅速定位故障點(diǎn),并排除。神經(jīng)網(wǎng)絡(luò)算法針對(duì)網(wǎng)狀結(jié)構(gòu)的數(shù)據(jù)庫(kù)利用效率較高。遺傳數(shù)據(jù)挖掘技術(shù)是仿生學(xué)和遺傳學(xué)中發(fā)展而來(lái)的數(shù)據(jù)算法。遺傳數(shù)據(jù)挖掘技術(shù)針對(duì)全局?jǐn)?shù)據(jù)進(jìn)行優(yōu)化計(jì)算,能夠較好的兼容性和隱含并行性,因此在數(shù)據(jù)挖掘中與其它算法進(jìn)行聯(lián)合應(yīng)用范圍較廣,應(yīng)用較為普遍。決策樹算法是在對(duì)模型的預(yù)測(cè)中,該算法具有很強(qiáng)的優(yōu)勢(shì),利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類,從而對(duì)有潛在價(jià)值的信息進(jìn)行定位,這種算法的優(yōu)勢(shì)也比較明顯,在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速,同時(shí)描述起來(lái)也很簡(jiǎn)潔,在大規(guī)模數(shù)據(jù)處理時(shí),這種方法的應(yīng)用性很強(qiáng)。粗糙集算法是大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)應(yīng)用的典范,粗糙集算法通過(guò)數(shù)據(jù)劃分將模糊知識(shí)和精確知識(shí)進(jìn)行合并分析,并最終獲得有效數(shù)據(jù),應(yīng)用范圍十分廣泛,應(yīng)用效果較好。
4 結(jié)論
總之,在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)挖掘技術(shù)是人們面對(duì)浩瀚的數(shù)據(jù)庫(kù)所必備的技能,也是提高數(shù)據(jù)利用的有效方式數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代背景下面臨著挑戰(zhàn)也面臨著機(jī)遇。
參考文獻(xiàn)
[1]劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2009(1):146-149.
[2]丁守哲.基于云計(jì)算的建筑設(shè)計(jì)行業(yè)信息系統(tǒng)開發(fā)模式與實(shí)現(xiàn)技術(shù)研究[D].合肥:合肥工業(yè)大學(xué),2012:16-17.
[3]陳明奇,姜禾,張娟等.大數(shù)據(jù)時(shí)代的美國(guó)信息網(wǎng)絡(luò)安全新戰(zhàn)略分析[J].信息網(wǎng)絡(luò)安全,2012,(08):32-35.
[4]王珊,王會(huì)舉,覃雄派等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.
作者簡(jiǎn)介
1.大數(shù)據(jù)技術(shù)現(xiàn)狀
當(dāng)前許多企業(yè)都已基本實(shí)現(xiàn)了信息化建設(shè),企業(yè)積累了海量數(shù)據(jù)。同時(shí)企業(yè)間的競(jìng)爭(zhēng)日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準(zhǔn)確、快速和個(gè)性化地為客戶提品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無(wú)法獲知的價(jià)值和模式,幫助企業(yè)更加迅速、科學(xué)、準(zhǔn)確地進(jìn)行決策和預(yù)測(cè)。
1.1大數(shù)據(jù)技術(shù)現(xiàn)狀
廣大企業(yè)的迫切需求反之也促進(jìn)了大數(shù)據(jù)技術(shù)的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實(shí)用的架構(gòu)平臺(tái)。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡(jiǎn)單的編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式大數(shù)據(jù)處理。通過(guò)使用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時(shí)候只需要將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上,即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算。因此,Hadoop實(shí)現(xiàn)了高可靠性、高可拓展性、高容錯(cuò)性和高效性,可以輕松應(yīng)對(duì)PB級(jí)別的數(shù)據(jù)處理。
1.2大數(shù)據(jù)技術(shù)對(duì)煙草數(shù)據(jù)中心建設(shè)的影響
當(dāng)前,煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù),同時(shí)每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲(chǔ)和運(yùn)算方面采用與以往完全不同的計(jì)算存儲(chǔ)模式,這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時(shí),除了購(gòu)進(jìn)單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,可為人工判斷和機(jī)器學(xué)縮減范圍。對(duì)海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進(jìn)行分析統(tǒng)計(jì),僅僅依靠傳統(tǒng)的技術(shù)手段很難實(shí)現(xiàn),只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來(lái),成為企業(yè)決策的助力。
2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀
2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)
目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個(gè)部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個(gè)數(shù)據(jù)中心最核心的部分。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)存儲(chǔ)、ETL工具等組成部分,構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲(chǔ)、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設(shè)計(jì)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)。一體化數(shù)據(jù)管理通過(guò)主數(shù)據(jù)管理、信息代碼管理、ESB平臺(tái)構(gòu)建了企業(yè)主數(shù)據(jù)收集、標(biāo)準(zhǔn)化、同步分發(fā)過(guò)程。結(jié)合指標(biāo)管理,全面管控企業(yè)的公用基礎(chǔ)信息。通過(guò)數(shù)據(jù)質(zhì)量管理,全面有效管控?cái)?shù)據(jù)質(zhì)量。通過(guò)數(shù)據(jù)服務(wù)管理,有效提升數(shù)據(jù)中心的對(duì)外服務(wù)能力與水平。通過(guò)元數(shù)據(jù)管理來(lái)管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過(guò)構(gòu)建移動(dòng)信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊,針對(duì)性解決當(dāng)前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺(tái)優(yōu)勢(shì)。通過(guò)移動(dòng)信息模塊為各級(jí)領(lǐng)導(dǎo)提供決策支持;通過(guò)業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐;通過(guò)數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊(yùn)含的隱性價(jià)值?;谏鲜鲆徽准軜?gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務(wù)系統(tǒng)的實(shí)施、已有系統(tǒng)的改造提供了標(biāo)準(zhǔn)化的高質(zhì)量數(shù)據(jù)保障。
2.2大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景分析
隨著江蘇數(shù)據(jù)中心的不斷運(yùn)行,一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問(wèn)題。其中較為突出的問(wèn)題有:一是使用者對(duì)于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計(jì)分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預(yù)先定義好的,面對(duì)靈活的非傳統(tǒng)的統(tǒng)計(jì)查詢需求難以支撐,需要進(jìn)行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性,引入Hadoop平臺(tái)以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái),以補(bǔ)充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足,并為未來(lái)進(jìn)一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準(zhǔn)備。
3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)實(shí)現(xiàn)
3.1設(shè)計(jì)思路及架構(gòu)
基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)為基礎(chǔ),以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段,以簡(jiǎn)單靈活、快速高效的查詢展現(xiàn)為目標(biāo),建立的數(shù)據(jù)查詢分析支持平臺(tái)。
3.2技術(shù)方案
自定義數(shù)據(jù)查詢平臺(tái)的建設(shè)主要涉及數(shù)據(jù)存儲(chǔ)架構(gòu)、后臺(tái)數(shù)據(jù)加工準(zhǔn)備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)存儲(chǔ)分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲(chǔ),另一部分則是查詢所需的各種統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)。元數(shù)據(jù)的存儲(chǔ)根據(jù)元數(shù)據(jù)庫(kù)的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫(kù)的元數(shù)據(jù)存儲(chǔ)。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲(chǔ)。這部分存儲(chǔ)的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)則是使用Hadoop的HDFS實(shí)現(xiàn)的。根據(jù)Hadoop平臺(tái)架構(gòu),自定義數(shù)據(jù)查詢平臺(tái)的HDFS建立在6臺(tái)虛擬主機(jī)構(gòu)建的集群上的。其中:2臺(tái)虛擬主機(jī)作為NameNode,一臺(tái)為主節(jié)點(diǎn),另一臺(tái)為備份節(jié)點(diǎn);其余4臺(tái)虛擬主機(jī)都作為DataNode用于存儲(chǔ)數(shù)據(jù)。所有數(shù)據(jù)將會(huì)統(tǒng)一分塊自動(dòng)分配存儲(chǔ)到4個(gè)DataNode上。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)加工,是通過(guò)開源ETL工具KETTLE實(shí)現(xiàn)的。通過(guò)KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)模型定義對(duì)數(shù)據(jù)進(jìn)行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺(tái)的前端展現(xiàn)功能,主要是基于JSP技術(shù)實(shí)現(xiàn)頁(yè)面開發(fā),通過(guò)JDBC或者ODBC對(duì)后臺(tái)Mysql數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)。使用者在查詢頁(yè)面中組織定義查詢的內(nèi)容,查詢服務(wù)自動(dòng)根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過(guò)Impala執(zhí)行查詢SQL對(duì)HDFS文件系統(tǒng)中的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢。
3.3系統(tǒng)實(shí)現(xiàn)效果
利用大數(shù)據(jù)技術(shù),自定義數(shù)據(jù)查詢平臺(tái)較好地解決了目前數(shù)據(jù)中心所面對(duì)的問(wèn)題,滿足了使用人員對(duì)于大數(shù)據(jù)量以及分析靈活性的需求。面對(duì)使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺(tái)通過(guò)預(yù)先梳理、分類定義各種維度以及統(tǒng)計(jì)指標(biāo)。使用者可以自由的根據(jù)實(shí)際需求選擇分析所需的維度及統(tǒng)計(jì)指標(biāo),同時(shí)還可以基于這些基礎(chǔ)的內(nèi)容更進(jìn)一步自定義過(guò)濾條件以及計(jì)算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺(tái)相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。
4.結(jié)束語(yǔ)
大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,應(yīng)用前景無(wú)比廣闊,對(duì)各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來(lái)的前景,更需要明確地認(rèn)識(shí)到大數(shù)據(jù)平臺(tái)的建設(shè)并非一朝一夕,需要有明確而長(zhǎng)遠(yuǎn)的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計(jì)算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴(kuò)展。
參考文獻(xiàn)
[1]陳鵬.大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題研究[J].電子制,2015,18:48
一、大數(shù)據(jù)
1.大數(shù)據(jù)產(chǎn)生的背景
大數(shù)據(jù)(Big Data),也稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的資訊,通常被認(rèn)為是PB或EB或更高數(shù)量級(jí)的數(shù)據(jù)。
互聯(lián)網(wǎng)絡(luò)從上世紀(jì)90年代開始,發(fā)展迅速,加快了信息傳播和共享的速度,尤其是一些社交網(wǎng)站的興起,數(shù)據(jù)量更是以前所未有的速度暴增,文字資料、聲音、視頻、圖像等多媒體數(shù)據(jù)鋪天蓋地。據(jù)資料顯示,上世紀(jì)90年代,互聯(lián)網(wǎng)資源不是很豐富的時(shí)代,網(wǎng)民月平均流量1MB左右,之后則快速增長(zhǎng),2000年后,逐漸發(fā)展為每月10MB、100MB、1GB,據(jù)估計(jì)2014年可能會(huì)達(dá)到10GB。淘寶網(wǎng)每日幾千萬(wàn)筆交易,單日數(shù)據(jù)量達(dá)幾十TB,數(shù)據(jù)存儲(chǔ)量幾十PB,百度公司目前數(shù)據(jù)總量接近1000PB,存儲(chǔ)網(wǎng)頁(yè)數(shù)量接近1萬(wàn)億頁(yè),每天大約要處理60億次搜索請(qǐng)求,幾十PB數(shù)據(jù)。
隨著技術(shù)發(fā)展,大數(shù)據(jù)廣泛存在,如企業(yè)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、移動(dòng)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等等??傊?,大數(shù)據(jù)存在于各行各業(yè),一個(gè)大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái)。
2.大數(shù)據(jù)時(shí)代的挑戰(zhàn)
大數(shù)據(jù)特點(diǎn)是容量在增長(zhǎng)、種類在增長(zhǎng)、速度也在增長(zhǎng),面臨如此龐大的數(shù)據(jù)量,數(shù)據(jù)的存儲(chǔ)和檢索面臨著巨大挑戰(zhàn)。比如2007年時(shí),F(xiàn)acebook使用數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)15個(gè)TB的數(shù)據(jù),但到了2010年,每天壓縮過(guò)的數(shù)據(jù)比過(guò)去總和還多,那時(shí)商業(yè)并行數(shù)據(jù)庫(kù)很少有超過(guò)100個(gè)節(jié)點(diǎn)以上的,而現(xiàn)在雅虎的Hadoop集群超過(guò)4000個(gè)節(jié)點(diǎn),F(xiàn)acebook倉(cāng)庫(kù)節(jié)點(diǎn)超過(guò)2700個(gè)。大量的數(shù)據(jù)現(xiàn)在已經(jīng)開始影響我們整個(gè)的工作、生活、甚至經(jīng)濟(jì),如何存儲(chǔ)和高效利用這些數(shù)據(jù)是需要我們解決的。
二、關(guān)系數(shù)據(jù)庫(kù)
1.關(guān)系數(shù)據(jù)庫(kù)概述
關(guān)系型數(shù)據(jù)庫(kù)是支持關(guān)系模型的數(shù)據(jù)庫(kù)系統(tǒng),他是目前各類數(shù)據(jù)庫(kù)中最重要,也是使用最廣泛的數(shù)據(jù)庫(kù)系統(tǒng)。關(guān)系型數(shù)據(jù)庫(kù)從上世紀(jì)70年代誕生到現(xiàn)在經(jīng)過(guò)幾十年的發(fā)展,已經(jīng)非常成熟,目前市場(chǎng)上主流的數(shù)據(jù)庫(kù)都為關(guān)系型數(shù)據(jù)庫(kù),比較知名的有Oracle數(shù)據(jù)庫(kù)、DB2、Sybase、SQL Server等等。
2.關(guān)系數(shù)據(jù)庫(kù)優(yōu)勢(shì)
關(guān)系數(shù)據(jù)庫(kù)相比其他模型的數(shù)據(jù)庫(kù)而言,有著以下優(yōu)點(diǎn):
模型容易理解:關(guān)系模型中的二維表結(jié)構(gòu)非常貼近邏輯世界,相對(duì)于網(wǎng)狀、層次等其他模型來(lái)說(shuō)更容易理解。
使用方便:通用的SQL語(yǔ)言使得操作關(guān)系型數(shù)據(jù)庫(kù)非常方便,只需使用SQL語(yǔ)言在邏輯層面操作數(shù)據(jù)庫(kù),而完全不必理解其底層實(shí)現(xiàn)。
易于維護(hù):豐富的完整性大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。
3.關(guān)系數(shù)據(jù)庫(kù)存在問(wèn)題
傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)具有不錯(cuò)的性能,穩(wěn)定性高,歷經(jīng)多年發(fā)展已日臻成熟,而且使用簡(jiǎn)單,功能強(qiáng)大,也積累了大量的成功案例。上世紀(jì)90年代的互聯(lián)網(wǎng)領(lǐng)域,網(wǎng)站基本都是靜態(tài)網(wǎng)頁(yè),主要以文字為主,訪問(wèn)量也不大,當(dāng)時(shí)用單個(gè)數(shù)據(jù)庫(kù)完全可以應(yīng)對(duì)??山鼛啄?,動(dòng)態(tài)網(wǎng)站隨處可見(jiàn),各種論壇、博克、微博異?;鸨?,在大幅度提升交流方式的同時(shí),用戶數(shù)據(jù)量迅速增長(zhǎng),處理事務(wù)性的數(shù)據(jù)關(guān)系數(shù)據(jù)庫(kù)得心應(yīng)手,可面對(duì)互聯(lián)網(wǎng)的高并發(fā)、大數(shù)據(jù)量關(guān)系數(shù)據(jù)庫(kù)顯得力不從心,暴露了很多難以克服的問(wèn)題:
數(shù)據(jù)庫(kù)高并發(fā)讀寫:高并發(fā)的動(dòng)態(tài)網(wǎng)站數(shù)據(jù)庫(kù)并發(fā)負(fù)載非常高,往往要達(dá)到每秒上萬(wàn)次甚至百萬(wàn)次、千萬(wàn)次的讀寫請(qǐng)求。關(guān)系數(shù)據(jù)庫(kù)應(yīng)付上萬(wàn)次SQL查詢沒(méi)問(wèn)題,但是應(yīng)付上百萬(wàn)、千萬(wàn)次SQL數(shù)據(jù)請(qǐng)求,硬盤IO就已經(jīng)無(wú)法承受了。
海量數(shù)據(jù)的高效率訪問(wèn):一般大型數(shù)據(jù)庫(kù)在百萬(wàn)級(jí)的數(shù)據(jù)庫(kù)表中檢索數(shù)據(jù)可達(dá)到秒級(jí),但面對(duì)數(shù)億條記錄的數(shù)據(jù)庫(kù)表,檢索速度效率是極其低下,難以忍受的。
數(shù)據(jù)庫(kù)可擴(kuò)展性和高可用性:基于web的架構(gòu)當(dāng)中,數(shù)據(jù)庫(kù)無(wú)法通過(guò)添加更多的硬件和服務(wù)節(jié)點(diǎn)來(lái)擴(kuò)展性能和負(fù)載能力,對(duì)于很多需要提供24小時(shí)不間斷服務(wù)的網(wǎng)站來(lái)說(shuō),數(shù)據(jù)庫(kù)系統(tǒng)升級(jí)和擴(kuò)展卻只能通過(guò)停機(jī)來(lái)實(shí)現(xiàn),這無(wú)疑是一個(gè)艱難的決定。
三、NOSQL數(shù)據(jù)庫(kù)
1.NOSQL數(shù)據(jù)庫(kù)理論基礎(chǔ)
NOSQL作為新興數(shù)據(jù)庫(kù)系統(tǒng)概念,由于其具備處理海量數(shù)據(jù)的能力,近年來(lái)受到各大IT公司的追捧。Amazon、Google等大型網(wǎng)商已紛紛斥資進(jìn)行研究并開發(fā)了適用的產(chǎn)品。談及NOSQL數(shù)據(jù)庫(kù),首先應(yīng)該了解支持NOSQL的理論:CAP理論、BASE思想和最終一致性。
(1)CAP理論
CAP理論由Eric Brewer在ACM PODC會(huì)議上的主題報(bào)告中提出,這個(gè)理論是NOSQL數(shù)據(jù)管理系統(tǒng)構(gòu)建的基礎(chǔ),CAP解釋為一致性(Consistency)、可用性(Availability)以及分區(qū)容忍性(Partition Tolerance)。具體描述如下:
強(qiáng)一致性(Consistency):系統(tǒng)在執(zhí)行過(guò)某項(xiàng)操作后仍然處于一致的狀態(tài)。在分布式數(shù)據(jù)庫(kù)系統(tǒng)中,數(shù)據(jù)變更后所有的用戶都應(yīng)該讀取到最新的值,這樣的系統(tǒng)被認(rèn)為具有強(qiáng)一致性。
可用性(Availability):每一個(gè)操作都能夠在一定的時(shí)間內(nèi)返回結(jié)果?!耙欢〞r(shí)間內(nèi)”是指系統(tǒng)的結(jié)果必須在給定時(shí)間內(nèi)返回,如果超時(shí)則被認(rèn)為不可用,“返回結(jié)果”同樣非常重要,必須能提供成功或失敗的信息。
分區(qū)容錯(cuò)性(Partition Tolerance):分區(qū)容錯(cuò)性可以理解為系統(tǒng)在存在網(wǎng)絡(luò)分區(qū)的情況下仍然可以接受請(qǐng)求。
CAP是在分布式環(huán)境中設(shè)計(jì)和部署系統(tǒng)時(shí)所要考慮的三個(gè)重要的系統(tǒng)需求。根據(jù)CAP理論,數(shù)據(jù)共享系統(tǒng)只能滿足這三個(gè)特性中的兩個(gè),不能同時(shí)滿足三個(gè)條件。因此系統(tǒng)設(shè)計(jì)者必須在這三個(gè)特性之間做出權(quán)衡。例如Amazon的Dynamo具有高可用性和分區(qū)容錯(cuò)性但不支持強(qiáng)一致性,也就是說(shuō)用戶不能立即看到其他用戶更新的內(nèi)容。
(2)BASE思想
BASE(Basically Availble),基本可用,強(qiáng)調(diào)數(shù)據(jù)庫(kù)的最終一致(Eventually consistent最終一致,最終數(shù)據(jù)一致就可以,而不是時(shí)時(shí)高一致),不同于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)基于的ACID模型。
ACID特性與高性能是不兼容的。比如,在網(wǎng)店買東西,每個(gè)客戶買東西時(shí)都會(huì)通過(guò)鎖來(lái)同步數(shù)據(jù)操作,操作完成每個(gè)客戶都可以看到一致的數(shù)據(jù)。也就是說(shuō),不允許多個(gè)客戶同時(shí)買的情況。很明顯對(duì)于大多數(shù)網(wǎng)上商城,尤其是大型網(wǎng)商來(lái)說(shuō),這個(gè)方法并不適用。
BASE思想實(shí)際上是CAP理論中AP的衍伸。通過(guò)犧牲高一致性,保證高可用性和分區(qū)容忍性。BASE思想的組成有以下3個(gè)部分:基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個(gè)應(yīng)用在任意時(shí)間首先應(yīng)該能完成最基本化的工作(即基本可用),并不需要總是一致(即軟狀態(tài)),但最終應(yīng)該是一致(即最終一致性)的。
(3)最終一致性
數(shù)據(jù)一致性可分別從使用者和提供者角度看:從使用者的角度,如何觀察數(shù)據(jù)更新;從提供者的角度,也就是服務(wù)器端,更新如何在系統(tǒng)中實(shí)現(xiàn)。
一致性可分為強(qiáng)一致性和弱一致性兩種:強(qiáng)一致性要求更新過(guò)的數(shù)據(jù)能被后續(xù)的訪問(wèn)都看到,根據(jù)CAP理論,強(qiáng)一致性無(wú)法和可用性、分區(qū)容忍性同時(shí)實(shí)現(xiàn);弱一致性,指讀取操作能夠見(jiàn)到變化的數(shù)據(jù),但不是所有變化的數(shù)據(jù)。
最終一致性屬于弱一致性的一種,即存儲(chǔ)系統(tǒng)保證如果沒(méi)有新的更新提交,最終所有的訪問(wèn)都將獲得最后的更新。如果沒(méi)有故障發(fā)生,不一致性取決于通信時(shí)延、系統(tǒng)負(fù)載以及復(fù)制策略中涉及的副本數(shù)。
2.NOSQL數(shù)據(jù)庫(kù)產(chǎn)品
NOSQL(Not Only SQL)數(shù)據(jù)庫(kù)是指那些非關(guān)系型的數(shù)據(jù)庫(kù)。NOSQL數(shù)據(jù)庫(kù)分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產(chǎn)品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。
NOSQL數(shù)據(jù)庫(kù)遵循CAP理論和BASE原則,大部分Key-Value數(shù)據(jù)庫(kù)系統(tǒng)都會(huì)根據(jù)自己的設(shè)計(jì)目的進(jìn)行相應(yīng)的選擇,如Cassandra、Dynamo滿足AP,BigTable、MongoDB滿足CP。
四、結(jié)束語(yǔ)
本文首先介紹了大數(shù)據(jù)概念,分析了關(guān)系數(shù)據(jù)庫(kù)在存儲(chǔ)大數(shù)據(jù)量方面的不足,并介紹了當(dāng)前NOSQL數(shù)據(jù)庫(kù)的基本理論和當(dāng)前產(chǎn)品分類。大數(shù)據(jù)時(shí)代的來(lái)臨,我們忙于如何存儲(chǔ)和處理這些數(shù)據(jù),但隨著計(jì)算機(jī)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)量會(huì)持續(xù)大幅增長(zhǎng),如何長(zhǎng)期保存這些數(shù)據(jù)以及如何處理更大級(jí)別的數(shù)據(jù)量,都需要我們思考并解決。
參考文獻(xiàn)
[1]王珊,王會(huì)舉,覃雄派等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011(34).
[2]黃賢立.NOSQL非關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展及應(yīng)用初探[J].福建電腦,2010(7):30.
1.圖書館的大數(shù)據(jù)應(yīng)用特征
大數(shù)據(jù)是一場(chǎng)革命,將改變?nèi)藗兊纳?、工作和思維方式。大數(shù)據(jù)至今并無(wú)統(tǒng)一定義,通常以“4v”特征或?qū)Υ髷?shù)據(jù)進(jìn)行描述性解釋:規(guī)模(Volume)指數(shù)據(jù)的數(shù)量規(guī)模大;類型(Variety)指數(shù)據(jù)類型多樣復(fù)雜,混合結(jié)構(gòu)化與非結(jié)構(gòu)化多種類型;實(shí)時(shí)(Velocity)一方面是數(shù)據(jù)增長(zhǎng)速度快,另一方面要求在合理的時(shí)間內(nèi)處理數(shù)據(jù);價(jià)值(Value)反映了大數(shù)據(jù)隱含著價(jià)值轉(zhuǎn)化。大數(shù)據(jù)發(fā)展的最終目標(biāo)是分析挖掘數(shù)據(jù)的價(jià)值,其重點(diǎn)在于數(shù)據(jù)的分析和應(yīng)用,“大”不過(guò)是信息技術(shù)不斷發(fā)展所產(chǎn)生的海量數(shù)據(jù)的表象而己。
社會(huì)進(jìn)步和信息技術(shù)不斷改變著圖書館的服務(wù)內(nèi)容與模式,網(wǎng)絡(luò)環(huán)境下要求將這些信息資源組合成整體并延伸至更大的范圍。隨著數(shù)字圖書館的興起,圖書館數(shù)字化文獻(xiàn)信息、數(shù)據(jù)庫(kù)的數(shù)量種類不斷增加,各地市級(jí)圖書館都已具有海量信息規(guī)模,比如上海圖書館提供的數(shù)據(jù)庫(kù)已多達(dá)400余個(gè)。這些數(shù)據(jù)包括類型多樣的文本、圖片、音頻與視頻各類非結(jié)構(gòu)化數(shù)據(jù),滿足大數(shù)據(jù)的基本特征。然而,這些數(shù)據(jù)資源價(jià)值遠(yuǎn)未得到有效體現(xiàn)與利用。一個(gè)重要的原因是缺乏有效的數(shù)據(jù)挖掘技術(shù)方法。通過(guò)人工從大量結(jié)構(gòu)繁雜的數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,是難以實(shí)現(xiàn)的。隨著大數(shù)據(jù)技術(shù)的發(fā)展與應(yīng)用,必然要求圖書館重點(diǎn)利用數(shù)據(jù)挖掘技術(shù)從大量的信息中發(fā)掘數(shù)據(jù)價(jià)值,以此推出知識(shí)化產(chǎn)品化的服務(wù)應(yīng)用。同時(shí),通過(guò)大數(shù)據(jù)處理分析對(duì)信息資源進(jìn)行深度、動(dòng)態(tài)、廣泛的知識(shí)挖掘,便于揭示信息內(nèi)容中各個(gè)要素及其相互之間的聯(lián)系,促進(jìn)信息交流,實(shí)現(xiàn)信息資源共享,提高文獻(xiàn)信息的利用效率,從而實(shí)現(xiàn)圖書館信息增值服務(wù)并提高信息服務(wù)的競(jìng)爭(zhēng)力。因此,探索數(shù)據(jù)挖掘方法技術(shù)提高圖書館的服務(wù)水平是亟須思考和解決的問(wèn)題。
2.大數(shù)據(jù)時(shí)代圖書館數(shù)據(jù)挖掘面臨的挑戰(zhàn)
大數(shù)據(jù)時(shí)代的到來(lái),極大地促進(jìn)了數(shù)據(jù)科學(xué)的興起。數(shù)據(jù)科學(xué)包括用科學(xué)的方法研究數(shù)據(jù)與用數(shù)據(jù)的方法研究科學(xué),后者主要的實(shí)現(xiàn)方式就是數(shù)據(jù)挖掘方法與技術(shù)。數(shù)據(jù)挖掘是指從數(shù)據(jù)源中發(fā)現(xiàn)知識(shí)的過(guò)程。實(shí)現(xiàn)數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)在于數(shù)據(jù)的挖掘方法技術(shù)。所以,如何充分有效地利用數(shù)據(jù)挖掘方法對(duì)圖書館大數(shù)據(jù)進(jìn)行開發(fā)處理,是開展圖書館知識(shí)服務(wù)的重要研究方向,也是服務(wù)創(chuàng)新的關(guān)鍵途徑與支撐服務(wù)技術(shù)。大數(shù)據(jù)時(shí)代圖書館的數(shù)據(jù)數(shù)量大、類型多,對(duì)數(shù)據(jù)挖掘提出新的需求與挑戰(zhàn),主要有以下方面。
2.1大規(guī)模數(shù)據(jù)量
數(shù)字館藏?cái)?shù)據(jù)規(guī)模與數(shù)據(jù)類型在不斷增長(zhǎng),對(duì)于數(shù)據(jù)挖掘算法的能力要求也在不斷提高。傳統(tǒng)對(duì)于大規(guī)模數(shù)據(jù)的分析一般采用隨機(jī)取樣,以較少數(shù)據(jù)獲得最多的信息,其準(zhǔn)確性會(huì)隨著隨機(jī)性增加而提高。這是在計(jì)算機(jī)性能較低特別是無(wú)法收集全部數(shù)據(jù)的情況下的選擇。然而,大數(shù)據(jù)環(huán)境數(shù)據(jù)價(jià)值隱匿于海量數(shù)據(jù)中,單靠取樣是無(wú)法捕捉到這些細(xì)節(jié)的,需要采用全集數(shù)據(jù)進(jìn)行處理分析。如此大量的數(shù)據(jù)分析僅靠單機(jī)是無(wú)法完成的,分析挖掘模型必然要借助分布式計(jì)算框架,比如,Map Reduce或者當(dāng)前流行的Spark,將分析模型遷移至集群計(jì)算環(huán)境。大數(shù)據(jù)應(yīng)用具有實(shí)時(shí)性,如智能推薦、文獻(xiàn)關(guān)聯(lián)等,需要在合理的時(shí)間完成分析過(guò)程,采用集群計(jì)算環(huán)境也是提高計(jì)算效率的選擇。另外,數(shù)據(jù)量增加的同時(shí),噪音數(shù)據(jù)也會(huì)增加。因此,在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作。
2.2數(shù)據(jù)的高維特征
圖書館數(shù)據(jù)的多樣性能夠提供更多維度的客觀對(duì)象描述屬性。數(shù)據(jù)從過(guò)去的一維、多維逐漸發(fā)展為巨量維度。雖然能夠建立豐富的多維數(shù)據(jù)模型與方法,但在構(gòu)建的大數(shù)據(jù)特征空間中,往往會(huì)超出傳統(tǒng)方法的處理能力??梢钥紤]引入維度規(guī)約技術(shù),比如主成分分析、奇異值分解來(lái)降低數(shù)據(jù)維度。同時(shí),數(shù)據(jù)屬性可能過(guò)于稀疏,也會(huì)極大影響數(shù)據(jù)模型的有效性。
2.3數(shù)據(jù)關(guān)系廣泛
圖書館服務(wù)應(yīng)用過(guò)程中的信息、用戶對(duì)象之間存在多種行為與內(nèi)容關(guān)聯(lián),從而組成多關(guān)系網(wǎng)絡(luò)。大數(shù)據(jù)的多源性、多樣性正是構(gòu)建這種復(fù)雜關(guān)系的基礎(chǔ)。比如,用戶的查詢?cè)~、借閱記錄、瀏覽記錄、圖書館文獻(xiàn)信息內(nèi)容之間形成的多關(guān)系網(wǎng)絡(luò)。特別是社交網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用,更使其趨于多元化。許多圖書館實(shí)踐中,比如基于用戶的信息推薦就是利用這種關(guān)系作為分析依據(jù)。過(guò)多關(guān)系的簡(jiǎn)單鏈接應(yīng)用,反而會(huì)削弱關(guān)鍵特征的作用和導(dǎo)致語(yǔ)義缺失。如何廣泛利用大數(shù)據(jù)提供的各類數(shù)據(jù)類型與數(shù)據(jù)關(guān)系,成為實(shí)際應(yīng)用中的一個(gè)重點(diǎn)。實(shí)際中,需要重視運(yùn)用關(guān)系選擇、組合及判斷函數(shù),提高分析的正確性有效性。
2.4數(shù)據(jù)保護(hù)要求不斷增長(zhǎng)
數(shù)據(jù)是圖書館信息服務(wù)的核心和基礎(chǔ),數(shù)據(jù)的安全性就顯得尤為重要。用戶在享受精準(zhǔn)個(gè)性化推薦帶來(lái)的便捷的同時(shí),也在深深擔(dān)心個(gè)人隱私安全問(wèn)題。一些敏感信息以明文存儲(chǔ)也會(huì)有安全風(fēng)險(xiǎn)。這些會(huì)導(dǎo)致數(shù)據(jù)挖掘方或者任何可以接近數(shù)據(jù)集的人,能夠辨別特定的用戶個(gè)體或內(nèi)容信息,存在利益侵犯的可能性。數(shù)據(jù)挖掘在發(fā)現(xiàn)數(shù)據(jù)價(jià)值的同時(shí),也對(duì)隱私安全和數(shù)據(jù)安全帶來(lái)了威脅。這就需利用數(shù)據(jù)修改、數(shù)據(jù)模糊、數(shù)據(jù)加密、加密檢索等隱私保護(hù)技術(shù)提高數(shù)據(jù)的安全性和可控性。
2.5自然語(yǔ)言理解程度較低
當(dāng)前,在信息檢索、自動(dòng)摘要等常見(jiàn)的數(shù)據(jù)挖掘任務(wù)中,仍無(wú)法有效識(shí)別同義詞、近義詞以及詞語(yǔ)間的語(yǔ)義關(guān)聯(lián),特別是一些短文本處理中,無(wú)法有效識(shí)別詞語(yǔ)語(yǔ)義,造成處理效果不理想。雖然一些圖書館建設(shè)了知識(shí)庫(kù),但僅限于研究層面,距離實(shí)用在規(guī)模上有相當(dāng)差距,在應(yīng)用方法上也沒(méi)有大的突破。同時(shí),圖書館存在大量圖片、音頻、視頻數(shù)據(jù),這些數(shù)據(jù)的加工處理也沒(méi)有引入有效的自動(dòng)圖像、音頻識(shí)別技術(shù),圖書館難以基于數(shù)據(jù)挖掘提供全方位的信息服務(wù)。
3.大數(shù)據(jù)時(shí)代圖書館數(shù)據(jù)挖掘的關(guān)鍵技術(shù)方法
3.1數(shù)據(jù)存儲(chǔ)
圖書館數(shù)據(jù)類型眾多,需要引入非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)技術(shù)。比如典型的HDFS,No SOL(Not Only SOL),已廣泛用于非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)適合結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。需要注意的是,要區(qū)分結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),針對(duì)數(shù)據(jù)特點(diǎn)使用相應(yīng)的存儲(chǔ)技術(shù)。在實(shí)際中,難以使用一種數(shù)據(jù)存儲(chǔ)方式存儲(chǔ)管理所有的數(shù)據(jù),即使谷歌也是將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。同時(shí),需要運(yùn)用高效存儲(chǔ)技術(shù),比如數(shù)據(jù)壓縮、自動(dòng)精簡(jiǎn)配置、自動(dòng)分層存儲(chǔ)、存儲(chǔ)虛擬化等解決或緩解數(shù)據(jù)量過(guò)大、存儲(chǔ)利用率、存儲(chǔ)效率低等難題。
3.2數(shù)據(jù)集成
目前,相當(dāng)數(shù)量圖書館的一個(gè)重要問(wèn)題是數(shù)據(jù)資源分散化、碎片化,數(shù)據(jù)存儲(chǔ)在不能相互訪問(wèn)的數(shù)據(jù)庫(kù)與系統(tǒng)中,形成數(shù)據(jù)孤島。孤立的數(shù)據(jù)是難以發(fā)揮出數(shù)據(jù)價(jià)值的,如何連接這些數(shù)據(jù),實(shí)現(xiàn)資源交互共享,是數(shù)據(jù)價(jià)值最大化的關(guān)鍵。數(shù)據(jù)集成將不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,經(jīng)過(guò)關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的標(biāo)準(zhǔn)來(lái)存儲(chǔ)數(shù)據(jù),從而應(yīng)對(duì)大數(shù)據(jù)數(shù)量眾多、類型廣泛等問(wèn)題給數(shù)據(jù)管理服務(wù)所帶來(lái)的挑戰(zhàn)。數(shù)據(jù)的集成連接涉及異構(gòu)數(shù)據(jù)的統(tǒng)一語(yǔ)義描述、多維特征關(guān)聯(lián)。同時(shí),要保證數(shù)據(jù)質(zhì)量,需要對(duì)數(shù)據(jù)進(jìn)行清洗。但清洗的粒度過(guò)細(xì),容易過(guò)濾有效數(shù)據(jù);反之,無(wú)法達(dá)清洗效果。所以,在質(zhì)與量之間需要做出一定權(quán)衡。
3.3數(shù)據(jù)處理加工
語(yǔ)義處理技術(shù)能夠?yàn)樯顚拥臄?shù)據(jù)分析提供支持,提高各種數(shù)據(jù)挖掘算法的語(yǔ)義化程度與性能,提高機(jī)器可理解數(shù)據(jù)的能力。語(yǔ)義知識(shí)庫(kù)是語(yǔ)義處理的基礎(chǔ)支撐,典型的知識(shí)庫(kù)有WordNet、中文知網(wǎng),但其構(gòu)建存在人工成本高、更新慢的問(wèn)題。實(shí)踐中,可以從維基百科、互動(dòng)百科等結(jié)構(gòu)化程度較高的海量數(shù)據(jù)中抽取詞語(yǔ)關(guān)系,以低成本方式自動(dòng)構(gòu)建語(yǔ)義知識(shí)庫(kù)獲取語(yǔ)義知識(shí),也可以利用大規(guī)模語(yǔ)料構(gòu)建概念詞語(yǔ)矩陣或利用Word2 Vector工具,提高數(shù)據(jù)挖掘的語(yǔ)義化處理程度。圖書館需要采用圖像、音視頻內(nèi)容檢索技術(shù),提高多媒體數(shù)據(jù)的處理能力。比如利用語(yǔ)音識(shí)別技術(shù),將音頻數(shù)據(jù)處理為文本并記錄聲音信號(hào)在音頻中的時(shí)間位置,以此提高用戶獲取音頻數(shù)據(jù)的快速性與準(zhǔn)確性。通過(guò)語(yǔ)義標(biāo)注從圖書館數(shù)據(jù)中識(shí)別概念本體,實(shí)現(xiàn)信息之間的關(guān)聯(lián),形成知識(shí)網(wǎng)絡(luò),為個(gè)性化、語(yǔ)義化服務(wù)應(yīng)用提供支撐,進(jìn)而可通過(guò)分類、聚類等數(shù)據(jù)挖掘加工處理從多維度滿足用戶的信息需求。另外,可借助微博、微信等社會(huì)化網(wǎng)絡(luò)提供的API接口,獲得更廣泛的用戶數(shù)據(jù),展開用戶需求與圖書館信息之間的深層處理分析,利用APP等多種方式為圖書館與用戶之間搭建有效的服務(wù)橋梁。
3.4數(shù)據(jù)可視化