大數(shù)據(jù)技術(shù)匯總十篇

時(shí)間：2023-03-23 15:05:43

序論：好文章的創(chuàng)作是一個(gè)不斷探索和完善的過(guò)程，我們?yōu)槟扑]十篇大數(shù)據(jù)技術(shù)范例，希望它們能助您一臂之力，提升您的閱讀品質(zhì)，帶來(lái)更深刻的閱讀感受。

大數(shù)據(jù)技術(shù)

篇（1）

大數(shù)據(jù)（Big Data）是目前最重要的科學(xué)、技術(shù)和社會(huì)話題。借用IDC數(shù)據(jù)公司的定義：“大數(shù)據(jù)是一種新一代的技術(shù)和架構(gòu)，具備高效率的捕捉、發(fā)現(xiàn)和分析能力，能夠經(jīng)濟(jì)地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價(jià)值。”

大數(shù)據(jù)定義有著如下的基本前提和含義。

① 大量的數(shù)據(jù)：大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長(zhǎng)。用世界著名的咨詢公司高德納（Gartner）研究報(bào)告的描述：“同一類型的數(shù)據(jù)量快速增長(zhǎng)；數(shù)據(jù)增長(zhǎng)速度的加快；數(shù)據(jù)多樣性、新數(shù)據(jù)來(lái)源和新數(shù)據(jù)種類的不斷增加?！?/p>

② 多種類型數(shù)據(jù)積累：新的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)采集的技術(shù)發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲(chǔ)成為可能。網(wǎng)絡(luò)技術(shù)、移動(dòng)設(shè)備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術(shù)、氣候和環(huán)境監(jiān)測(cè)技術(shù)等等，每時(shí)每刻都在各種形式、各種類型的大量數(shù)據(jù)。

③ 計(jì)算技術(shù)的進(jìn)步與發(fā)展：現(xiàn)代計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)和數(shù)據(jù)庫(kù)處理技術(shù)等可以處理各種形式的海量數(shù)據(jù)，產(chǎn)生出大量的高附加值的數(shù)據(jù)、結(jié)果、狀態(tài)和知識(shí)。

④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力：數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術(shù)平臺(tái)對(duì)數(shù)據(jù)的綜合處理，造成了知識(shí)邊界擴(kuò)展、知識(shí)價(jià)值提升、知識(shí)衍生能力加快，它極大地影響到了企業(yè)、個(gè)人、社會(huì)和政府的決策，極大地促進(jìn)了社會(huì)生產(chǎn)力的發(fā)展，使掌握大數(shù)據(jù)技術(shù)者獲得了競(jìng)爭(zhēng)優(yōu)勢(shì)和難于模仿的核心競(jìng)爭(zhēng)力。因此，大數(shù)據(jù)技術(shù)也成為了國(guó)家的核心戰(zhàn)略資源。

大數(shù)據(jù)的含義廣博、技術(shù)領(lǐng)域廣泛、技術(shù)平臺(tái)多樣、作用效果巨大、影響意義深遠(yuǎn)。理解大數(shù)據(jù)的理論、方法和架構(gòu)，適應(yīng)大數(shù)據(jù)的變革與發(fā)展，分享大數(shù)據(jù)所帶來(lái)的種種便利和收益，便能夠在大數(shù)據(jù)時(shí)代占領(lǐng)先機(jī)。

1.2 大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)技術(shù)的影響

大數(shù)據(jù)的宗旨是處理數(shù)據(jù)，數(shù)據(jù)庫(kù)技術(shù)自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫(kù)技術(shù)也具有明顯的特殊性。

1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術(shù)面臨的新特點(diǎn)

數(shù)據(jù)量宏大。對(duì)數(shù)據(jù)庫(kù)技術(shù)影響最大、最直接的方面莫過(guò)于數(shù)據(jù)的爆炸性增長(zhǎng)。即使先不考慮數(shù)據(jù)類型的變化，需要處理的數(shù)據(jù)從MB擴(kuò)展到GB，現(xiàn)在再擴(kuò)展到TB，不遠(yuǎn)的將來(lái)數(shù)據(jù)庫(kù)將經(jīng)常面對(duì)PB量級(jí)的數(shù)據(jù)，這必然對(duì)數(shù)據(jù)庫(kù)的硬件架構(gòu)、數(shù)據(jù)庫(kù)系統(tǒng)結(jié)構(gòu)和數(shù)據(jù)庫(kù)應(yīng)用產(chǎn)生重大的影響。

數(shù)據(jù)形式多樣。另外一個(gè)對(duì)數(shù)據(jù)庫(kù)技術(shù)產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化，傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進(jìn)行處理，并且和傳統(tǒng)關(guān)系式數(shù)據(jù)不同的，許多數(shù)據(jù)格式中的有價(jià)值數(shù)據(jù)并不多，例如多張圖片定對(duì)象的變化，連續(xù)視頻影像中對(duì)特殊對(duì)象的跟蹤等等，其數(shù)據(jù)抽取方式、過(guò)濾方法和存儲(chǔ)、計(jì)算方式均有別于傳統(tǒng)數(shù)據(jù)庫(kù)。

單機(jī)或小型局域網(wǎng)的數(shù)據(jù)庫(kù)處理無(wú)法滿足。當(dāng)前，數(shù)據(jù)量爆炸式增長(zhǎng)，數(shù)據(jù)類型日趨多樣，傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的處理能力已難于滿足，需要新的數(shù)據(jù)庫(kù)處理技術(shù)。

傳統(tǒng)的并行數(shù)據(jù)庫(kù)的靈活性具有局限性。并行數(shù)據(jù)庫(kù)系統(tǒng)取得了輝煌的成績(jī)，但是它的靈活性不佳，彈性受限，系統(tǒng)規(guī)模的收縮或擴(kuò)展成本非常高。這樣的系統(tǒng)適合于“相對(duì)固定結(jié)構(gòu)”的計(jì)算結(jié)構(gòu)，例如機(jī)銀行業(yè)務(wù)管理系統(tǒng)或城市交通管理系統(tǒng)等。

結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化形式并存。讓數(shù)據(jù)庫(kù)有能力處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化（有時(shí)不作區(qū)分）數(shù)據(jù)變成了新型數(shù)據(jù)庫(kù)技術(shù)的一項(xiàng)迫切要求。

對(duì)結(jié)果要求的模糊化。在大數(shù)據(jù)的時(shí)代，計(jì)算技術(shù)不僅限于回答“是/非”問(wèn)題，而是需要更多的模糊化結(jié)果。例如，流感有很可能在一周后流行、近期可能發(fā)生5級(jí)左右地震、近一周國(guó)際往返機(jī)票將上漲……這些答案并不精確，但足以指導(dǎo)人們的活動(dòng)。非結(jié)構(gòu)化數(shù)據(jù)的處理結(jié)果常常是給出模糊化的答案。

新數(shù)據(jù)庫(kù)技術(shù)的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn)，促使了新技術(shù)的產(chǎn)生，為處理非結(jié)構(gòu)化數(shù)據(jù)，Apache、Google、Amazon等公司分別開發(fā)了適應(yīng)各自需要的新型數(shù)據(jù)庫(kù)系統(tǒng)，相關(guān)的專家經(jīng)過(guò)分析和總結(jié)提出了NoSQL的設(shè)計(jì)理念，并創(chuàng)建了許多成功的產(chǎn)品。

1.2.2 新型數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)

與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比較，新型數(shù)據(jù)庫(kù)技術(shù)具有一些明顯的特點(diǎn)，具體如下：

可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結(jié)構(gòu)化或數(shù)據(jù)代表性而人為地選取部分?jǐn)?shù)據(jù)或進(jìn)行數(shù)據(jù)抽樣；不再靠樣本規(guī)模的大小來(lái)控制結(jié)果的置信區(qū)間和置信度。新的數(shù)據(jù)庫(kù)處理技術(shù)試圖利用“全部數(shù)據(jù)”，完成對(duì)結(jié)果的計(jì)算和推斷。

使用更多的非結(jié)構(gòu)化數(shù)據(jù)，而不是片面地強(qiáng)調(diào)全部使用結(jié)構(gòu)化數(shù)據(jù)。在非結(jié)構(gòu)化的高復(fù)雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下，允許結(jié)論和結(jié)果的“不精確”，允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術(shù)“以概率說(shuō)話”的特點(diǎn)。

不再試圖避免或降低數(shù)據(jù)的混雜性，而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復(fù)雜、混亂、無(wú)結(jié)構(gòu)化與確定、規(guī)整、結(jié)構(gòu)化數(shù)據(jù)之間做出平衡。

在遇到“使用全部數(shù)據(jù)，得出模糊化結(jié)果”與“實(shí)用部分?jǐn)?shù)據(jù)，得出準(zhǔn)確結(jié)論”的選擇時(shí)，新型數(shù)據(jù)庫(kù)技術(shù)一般會(huì)選擇前者，從一個(gè)更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。

科學(xué)地在因果關(guān)系與相關(guān)關(guān)系中做出抉擇。如果數(shù)據(jù)總體支持因果關(guān)系的判別和斷言，則像傳統(tǒng)數(shù)據(jù)庫(kù)那樣提供因果關(guān)系斷語(yǔ)；如果數(shù)據(jù)計(jì)算量宏大、成本高昂或條件不具備，則把關(guān)注點(diǎn)由“因果關(guān)系”調(diào)整為“相關(guān)關(guān)系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地，這種相關(guān)關(guān)系的選擇不能是隨機(jī)的，而是預(yù)先設(shè)計(jì)和規(guī)劃好的。

不同的數(shù)據(jù)庫(kù)開發(fā)理念，不同的應(yīng)用目標(biāo)，不同的技術(shù)方案，早就了新型數(shù)據(jù)庫(kù)豐富多彩、特點(diǎn)各異的局面。

1.3 從傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)到非關(guān)系數(shù)據(jù)

在計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)剛剛趨于穩(wěn)定的1970年，IBM公司的Edgar Codd（科德）首先提出了關(guān)系數(shù)據(jù)庫(kù)的概念和規(guī)則，這是數(shù)據(jù)庫(kù)技術(shù)的一個(gè)重要的里程碑?？频露x的關(guān)系數(shù)據(jù)庫(kù)具有結(jié)構(gòu)化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關(guān)系明確、一致性好的優(yōu)點(diǎn)。關(guān)系數(shù)據(jù)庫(kù)模型把數(shù)據(jù)庫(kù)操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結(jié)構(gòu)化查詢語(yǔ)言則把關(guān)系數(shù)據(jù)庫(kù)及其操作模式完整地固定下來(lái)，其理論和做法延續(xù)至今，被作為數(shù)據(jù)庫(kù)技術(shù)的重要基石。關(guān)系數(shù)據(jù)庫(kù)中定義的關(guān)系模型的實(shí)質(zhì)是二維表格模型，關(guān)系數(shù)據(jù)庫(kù)就是通過(guò)關(guān)系連接的多個(gè)二維表格之間的數(shù)據(jù)集合。當(dāng)前流行的數(shù)據(jù)庫(kù)軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關(guān)系數(shù)據(jù)庫(kù)。

到二十世紀(jì)八十年代后期，IBM的研究員提出了數(shù)據(jù)倉(cāng)庫(kù)（Data Warehouse）的概念，4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉(cāng)庫(kù)定義：“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合，用于支持管理中的決策制定?！睌?shù)據(jù)倉(cāng)庫(kù)的進(jìn)步在于，它把決策支持定為數(shù)據(jù)庫(kù)中數(shù)據(jù)組織和管理的目標(biāo)，從而把智能性和決策能力融入到數(shù)據(jù)庫(kù)中。Inmon之后，Ralph Kimball建立了更加方便、實(shí)用的“自底向上”數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)并稱之為“數(shù)據(jù)集市”（Data Mart），這種技術(shù)受到企業(yè)及廠家的歡迎并采納實(shí)施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉(cāng)庫(kù)，但是它的出現(xiàn)誘發(fā)了商務(wù)智能和聯(lián)機(jī)分析技術(shù)的流行。

篇（2）

一、分布集群數(shù)據(jù)庫(kù)在大數(shù)據(jù)中的應(yīng)用

目前，許多數(shù)據(jù)增長(zhǎng)率很高的大型數(shù)據(jù)庫(kù)系統(tǒng)正被用于改善全球人類活動(dòng)，如通信、社交網(wǎng)絡(luò)、交易、銀行等，分布集群數(shù)據(jù)庫(kù)已成為提高數(shù)據(jù)訪問(wèn)速度的解決方案之一。為多種類型的用戶在多個(gè)存儲(chǔ)中組織數(shù)據(jù)訪問(wèn)，分布集群數(shù)據(jù)庫(kù)的問(wèn)題不僅在于如何管理大量的數(shù)據(jù)，而且在于如何組織分布式存儲(chǔ)中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時(shí)間的最佳方法之一?；谝?guī)則的聚類是提供數(shù)據(jù)庫(kù)自動(dòng)聚類和數(shù)據(jù)存儲(chǔ)模式解釋的解決方案之一，基于規(guī)則的集群通過(guò)分析屬性和記錄上的數(shù)據(jù)庫(kù)結(jié)構(gòu)，將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個(gè)集群，每個(gè)規(guī)則與內(nèi)部集群中的規(guī)則相似，與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫(kù)是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù)，用于數(shù)據(jù)分類，在緊湊的程序中具有顯著的表示能力，這源于節(jié)點(diǎn)的可重用性，而節(jié)點(diǎn)本身就是圖形結(jié)構(gòu)的功能。為了實(shí)現(xiàn)基于規(guī)則的集群，分布集群數(shù)據(jù)庫(kù)可以通過(guò)分析記錄來(lái)處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫(kù)的圖形結(jié)構(gòu)由三種節(jié)點(diǎn)組成：起始節(jié)點(diǎn)、判斷節(jié)點(diǎn)和處理節(jié)點(diǎn)。開始節(jié)點(diǎn)表示節(jié)點(diǎn)轉(zhuǎn)換的開始位置；判斷節(jié)點(diǎn)表示要在數(shù)據(jù)庫(kù)中檢查的屬性。分布集群數(shù)據(jù)庫(kù)規(guī)則提取的節(jié)點(diǎn)準(zhǔn)備包括兩個(gè)階段：節(jié)點(diǎn)定義和節(jié)點(diǎn)排列。節(jié)點(diǎn)定義的目的是準(zhǔn)備創(chuàng)建規(guī)則，節(jié)點(diǎn)排列是選擇重要的節(jié)點(diǎn)，以便高效地提取大量規(guī)則。節(jié)點(diǎn)排列由以下兩個(gè)順序過(guò)程執(zhí)行，第一個(gè)過(guò)程是查找模板規(guī)則，第二個(gè)過(guò)程是結(jié)合第一個(gè)過(guò)程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過(guò)程中，分布集群數(shù)據(jù)庫(kù)規(guī)則提取中只使用了少數(shù)幾個(gè)屬性，它旨在增加獲得高支持模板的可能性。與沒(méi)有模板規(guī)則的方法相比，該節(jié)點(diǎn)排列方法具有更好的聚類結(jié)果，這兩個(gè)過(guò)程中的規(guī)則生成都是通過(guò)圖結(jié)構(gòu)的演化來(lái)實(shí)現(xiàn)。

二、在線規(guī)則更新系統(tǒng)的應(yīng)用

在線規(guī)則更新系統(tǒng)用于通過(guò)分析所有記錄從數(shù)據(jù)集中提取規(guī)則，在大數(shù)據(jù)應(yīng)用中，每個(gè)節(jié)點(diǎn)都有自己的節(jié)點(diǎn)號(hào)，描述每個(gè)節(jié)點(diǎn)號(hào)的節(jié)點(diǎn)信息。程序大小取決于節(jié)點(diǎn)的數(shù)量，這會(huì)影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點(diǎn)表示根據(jù)連接順序執(zhí)行的判斷節(jié)點(diǎn)序列的起始點(diǎn)，開始節(jié)點(diǎn)的多個(gè)位置將允許一個(gè)人提取各種規(guī)則。判斷節(jié)點(diǎn)表示數(shù)據(jù)集的屬性，顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié)，從每個(gè)起始節(jié)點(diǎn)開始的節(jié)點(diǎn)序列用虛線a、b和c表示，節(jié)點(diǎn)序列流動(dòng)，直到支持判斷節(jié)點(diǎn)的下一個(gè)組合不滿足閾值。在節(jié)點(diǎn)序列中，如果具有已出現(xiàn)在上一個(gè)節(jié)點(diǎn)序列，將跳過(guò)這些節(jié)點(diǎn)。在更新每個(gè)集群中的規(guī)則時(shí)，重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此，規(guī)則更新中要考慮的屬性由以下過(guò)程確定。當(dāng)計(jì)算集群中每個(gè)屬性和數(shù)據(jù)之間的輪廓值時(shí)，閾值設(shè)置為0.85，只有輪廓值低于0.85的屬性。將為規(guī)則更新過(guò)程中的判斷節(jié)點(diǎn)的屬性選擇。一些數(shù)據(jù)的庫(kù)存值和權(quán)重值低于0.85，因此這些值不包括在國(guó)民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性，每個(gè)集群都具有屬性的主要值，這些屬性是集群質(zhì)量的錨定點(diǎn)，進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中，完成主要的規(guī)則提取過(guò)程，這是一個(gè)標(biāo)準(zhǔn)的規(guī)則提取，在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過(guò)程，對(duì)初始數(shù)據(jù)集進(jìn)行初始集群；改善規(guī)則更新過(guò)程，僅對(duì)輪廓值低于閾值的數(shù)據(jù)執(zhí)行。

三、大規(guī)模并行處理技術(shù)的應(yīng)用

篇（3）

中圖分類號(hào)：TP311.13

關(guān)于數(shù)據(jù)方面的新名詞是層出不窮，云計(jì)算、物聯(lián)網(wǎng)的概念還沒(méi)有完全理解，大數(shù)據(jù)的概念又頻頻出現(xiàn)在媒體中，特別是今年“兩會(huì)”期間，在央視報(bào)道中，多次使用大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。大數(shù)據(jù)的概念從計(jì)算機(jī)業(yè)界也迅速傳播到各行各業(yè)，與我們的日常生活也密切的聯(lián)系在一起。不但中國(guó)如此，2012年3月，奧巴馬宣布美國(guó)政府五大部門投資兩億美元啟動(dòng)“大數(shù)據(jù)研究與開發(fā)計(jì)劃”，【1】大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究，以提高美國(guó)的科研、教育與國(guó)家安全能力，美國(guó)政府以及把“大數(shù)據(jù)”技術(shù)上升到國(guó)家安全戰(zhàn)略的高度。其他國(guó)家也紛紛加大對(duì)大數(shù)據(jù)研究的資金投入，同時(shí)，許多大公司企業(yè)也將此技術(shù)視作創(chuàng)新前沿。

1 大數(shù)據(jù)概念與特征

但是，到目前為止，業(yè)界關(guān)于大數(shù)據(jù)的概念尚未有統(tǒng)一的定義。最早將大數(shù)據(jù)應(yīng)用于IT環(huán)境的是著名的咨詢公司麥肯錫，它關(guān)于大數(shù)據(jù)的定義是這樣的：大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。另外，被引用較多得到大家認(rèn)可的還有維基百科的定義：大數(shù)據(jù)指數(shù)量巨大、類型復(fù)雜的數(shù)據(jù)集合，現(xiàn)有的數(shù)據(jù)庫(kù)管理工具或傳統(tǒng)的數(shù)據(jù)處理應(yīng)用難以對(duì)其進(jìn)行處理。這些挑戰(zhàn)包括如捕獲、收集、存儲(chǔ)、搜索、共享、傳遞、分析與可視化等?！?】

當(dāng)前，較為統(tǒng)一的認(rèn)識(shí)是大數(shù)據(jù)有四個(gè)基本特征：數(shù)據(jù)規(guī)模大（Volume），數(shù)據(jù)種類多（Variety），數(shù)據(jù)要求處理速度快（Velocity），數(shù)據(jù)價(jià)值密度低（Value），即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念?！?】

首先，數(shù)據(jù)量龐大是大數(shù)據(jù)的最主要的特征，大數(shù)據(jù)的數(shù)據(jù)規(guī)模是以PB、EB、ZB量級(jí)為存儲(chǔ)單位的，數(shù)據(jù)量非常龐大。同時(shí)，此類數(shù)據(jù)還在不斷的加速產(chǎn)生，因此，傳統(tǒng)的數(shù)據(jù)庫(kù)管理技術(shù)無(wú)法在短時(shí)間內(nèi)完成對(duì)數(shù)據(jù)的處理。第二，數(shù)據(jù)種類多。與傳統(tǒng)的數(shù)據(jù)相比，大數(shù)據(jù)的數(shù)據(jù)類型種類繁多，包括了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)采取關(guān)系型數(shù)據(jù)庫(kù)較多，結(jié)構(gòu)單一，而大數(shù)據(jù)重點(diǎn)關(guān)注的是包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù)，因此傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)不能適應(yīng)新的大數(shù)據(jù)的要求，傳統(tǒng)的數(shù)據(jù)處理方式也面臨著巨大的挑戰(zhàn)。第三，大數(shù)據(jù)的產(chǎn)生與存儲(chǔ)是動(dòng)態(tài)的，有的處理結(jié)果時(shí)效性要求很高，這就要求對(duì)數(shù)據(jù)能夠快速處理，數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別數(shù)據(jù)倉(cāng)庫(kù)的主要因素。數(shù)據(jù)產(chǎn)生的速度以及快速變化形成的數(shù)據(jù)流，超越了傳統(tǒng)的信息系統(tǒng)的承載能力。最后，數(shù)據(jù)價(jià)值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。大數(shù)據(jù)分析是采用原始數(shù)據(jù)的分析，保留了數(shù)據(jù)的全貌，因此一個(gè)事件的全部數(shù)據(jù)都會(huì)被保存，產(chǎn)生的數(shù)據(jù)量激增，而有用的信息可能非常少，因此價(jià)值密度偏低。

2 大數(shù)據(jù)可用性的面臨的技術(shù)與問(wèn)題

大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大，更代表著其潛在的數(shù)據(jù)價(jià)值之大。有研究證明，有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強(qiáng)企業(yè)生產(chǎn)能力和競(jìng)爭(zhēng)能力的機(jī)會(huì)，能夠給企業(yè)帶來(lái)巨大的潛在商業(yè)價(jià)值?！?】但不可否認(rèn)的是，大數(shù)據(jù)目前也面臨很多負(fù)面影響。低質(zhì)量低密度的數(shù)據(jù)也可能對(duì)決策造成致命性的錯(cuò)誤。如何把大數(shù)據(jù)從理論研究到企業(yè)應(yīng)用的轉(zhuǎn)變，還面臨很多問(wèn)題與挑戰(zhàn)。

（1）可用性理論體系的建立。大數(shù)據(jù)的可用性需要完整的理論做支撐，才能解決諸如如何形式化的表示數(shù)據(jù)可用性、如何評(píng)估數(shù)據(jù)可用性、數(shù)據(jù)錯(cuò)誤自動(dòng)發(fā)現(xiàn)和修復(fù)依據(jù)什么理論、如何管理數(shù)據(jù)和數(shù)據(jù)融合、數(shù)據(jù)安全性采取何種策略和理論等一系列問(wèn)題。因此，要建立完整可用性理論體系，構(gòu)建統(tǒng)一的模型，為大數(shù)據(jù)的進(jìn)一步應(yīng)用提供堅(jiān)實(shí)的理論基礎(chǔ)。

（2）高質(zhì)量數(shù)據(jù)的獲取的能力。大數(shù)據(jù)技術(shù)最基礎(chǔ)的對(duì)象就是數(shù)據(jù)，是一切應(yīng)用和分析決策的前提。因此，獲取高質(zhì)量數(shù)據(jù)是確保信息可用性的重要因素之一。隨著互聯(lián)網(wǎng)的數(shù)據(jù)不斷增大，物聯(lián)網(wǎng)的興起以及復(fù)雜物理信息系統(tǒng)的應(yīng)用，大數(shù)據(jù)的來(lái)源也多種多樣，數(shù)據(jù)模型千差萬(wàn)別，質(zhì)量也參差不齊，這就為加工整合數(shù)據(jù)帶來(lái)非常大的困難。

大數(shù)據(jù)是對(duì)事物最原始的全貌記錄，數(shù)據(jù)量規(guī)模很大，但是其中有用的信息非常少，因此，對(duì)于處理數(shù)據(jù)來(lái)說(shuō)，數(shù)據(jù)并不是越多越好。如何提高數(shù)據(jù)中的有效數(shù)據(jù)是非常關(guān)鍵的。大量的數(shù)據(jù)中如果僅僅包含了少量的錯(cuò)誤數(shù)據(jù)，對(duì)分析結(jié)果可能不會(huì)造成很大的影響。但是如果對(duì)錯(cuò)誤數(shù)據(jù)沒(méi)有有效控制的話，大量錯(cuò)誤數(shù)據(jù)的涌入很可能會(huì)得到完全錯(cuò)誤的結(jié)果。

因此，獲取高質(zhì)量數(shù)據(jù)的能力是大數(shù)據(jù)能否進(jìn)行實(shí)用的關(guān)鍵因素，否則只會(huì)在浪費(fèi)人力物力后獲得完全無(wú)效甚至錯(cuò)誤的結(jié)果。但是目前還缺乏系統(tǒng)的研究，對(duì)于出現(xiàn)的問(wèn)題還沒(méi)有很好的解決方案，在獲取數(shù)據(jù)方面的工作任重而道遠(yuǎn)。

篇（4）

目前，業(yè)界已經(jīng)從對(duì)大數(shù)據(jù)重要性的認(rèn)識(shí)階段，發(fā)展到實(shí)踐大數(shù)據(jù)必要性的戰(zhàn)略實(shí)施階段。中國(guó)市場(chǎng)在大數(shù)據(jù)概念產(chǎn)生的初期便已經(jīng)步入大數(shù)據(jù)認(rèn)知和探索階段，并逐步成為全球市場(chǎng)最具行動(dòng)力的市場(chǎng)之一。據(jù)IDC預(yù)測(cè)，2013年中國(guó)大數(shù)據(jù)市場(chǎng)將達(dá)到1.8億美元。而賽迪顧問(wèn)數(shù)據(jù)顯示，到2016年，中國(guó)有望成為世界最大的大數(shù)據(jù)市場(chǎng)，市場(chǎng)份額達(dá)到8.03億美元（約50億人民幣）。

數(shù)據(jù)改變世界

在感知化、物聯(lián)化和智能化的交會(huì)下，世界的面貌即將改變。

2013年7月11日，IBM 2013技術(shù)峰會(huì)（IBM Tech Summit 2013）在京舉行。牛津大學(xué)教授、大數(shù)據(jù)權(quán)威專家、《大數(shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格博士在會(huì)上表示：“大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型，正在變革我們的生活、工作和思維。中國(guó)是世界上最復(fù)雜的大數(shù)據(jù)國(guó)家，面臨著充滿變化的局面和無(wú)限的可能性，但是她同時(shí)也擁有最大的發(fā)展機(jī)會(huì)。因?yàn)樵诖髷?shù)據(jù)環(huán)境下，充分的數(shù)據(jù)樣本能夠幫助企業(yè)揭示規(guī)律，更好的洞察和預(yù)測(cè)未來(lái)；另外，中國(guó)人憑借在數(shù)學(xué)和統(tǒng)計(jì)方面的優(yōu)勢(shì)，成為全球矚目的大數(shù)據(jù)人才據(jù)點(diǎn)。我很高興看到，在IBM和牛津大學(xué)年初的大數(shù)據(jù)調(diào)研中，中國(guó)市場(chǎng)有四分之一的企業(yè)已經(jīng)步入大數(shù)據(jù)實(shí)踐階段。這表明中國(guó)不僅快速把握了創(chuàng)新的趨勢(shì)，更有可能成為全球大數(shù)據(jù)領(lǐng)域的先驅(qū)?！?/p>

在大數(shù)據(jù)和分析領(lǐng)域，IBM已充分展現(xiàn)了在該市場(chǎng)的領(lǐng)先優(yōu)勢(shì)。近期，IBM被IT分析機(jī)構(gòu)capioIT評(píng)為2013年亞太區(qū)商業(yè)智能和分析解決方案供應(yīng)商行業(yè)第一名。作為目前業(yè)界唯一能夠集咨詢、服務(wù)、軟硬件綜合實(shí)力，提供端到端全面整合解決方案的廠商，IBM相關(guān)產(chǎn)品和服務(wù)覆蓋了“大數(shù)據(jù)”相關(guān)領(lǐng)域的各個(gè)階段和各個(gè)領(lǐng)域。

IBM軟件集團(tuán)大中華區(qū)戰(zhàn)略及市場(chǎng)總監(jiān)吳立東認(rèn)為：在大數(shù)據(jù)時(shí)代，企業(yè)既可以基于數(shù)據(jù)更好地做到以客戶為中心，也可以利用大數(shù)據(jù)幫助企業(yè)整合后端業(yè)務(wù)，從而更好地為客戶服務(wù)。

同時(shí)，IBM在全球的大數(shù)據(jù)實(shí)踐已經(jīng)深入到包括中國(guó)在內(nèi)的全球市場(chǎng)的各個(gè)行業(yè)。包括電信、金融、醫(yī)療、零售、制造等全球30000家客戶已在IBM大數(shù)據(jù)平臺(tái)及大數(shù)據(jù)分析等技術(shù)和理念支持下獲得收益。

前不久，IBM更是推出了大數(shù)據(jù)方面的多款產(chǎn)品和技術(shù)，大力提升了其分析產(chǎn)品的加速性能，簡(jiǎn)化了開發(fā)和運(yùn)營(yíng)，并推出了企業(yè)級(jí)別的開源Hadoop系統(tǒng)，同時(shí)推出了企業(yè)移動(dòng)業(yè)務(wù)解決方案MessageSight，以及升級(jí)DB2 10.5等系列產(chǎn)品。在認(rèn)知計(jì)算領(lǐng)域，更推出第一款面向消費(fèi)者的Waston應(yīng)用。其中，業(yè)內(nèi)首創(chuàng)的分析加速技術(shù)BLU Acceleration，延續(xù)了傳統(tǒng)的內(nèi)存管理系統(tǒng)功能，能夠幫助用戶更快速地抓取關(guān)鍵信息，并將數(shù)據(jù)分析速度提高25倍。全新的“大數(shù)據(jù)專家”PureData for Hadoop系統(tǒng)能夠大幅提升企業(yè)部署Hadoop的速度，同時(shí)降低部署難度。新版本企業(yè)級(jí)Hadoop產(chǎn)品InfoSphere BigInsights可以利用現(xiàn)有的SQL技術(shù)，更便捷地開發(fā)應(yīng)用組件。

技術(shù)維新助力再現(xiàn)代化

隨著IT技術(shù)的進(jìn)一步發(fā)展，技術(shù)正在彰顯著前所未有的特殊作用，人們對(duì)技術(shù)的追求也越來(lái)越迫切。

IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠表示：“最新的IBM全球CEO調(diào)研顯示全球企業(yè)領(lǐng)導(dǎo)者將技術(shù)列為最重要的外部力量，而‘科技是第一生產(chǎn)力’一直被廣大中國(guó)的企業(yè)家和技術(shù)人們奉為至理名言。IBM認(rèn)為，在由新一代技術(shù)組成的智慧計(jì)算時(shí)代，中國(guó)的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位，將其運(yùn)用到自身的變革轉(zhuǎn)型之中。作為智慧地球的推進(jìn)者，IBM正在引領(lǐng)商業(yè)和科技的創(chuàng)新，通過(guò)業(yè)務(wù)前線化實(shí)現(xiàn)以客戶為中心的業(yè)務(wù)轉(zhuǎn)型，通過(guò)企業(yè)內(nèi)部全面整合大幅優(yōu)化流程和運(yùn)營(yíng)，充分發(fā)揮最新的科技能力，攜手合作伙伴幫助中國(guó)企業(yè)、組織和政府共同打造‘再現(xiàn)代化’發(fā)展的全新方式?！?/p>

篇（5）

顯然，這三大經(jīng)典的技術(shù)信條在大數(shù)據(jù)時(shí)代面臨動(dòng)搖，

技術(shù)信徒的思維模式也即將發(fā)生顛覆。

那么，大數(shù)據(jù)對(duì)技術(shù)信徒意味著什么？

他們又將如何面對(duì)這一顛覆性的變革？

“技術(shù)匯成一條大河，一波推動(dòng)另外一波?！盜BM中國(guó)開發(fā)中心首席技術(shù)官兼新技術(shù)研發(fā)中心總經(jīng)理毛新生帶著對(duì)技術(shù)的滿腔癡迷這樣形容道。

一波未平一波又起，移動(dòng)、社交商務(wù)、云計(jì)算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢(shì)正在融合成一股巨大的潮流，將所有的行業(yè)IT化，進(jìn)而推動(dòng)商業(yè)和社會(huì)的演進(jìn)。這也就意味著“科技是第一生產(chǎn)力”在當(dāng)下有了更深層次的涵義——“IBM認(rèn)為，在由新一代技術(shù)組成的智慧運(yùn)算時(shí)代，中國(guó)的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位，將其運(yùn)用到自身的變革轉(zhuǎn)型之中?！?IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻(xiàn)策。

由2012年的“軟件技術(shù)峰會(huì)”改名為2013年的“技術(shù)峰會(huì)”，在這么一個(gè)盛會(huì)上，IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動(dòng)應(yīng)用、大數(shù)據(jù)、云計(jì)算、DevOps軟件持續(xù)交付、應(yīng)用整合、社交商務(wù)、專家集成系統(tǒng)等熱議話題，上百場(chǎng)技術(shù)主題演講、28場(chǎng)分論壇、22場(chǎng)動(dòng)手實(shí)驗(yàn)室和80個(gè)未來(lái)產(chǎn)品的現(xiàn)場(chǎng)演示，再加上被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”的《大數(shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來(lái)自IBM的院士、杰出工程師、相關(guān)領(lǐng)域的全球首席技術(shù)官和首席架構(gòu)師的現(xiàn)場(chǎng)分享，IBM 2013技術(shù)峰會(huì)再次成為技術(shù)精英們關(guān)注的焦點(diǎn)。大數(shù)據(jù)的新信條

《大數(shù)據(jù)時(shí)代》作者、牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實(shí)讓場(chǎng)內(nèi)數(shù)以萬(wàn)計(jì)的技術(shù)信徒激動(dòng)了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來(lái)的大變革的第一人，維克托以價(jià)格預(yù)測(cè)網(wǎng)站的例子作為開場(chǎng)白，論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來(lái)改變。

“全體性、混雜性和相關(guān)性是大數(shù)據(jù)的三個(gè)主要特點(diǎn)，而且這三個(gè)特點(diǎn)是互相加強(qiáng)的。”維克托歸納出了大數(shù)據(jù)對(duì)應(yīng)的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細(xì)節(jié)，這些細(xì)節(jié)恰恰是隨機(jī)抽樣所錯(cuò)失的?！案蓛簟钡?、高質(zhì)量的數(shù)據(jù)不再是標(biāo)的，大數(shù)據(jù)需要我們摒棄對(duì)宏觀上精確性的追求，轉(zhuǎn)而獲得微觀上的準(zhǔn)確性，即接受混雜的數(shù)據(jù)。最重要的是，人們不再沉迷于追尋數(shù)據(jù)之間的因果關(guān)系，即不再糾結(jié)于為什么，而是直接獲得“是什么”的答案，并通過(guò)應(yīng)用相關(guān)關(guān)系，更好地捕捉現(xiàn)在和預(yù)測(cè)未來(lái)——抽樣因錯(cuò)失細(xì)節(jié)得不償失，盲目追求精確性已經(jīng)過(guò)時(shí)，執(zhí)著于因果關(guān)系喪失機(jī)遇。

如何在大數(shù)據(jù)時(shí)代生存？維克托指出了兩個(gè)關(guān)鍵點(diǎn)：一是意識(shí)到技術(shù)或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟(jì)，因?yàn)樗男б鏁?huì)逐漸淡化。20年前，一個(gè)公司只有擁有上十萬(wàn)臺(tái)的服務(wù)器才能提供搜索服務(wù)，但在大數(shù)據(jù)時(shí)代，由于云計(jì)算的便利性，不擁有實(shí)體服務(wù)器的公司，如前文提到的，它只有30個(gè)員工，但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時(shí)代獲得勝利，大數(shù)據(jù)的思維模式不可或缺，工具的力量不容小視，分析能力是必要的。藍(lán)色被谷歌選為搜索窗口的色彩，但藍(lán)色實(shí)際上有51種，而且這51種藍(lán)色人依靠裸眼無(wú)法明確區(qū)分，卻能在心理層面給人帶來(lái)不同的感受。經(jīng)過(guò)大數(shù)據(jù)分析，谷歌發(fā)現(xiàn)原本由人工選出來(lái)的藍(lán)色會(huì)導(dǎo)致谷歌損失200億～300億美元的收入，因?yàn)檫@一種藍(lán)色并不最具備誘惑力，無(wú)法激起人們點(diǎn)擊的欲望。

大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式，并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級(jí)開發(fā)經(jīng)理James R Giles闡述了IBM對(duì)大數(shù)據(jù)的看法：“我們正一步步走到了一個(gè)新紀(jì)元——大數(shù)據(jù)時(shí)代。如同對(duì)待自然資源一樣，我們需要開掘、轉(zhuǎn)變、銷售、保護(hù)大數(shù)據(jù)資源；不同的是，大數(shù)據(jù)資源是無(wú)窮無(wú)盡的，我們不能任由大數(shù)據(jù)淹沒(méi)自己，而應(yīng)該在獲得洞察需求的驅(qū)使下獲得價(jià)值?！?/p>

大數(shù)據(jù)的類型廣義而言有移動(dòng)數(shù)據(jù)和靜態(tài)數(shù)據(jù)，還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù)，這對(duì)應(yīng)著不同的處理方式?！凹夹g(shù)人員的責(zé)任是，能夠去管理這些數(shù)據(jù)，能夠理解這些從不同的數(shù)據(jù)源而來(lái)、不同類型的數(shù)據(jù)，能夠分析這些數(shù)據(jù)，得出結(jié)論，讓其提供決策支持，為企業(yè)擁抱新的大數(shù)據(jù)時(shí)代提供技術(shù)支撐，以保證管理、安全、商業(yè)的持續(xù)性?！?James R Giles號(hào)召技術(shù)人員積極行動(dòng)，以大數(shù)據(jù)的思維模式展現(xiàn)技術(shù)的價(jià)值和魅力。

找到內(nèi)在聯(lián)系

技術(shù)的趨勢(shì)總是融合，也只有有機(jī)融合才能形成合力，發(fā)揮更大的威力，而實(shí)現(xiàn)這一合力的前提是明確各個(gè)趨勢(shì)之間的內(nèi)在聯(lián)系。

“實(shí)際上，社交商務(wù)、移動(dòng)、大數(shù)據(jù)、云計(jì)算是一體化的?！泵律ㄗh技術(shù)人員用一個(gè)全面的、融合的范式來(lái)沉著看待和應(yīng)對(duì)紛繁的熱點(diǎn)技術(shù)，理解這些熱點(diǎn)會(huì)如何影響整個(gè)IT的走向，進(jìn)而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務(wù)轉(zhuǎn)型和創(chuàng)新，“讓每個(gè)行業(yè)都可以從新的技術(shù)轉(zhuǎn)型當(dāng)中獲得足夠的原動(dòng)力”。

從貼近最終用戶的角度來(lái)看，移動(dòng)技術(shù)、社交技術(shù)改變了商業(yè)機(jī)構(gòu)與其雇員、客戶進(jìn)行互動(dòng)的方式?！熬臀覀€(gè)人的經(jīng)歷而言，航空公司的移動(dòng)應(yīng)用可以提供更好的客戶交互。我是西北航空公司的粉絲，因?yàn)樗业囊苿?dòng)應(yīng)用服務(wù)很貼心，比如查詢航班信息、根據(jù)我的喜好預(yù)留位置、定制化地進(jìn)行社交推薦等?！泵律砸粋€(gè)普通消費(fèi)者的感受證明了企業(yè)通過(guò)移動(dòng)應(yīng)用收集并利用用戶行為數(shù)據(jù)所帶來(lái)的服務(wù)質(zhì)量的提升。

移動(dòng)催生了“一種嶄新的服務(wù)交付端點(diǎn)”，即為用戶提供了更多樣化的服務(wù)體驗(yàn)點(diǎn)，讓用戶隨時(shí)隨地可以利用碎片化的時(shí)間去獲得業(yè)務(wù)服務(wù)，也為企業(yè)帶來(lái)了全新的服務(wù)交付渠道。移動(dòng)這個(gè)渠道提供了更為豐富的全樣性數(shù)據(jù)，在此基礎(chǔ)上，大數(shù)據(jù)分析就更可信?！耙苿?dòng)所具備的碎片化特點(diǎn)會(huì)帶來(lái)更大量的用戶行為信息。當(dāng)把所有的人的行為結(jié)合在一起，就可以做群體的社會(huì)性分析。社會(huì)性分析會(huì)得到比較準(zhǔn)確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機(jī)會(huì)。”毛新生認(rèn)為移動(dòng)與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機(jī)會(huì)。

移動(dòng)的設(shè)備無(wú)處不在。人、汽車，甚至建筑物、道路、橋梁，它們無(wú)時(shí)無(wú)刻不在提供數(shù)據(jù)，這就是新的數(shù)據(jù)源，是它們引領(lǐng)我們來(lái)到維克托所描述的更為廣闊的大數(shù)據(jù)世界。

移動(dòng)和社交商務(wù)的便捷性使得企業(yè)的整個(gè)業(yè)務(wù)流程變得非常自動(dòng)化，用戶可以享受自助服務(wù)，對(duì)應(yīng)到企業(yè)端就意味著業(yè)務(wù)流程對(duì)前端的需求要反應(yīng)得更為迅速，也意味著各個(gè)業(yè)務(wù)系統(tǒng)之間無(wú)縫連接，否則沒(méi)有辦法支撐以最終用戶為中心的服務(wù)體驗(yàn)，但跨部門和跨應(yīng)用的整合實(shí)屬不易。進(jìn)一步延伸開來(lái)，對(duì)用戶體驗(yàn)的追求是無(wú)止境的，合作伙伴的API和服務(wù)可以作為補(bǔ)充，這即是“跨企業(yè)邊界”的行為。這種行為必然導(dǎo)致大規(guī)模的用戶訪問(wèn)。這些整合和外部拓展都需要云計(jì)算提供靈活有效的基礎(chǔ)。沒(méi)有云計(jì)算，移動(dòng)前端的體驗(yàn)、大數(shù)據(jù)分析的效果都會(huì)大打折扣?！霸频幕A(chǔ)設(shè)施使大規(guī)?；?dòng)、大規(guī)模數(shù)據(jù)處理、大規(guī)模應(yīng)用可以更好地服務(wù)我們?！泵律赋觥?/p>

環(huán)境變化加速，競(jìng)爭(zhēng)更加激烈，要求企業(yè)的反應(yīng)速度越來(lái)越快，應(yīng)用以及端到端解決方案快速改變。毛新生饒有興致地介紹道：“這個(gè)改變有多快呢？我們有的客戶嘗試以天為周期去改變，這意味著應(yīng)用和業(yè)務(wù)流程的設(shè)計(jì)、開發(fā)、部署、測(cè)試、維護(hù)的整個(gè)過(guò)程要大大加快，也就是所謂的DevOps。只有把敏捷的開發(fā)和運(yùn)維結(jié)合起來(lái)，生命周期變得以天為周期，才能響應(yīng)新的商業(yè)環(huán)境?！?/p>

“移動(dòng)、云計(jì)算、大數(shù)據(jù)、社交商務(wù)之間的緊密聯(lián)系讓我們應(yīng)該以整體的眼光來(lái)審視它們?！焙乐覉?jiān)信，它們的組合可以創(chuàng)造可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì)，可以迸發(fā)變革的力量。

至于一個(gè)企業(yè)應(yīng)該從哪里下手來(lái)實(shí)現(xiàn)這一幅宏偉藍(lán)圖？毛新生給出的答案是：“每一個(gè)企業(yè)，因?yàn)樗幍男袠I(yè)或者特定的情況而擁有不同的切入點(diǎn)，有一些企業(yè)需要從移動(dòng)開始，有一些企業(yè)需要從云計(jì)算開始，有一些企業(yè)需要從大數(shù)據(jù)開始，但是它們是不可分割的整體，只有綜合地運(yùn)用它們，找到適合自己的切入點(diǎn)，一步一步腳踏實(shí)地，才能掌握先機(jī)，打造競(jìng)爭(zhēng)力。在這個(gè)過(guò)程中，要擁有正確的思維，改變既有思維，理解趨勢(shì)，制定策略?！?/p>

例如，銀行、保險(xiǎn)、零售業(yè)這一類和最終消費(fèi)者打交道的服務(wù)業(yè)在很大概率上需要先從移動(dòng)、社交商務(wù)入手，從而使其有機(jī)會(huì)改善和用戶交互的過(guò)程。而以數(shù)據(jù)為生的行業(yè)會(huì)琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值，而傳統(tǒng)的運(yùn)營(yíng)基礎(chǔ)設(shè)施的重資產(chǎn)企業(yè)，會(huì)追求將資產(chǎn)數(shù)字化，得到數(shù)據(jù)并進(jìn)行分析，以優(yōu)化資產(chǎn)的生命周期管理來(lái)預(yù)防性地降低維護(hù)成本，這些企業(yè)是以大數(shù)據(jù)作為切入點(diǎn)的。還有一些企業(yè)希望跨行業(yè)整合進(jìn)行業(yè)務(wù)創(chuàng)新，背后牽扯到它們自身現(xiàn)有的業(yè)務(wù)模式和新業(yè)務(wù)模式的整合，這種情況下需要以云的方式構(gòu)建新的應(yīng)用、服務(wù)、商業(yè)流程。

毛新生認(rèn)為切入點(diǎn)不同只是表象，每一種場(chǎng)景到最后都是綜合性的運(yùn)用，要把這幾個(gè)技術(shù)綜合運(yùn)用起來(lái)。從前端開始，首先是利用移動(dòng)，并借助社交渠道交流，很快這些渠道會(huì)得到新的數(shù)據(jù)，這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來(lái)做進(jìn)一步的數(shù)據(jù)分析，這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關(guān)聯(lián)推薦了。隨后，能不能跨界再實(shí)現(xiàn)更廣泛的銷售？跟別的價(jià)值鏈上的合作伙伴合作，那么引入云是解決之道。數(shù)據(jù)量增大，用戶數(shù)增多，云的基礎(chǔ)設(shè)施可以讓成本更合理。“所以說(shuō)，到最后都是綜合性的應(yīng)用，盡管起點(diǎn)不一樣”，毛新生說(shuō)。

對(duì)技術(shù)人員而言，IT就是交付業(yè)務(wù)流程的基礎(chǔ)，是信息化的工具。它的目標(biāo)無(wú)非是優(yōu)化業(yè)務(wù)流程或者創(chuàng)新業(yè)務(wù)流程。創(chuàng)新到達(dá)一定程度后，業(yè)務(wù)流程的量變會(huì)導(dǎo)致質(zhì)變?！斑@就解釋了為何全球越來(lái)越多的CEO將技術(shù)視為驅(qū)動(dòng)企業(yè)發(fā)展的首要因素。” IBM軟件集團(tuán)大中華區(qū)中間件集團(tuán)總經(jīng)理李紅焰強(qiáng)調(diào)，技術(shù)人員有能力，也有責(zé)任將“看不見(jiàn)的技術(shù)轉(zhuǎn)變?yōu)榭吹靡?jiàn)的享受”。

移動(dòng)開發(fā)的轉(zhuǎn)變

在大數(shù)據(jù)的帶領(lǐng)下我們進(jìn)入移動(dòng)時(shí)代，企業(yè)有了新機(jī)遇，技術(shù)人員卻有了新挑戰(zhàn)。為什么移動(dòng)開發(fā)和之前不一樣呢？有什么不一樣呢？這成為了縈繞在技術(shù)人員腦子里最主要的兩個(gè)問(wèn)題。

IBM杰出工程師及IBM移動(dòng)平臺(tái)首席架構(gòu)師Greg Truty解答了這兩個(gè)疑問(wèn)。他認(rèn)為，很多企業(yè)現(xiàn)在所做的事情與在移動(dòng)的狀態(tài)下做的事情是不一樣的，移動(dòng)狀態(tài)下的任務(wù)和規(guī)劃更具有戰(zhàn)略性。移動(dòng)應(yīng)用是在不穩(wěn)定的網(wǎng)絡(luò)上運(yùn)行的，所占用的資源更少。用戶在移動(dòng)設(shè)備上和非移動(dòng)設(shè)備上的體驗(yàn)是完全不一樣的，他們會(huì)希望在不穩(wěn)定的網(wǎng)絡(luò)上仍然能夠獲得良好的體驗(yàn)。企業(yè)現(xiàn)在需要思考的是，怎么樣把大量數(shù)據(jù)、大量體驗(yàn)變成一些有意義的體驗(yàn)。同時(shí)，移動(dòng)管理的需求也不一樣了，開發(fā)的特性也不一樣了。比如對(duì)一個(gè)企業(yè)來(lái)說(shuō)，移動(dòng)開發(fā)周期更短，有更多設(shè)備需要支持，有更多開發(fā)方法可供選擇，也有更多的工具和庫(kù)可供選擇，這時(shí)候企業(yè)就需要仔細(xì)斟酌，哪些開發(fā)方法和工具是自己需要的。

自然而然，對(duì)于設(shè)備的管理也有了變化，因?yàn)閼?yīng)用變化了?！耙恢币詠?lái)，客戶端服務(wù)器的應(yīng)用架構(gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務(wù)器端的服務(wù)以及在客戶端的服務(wù)，挑戰(zhàn)非常大。你不可能強(qiáng)迫客戶運(yùn)行你的應(yīng)用，而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關(guān)鍵的一點(diǎn)?！?Greg Truty強(qiáng)調(diào)了設(shè)備管理的重要性。

篇（6）

1.1什么是大數(shù)據(jù)

大數(shù)據(jù)概念可以從四個(gè)維度去解，即三個(gè)V和一個(gè)C。三個(gè)V分別指的是數(shù)據(jù)量大（Volume）、數(shù)據(jù)種類多（Variety）和數(shù)據(jù)增長(zhǎng)速度快（Velocity），最后一個(gè)C指的是處理、升級(jí)或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多（Complexity）。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起，因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計(jì)算框架將復(fù)雜的計(jì)算任務(wù)分配到“云”中成百上千的節(jié)點(diǎn)。

1.2大數(shù)據(jù)與云計(jì)算

大數(shù)據(jù)本身就是一個(gè)問(wèn)題集，云計(jì)算技術(shù)是目前解決大數(shù)據(jù)問(wèn)題集最重要最有效的手段。云計(jì)算提供了基礎(chǔ)的架構(gòu)平臺(tái)，大數(shù)據(jù)應(yīng)用在這個(gè)平臺(tái)上運(yùn)行。目前公認(rèn)為分析大數(shù)據(jù)集最有效手段的分布式處理技術(shù)，也是云計(jì)算思想的一種具體體現(xiàn)。

云計(jì)算是分布式處理、并行處理和網(wǎng)格計(jì)算的發(fā)展，或者說(shuō)是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。云計(jì)算將網(wǎng)絡(luò)上分布的計(jì)算、存儲(chǔ)、服務(wù)構(gòu)件、網(wǎng)絡(luò)軟件等資源集中起來(lái)，基于資源虛擬化的方式，為用戶提供方便快捷的服務(wù)，實(shí)現(xiàn)了資源和計(jì)算的分布式共享和并行處理，能夠很好地應(yīng)對(duì)當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長(zhǎng)的勢(shì)頭。

1.3大數(shù)據(jù)與Hadoop

Hadoop是一個(gè)Apache的開源項(xiàng)目，主要面向存儲(chǔ)和處理成百上千TB直至PB級(jí)別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問(wèn)題分解成多個(gè)子問(wèn)題，并將它們分配到成百上千個(gè)處理節(jié)點(diǎn)之上，再將結(jié)果匯集到一個(gè)小數(shù)據(jù)集當(dāng)中，從而更容易分析得出最后的結(jié)果。

Hadoop項(xiàng)目包括三部分，分別是Hadoop Distributed File System（HDFS）、Map Reduce編程模型，以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強(qiáng)的靈活性、允許用戶自己修改代碼等特點(diǎn)，同時(shí)能支持海量數(shù)據(jù)的存儲(chǔ)和計(jì)算任務(wù)。這些特點(diǎn)讓Hadoop被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái)。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力，在獲取、存儲(chǔ)、管理和分析數(shù)據(jù)方面遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的數(shù)據(jù)庫(kù)軟件工具。Hadoop經(jīng)常在構(gòu)建大數(shù)據(jù)解決方案時(shí)被用作基礎(chǔ)構(gòu)架軟件。

二、大數(shù)據(jù)技術(shù)綜述

大數(shù)據(jù)處理不僅僅是Hadoop，許多特定的數(shù)據(jù)應(yīng)用場(chǎng)景是需要實(shí)時(shí)分析和互動(dòng)反饋的，這時(shí)候就需要利用包括內(nèi)存檢索、流處理和實(shí)時(shí)計(jì)算等其他技術(shù)。而云計(jì)算的分布式存儲(chǔ)和計(jì)算架構(gòu)開啟了大數(shù)據(jù)技術(shù)研究的大門，打造健全的大數(shù)據(jù)生態(tài)環(huán)境，所有這些技術(shù)結(jié)合在一起，才是一個(gè)完整的大數(shù)據(jù)處理系統(tǒng)。

2.1分布式計(jì)算框架

MapReduce是Google開發(fā)的一種簡(jiǎn)化的分布式編程模型和高效的任務(wù)調(diào)度模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算，使云計(jì)算環(huán)境下的編程變得十分簡(jiǎn)單。

MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map（映射）和Reduce（化簡(jiǎn)）操作對(duì)。Map主要完成數(shù)據(jù)的分解操作，Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key，value〉格式存儲(chǔ).用戶在使用該編程模型時(shí)，只需按照自己熟悉的語(yǔ)言實(shí)現(xiàn)Map函數(shù)和Reduce函數(shù)即可，MapReduce算法框架會(huì)自動(dòng)對(duì)任務(wù)進(jìn)行劃分以做到并行執(zhí)行。

Pregel是Google 提出的迭代處理計(jì)算框架，它具有高效、可擴(kuò)展和容錯(cuò)的特性，并隱藏了分布式相關(guān)的細(xì)節(jié)，展現(xiàn)給人們的僅僅是一個(gè)表現(xiàn)力很強(qiáng)、很容易編程的大型圖算法處理的計(jì)算框架。Pregel的主要應(yīng)用場(chǎng)景是大型的圖計(jì)算，例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關(guān)領(lǐng)域。

2.2分布式文件系統(tǒng)

為保證高可用、高可靠和經(jīng)濟(jì)性，基于云計(jì)算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲(chǔ)的方式來(lái)保存數(shù)據(jù)，用冗余存儲(chǔ)的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS。

GFS即Google文件系統(tǒng)，是一個(gè)可擴(kuò)展的分布式文件系統(tǒng)，用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問(wèn)的應(yīng)用。GFS的設(shè)計(jì)思想不同于傳統(tǒng)的文件系統(tǒng)，是針對(duì)大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計(jì)的，運(yùn)行成本低廉，并提供容錯(cuò)功能。

HDFS即Hadoop分布式文件系統(tǒng)，受到GFS很大啟發(fā)，具有高容錯(cuò)性，并且可以被部署在低價(jià)的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用，并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個(gè)master/slave的結(jié)構(gòu)，在master上只運(yùn)行一個(gè)Namenode，而在每一個(gè)slave上運(yùn)行一個(gè)Datanode。HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu)，對(duì)文件系統(tǒng)的操作（如建立、刪除文件和文件夾）都是通過(guò)Namenode來(lái)控制，Datanode用來(lái)存放數(shù)據(jù)塊。

2.3大數(shù)據(jù)管理技術(shù)

互聯(lián)網(wǎng)數(shù)據(jù)已超出關(guān)系型數(shù)據(jù)庫(kù)的管理范疇，電子郵件、超文本、博客、標(biāo)簽（Tag）以及圖片、音視頻等各種非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分，而面向結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)不能滿足數(shù)據(jù)快速訪問(wèn)、大規(guī)模數(shù)據(jù)分析的需求，隨之而來(lái)，一系列新型的大數(shù)據(jù)管理技術(shù)和工具應(yīng)運(yùn)而生。

2.3.1 非關(guān)系型數(shù)據(jù)庫(kù)

NoSQL，也有人理解為Not Only SQL，它是一類非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱。其特點(diǎn)是：沒(méi)有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對(duì)關(guān)系型數(shù)據(jù)庫(kù)，而是針對(duì)其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲(chǔ)模型有文檔存儲(chǔ)、鍵-值存儲(chǔ)、圖存儲(chǔ)、對(duì)象數(shù)據(jù)、列存儲(chǔ)等。而比較流行的，不得不提到Google的Bigtable，它把所有數(shù)據(jù)都作為對(duì)象來(lái)處理，形成一個(gè)巨大的表格，用來(lái)分布存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)量可達(dá)PB級(jí)。而HBase是Hadoop團(tuán)隊(duì)基于Bigtable的開源實(shí)現(xiàn)，使用HDFS作為其文件存儲(chǔ)系統(tǒng)。同時(shí)，Cassandra（K/V型數(shù)據(jù)庫(kù)）、MongoDB（文檔數(shù)據(jù)庫(kù)）和Redis等一系列優(yōu)秀的非關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)品如雨后春筍般問(wèn)世。

2.3.2 數(shù)據(jù)查詢工具

Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉(cāng)庫(kù)，其目標(biāo)是簡(jiǎn)化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作，以減輕程序員的負(fù)擔(dān).它借鑒關(guān)系數(shù)據(jù)庫(kù)的模式管理、SQL接口等技術(shù)，把結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫(kù)表，提供類似于SQL的描述性語(yǔ)言HiveQL供程序員使用，可自動(dòng)將HiveQL語(yǔ)句解析成一優(yōu)化的MapReduce任務(wù)執(zhí)行序列.此外，它也支持用戶自定義的MapReduce函數(shù)。

PigLatin是Yahoo！提出的類似于Hive的大數(shù)據(jù)集分析平臺(tái).兩者的區(qū)別主要在于語(yǔ)言接口.Hive提供了類似SQL的接口，PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說(shuō)Pig利用操作符來(lái)對(duì)Hadoop進(jìn)行封裝，Hive利用SQL進(jìn)行封裝。

Google Dremel是個(gè)可擴(kuò)展的、交互式的即時(shí)查詢系統(tǒng)，用于完成大規(guī)模查詢結(jié)構(gòu)化數(shù)據(jù)集（如日志和事件文件）。它支持類SQL語(yǔ)法，區(qū)別在于它只能查詢，不支持修改或者創(chuàng)建功能，也沒(méi)有表索引。數(shù)據(jù)被列式存儲(chǔ)，這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補(bǔ)充，被用于分析MapReduce的結(jié)果或者是作為大規(guī)模計(jì)算的測(cè)試。

2.4實(shí)時(shí)流處理技術(shù)

伴隨著互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展的步調(diào)，以及業(yè)務(wù)流程的復(fù)雜化，企業(yè)的注意力越來(lái)越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面，他們需要的是能夠處理隨時(shí)發(fā)生的數(shù)據(jù)流的架構(gòu)，現(xiàn)有的分布式計(jì)算架構(gòu)并不適合數(shù)據(jù)流處理。流計(jì)算強(qiáng)調(diào)的是數(shù)據(jù)流的形式和實(shí)時(shí)性。MapReduce系統(tǒng)主要解決的是對(duì)靜態(tài)數(shù)據(jù)的批量處理，當(dāng)MapReduce任務(wù)啟動(dòng)時(shí)，一般數(shù)據(jù)已經(jīng)到位了（比如保存到了分布式文件系統(tǒng)上），而流式計(jì)算系統(tǒng)在啟動(dòng)時(shí)，一般數(shù)據(jù)并沒(méi)有完全到位，而是經(jīng)由外部數(shù)據(jù)源源不斷地流入，重視的是對(duì)數(shù)據(jù)處理的低延遲，希望進(jìn)入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理，結(jié)果就越有價(jià)值，這也是實(shí)時(shí)處理的價(jià)值所在。

流計(jì)算的數(shù)據(jù)本身就是數(shù)據(jù)流，不需要數(shù)據(jù)準(zhǔn)備的時(shí)間，有數(shù)據(jù)流入就開始計(jì)算，解決了數(shù)據(jù)準(zhǔn)備和延遲的兩個(gè)問(wèn)題。現(xiàn)有的解決方案中，Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計(jì)算的場(chǎng)景。Storm是開源的分布式實(shí)時(shí)計(jì)算系統(tǒng)，可以可靠的處理流式數(shù)據(jù)并進(jìn)行實(shí)時(shí)計(jì)算，單機(jī)性能可達(dá)到百萬(wàn)記錄每秒，開發(fā)語(yǔ)言為Clojure和Java，并具備容錯(cuò)特性。S4是面向流式數(shù)據(jù)和實(shí)時(shí)處理的，所以針對(duì)實(shí)時(shí)性較高的業(yè)務(wù)，可以很好地對(duì)數(shù)據(jù)做出高效的分析處理，而且系統(tǒng)一旦上線，很少需要人工干預(yù)，源源不斷的數(shù)據(jù)流會(huì)被自動(dòng)路由并分析。對(duì)于海量數(shù)據(jù)，它和MapReduce都可以應(yīng)對(duì)，但它能比后者更快地處理數(shù)據(jù)。

三、思考與展望

以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段為知識(shí)生產(chǎn)提供了工具，通過(guò)對(duì)大數(shù)據(jù)分析、預(yù)測(cè)會(huì)使得決策更為精準(zhǔn)，這對(duì)媒體融合具有重要意義。

篇（7）

21世紀(jì)是信息化的時(shí)代，也是數(shù)據(jù)時(shí)代，隨著世界范圍內(nèi)數(shù)據(jù)挖掘技術(shù)的不斷深入研究，大數(shù)據(jù)時(shí)代的到來(lái)給數(shù)據(jù)挖掘技術(shù)帶來(lái)了機(jī)遇的同時(shí)，也帶來(lái)了挑戰(zhàn)。面對(duì)浩瀚的數(shù)據(jù)庫(kù)海洋，如何在茫茫海洋中尋找針對(duì)特點(diǎn)人群有用的數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代背景下的意義。通過(guò)數(shù)據(jù)挖掘技術(shù)的充分應(yīng)用分類技術(shù)，挖掘大數(shù)據(jù)時(shí)代中的數(shù)據(jù)刪選，同時(shí)通過(guò)大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用技術(shù)探討了數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代背景下的應(yīng)用。

1 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘的意義

在信息時(shí)代的背景下，數(shù)字化技術(shù)和信息化技術(shù)在各行各業(yè)的應(yīng)用，隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)等數(shù)字信息技術(shù)的高速發(fā)展，結(jié)合當(dāng)前高速發(fā)展的移動(dòng)互聯(lián)網(wǎng)技術(shù)以及數(shù)字地球技術(shù)的發(fā)展與應(yīng)用，全世界范圍內(nèi)數(shù)據(jù)呈爆炸式增長(zhǎng)，據(jù)統(tǒng)計(jì)2012年世界范圍內(nèi)產(chǎn)生的數(shù)據(jù)總量約1.86萬(wàn)億GB。國(guó)際互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計(jì)中心根據(jù)近十年來(lái)來(lái)的數(shù)據(jù)增長(zhǎng)速度計(jì)算，2020年全球范圍內(nèi)數(shù)據(jù)總量預(yù)計(jì)達(dá)到100萬(wàn)億GB。信息化技術(shù)的發(fā)展給企業(yè)帶來(lái)的沖擊是巨大的，信息化技術(shù)徹底改變了傳統(tǒng)的社會(huì)信息傳輸方式，帶來(lái)全新的信息傳播途徑。對(duì)于社會(huì)來(lái)說(shuō)，信息化是社會(huì)未來(lái)發(fā)展方向。信息化要求社會(huì)重視信息的形成、信息運(yùn)用，社會(huì)用信息化的工具整合業(yè)務(wù)、共享信息構(gòu)建企業(yè)“信息化網(wǎng)絡(luò)體系”才能使企業(yè)在當(dāng)今信息爆炸，高效率的社會(huì)背景下，是企業(yè)高效運(yùn)轉(zhuǎn)，才能綜合企業(yè)的人力、物力、財(cái)力和管理能力是企業(yè)的各種資源通過(guò)信息化網(wǎng)絡(luò)凝聚在一起，共同為企業(yè)的高效發(fā)展和全球化的進(jìn)程的目標(biāo)凝聚力量。企業(yè)信息化作為國(guó)民經(jīng)濟(jì)發(fā)展的重要組成部分，同時(shí)也是我國(guó)社會(huì)邁向信息化進(jìn)程的重要前提。

企業(yè)信息化要求企業(yè)將大量的信息資源進(jìn)行整合和電子化處理，從而提高信息的交互與傳輸效率，并希望藉此提高企業(yè)的生產(chǎn)經(jīng)營(yíng)管理方式和管理效率，從而達(dá)到利用現(xiàn)代信息技術(shù)提高企業(yè)生產(chǎn)力、提高企業(yè)生產(chǎn)效率和利潤(rùn)的根本目的。云計(jì)算作為現(xiàn)代信息化產(chǎn)業(yè)發(fā)展的新技術(shù)，給社會(huì)的信息化建設(shè)帶來(lái)了巨大的改變，降低了社會(huì)在信息化建設(shè)中的投入，隨著近年來(lái)云計(jì)算技術(shù)的不斷成熟，云計(jì)算構(gòu)建的信息化平臺(tái)使社會(huì)的信息化、生產(chǎn)與辦公效率前所未有地提高毫無(wú)疑問(wèn)，當(dāng)前的信息時(shí)代的發(fā)展已經(jīng)達(dá)到了大數(shù)據(jù)時(shí)代的階段，大數(shù)據(jù)時(shí)代的來(lái)臨意味著人們?cè)趹?yīng)用和利用數(shù)字信息技術(shù)時(shí)不得不花費(fèi)更多的人力、物力、財(cái)力去篩選、存儲(chǔ)和利用龐大的數(shù)據(jù)庫(kù)。例如對(duì)于一個(gè)銀行系統(tǒng)來(lái)說(shuō)，每天數(shù)以萬(wàn)計(jì)的銀行和ATM終端都發(fā)生龐大的交易和數(shù)據(jù)交換，這些龐大的數(shù)據(jù)交換信息構(gòu)成了龐大的數(shù)據(jù)，如何在龐大的數(shù)據(jù)中篩選、分類和提取有價(jià)值的數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)在當(dāng)前大數(shù)據(jù)時(shí)代存在的意義。

2 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的分類應(yīng)用

數(shù)據(jù)挖掘技術(shù)在當(dāng)代數(shù)據(jù)爆炸的現(xiàn)代社會(huì)的重要性越來(lái)越強(qiáng)，隨著社會(huì)信息化程度的不斷提升，數(shù)據(jù)挖掘技術(shù)也逐漸發(fā)展成為一門獨(dú)立的學(xué)科，數(shù)據(jù)挖掘技術(shù)為了滿足用戶在龐大的數(shù)據(jù)庫(kù)中篩選有用的數(shù)據(jù)的需要，通過(guò)分類技術(shù)對(duì)數(shù)據(jù)進(jìn)行分類挖掘，是當(dāng)前大數(shù)據(jù)時(shí)代背景下大數(shù)據(jù)技術(shù)應(yīng)用最為廣泛的手段之一。

通過(guò)數(shù)據(jù)庫(kù)類型分類技術(shù)是數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代的應(yīng)用之一。數(shù)據(jù)庫(kù)的自動(dòng)存儲(chǔ)系統(tǒng)在數(shù)據(jù)存儲(chǔ)過(guò)程中按照數(shù)據(jù)的類型、場(chǎng)景進(jìn)行基礎(chǔ)分類，數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)存儲(chǔ)的基礎(chǔ)分類的基礎(chǔ)上進(jìn)行數(shù)據(jù)庫(kù)類型細(xì)分，通過(guò)數(shù)據(jù)模型的導(dǎo)入和數(shù)據(jù)類型包括關(guān)系型、對(duì)象型、時(shí)間型、空間型的分類進(jìn)行數(shù)據(jù)挖掘的分類。其次通過(guò)數(shù)據(jù)知識(shí)類型分類技術(shù)是數(shù)據(jù)挖掘的重要分類方法之一。知識(shí)類型分類包括知識(shí)相關(guān)性、知識(shí)預(yù)測(cè)型和樣本偏離分析法等知識(shí)類型分類方法。數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度是數(shù)據(jù)知識(shí)類型分類的層次之一。通過(guò)挖掘數(shù)據(jù)分類中的抽象層和價(jià)值層找出數(shù)據(jù)的模式和規(guī)則性。數(shù)據(jù)的規(guī)則性通過(guò)不同的方法挖掘，通過(guò)數(shù)據(jù)概念的描述和數(shù)據(jù)預(yù)測(cè)等方法實(shí)現(xiàn)大數(shù)據(jù)精細(xì)化分類。

3 大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘的應(yīng)用技術(shù)

大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用技術(shù)主要包括神經(jīng)網(wǎng)絡(luò)算法、數(shù)據(jù)遺傳、數(shù)據(jù)決策樹、數(shù)據(jù)粗糙集等算法。數(shù)據(jù)神經(jīng)算法通過(guò)對(duì)龐大的數(shù)據(jù)庫(kù)進(jìn)行分類，對(duì)符合優(yōu)先條件的有用數(shù)據(jù)進(jìn)行分類，能夠在規(guī)模龐大的數(shù)據(jù)中迅速定位和精選有用數(shù)據(jù)。例如網(wǎng)絡(luò)構(gòu)架的基礎(chǔ)傳輸通道光纜發(fā)生故障時(shí)，通過(guò)神經(jīng)網(wǎng)絡(luò)算法能夠及時(shí)診斷網(wǎng)絡(luò)中的損壞數(shù)據(jù)點(diǎn)，能夠迅速定位故障點(diǎn)，并排除。神經(jīng)網(wǎng)絡(luò)算法針對(duì)網(wǎng)狀結(jié)構(gòu)的數(shù)據(jù)庫(kù)利用效率較高。遺傳數(shù)據(jù)挖掘技術(shù)是仿生學(xué)和遺傳學(xué)中發(fā)展而來(lái)的數(shù)據(jù)算法。遺傳數(shù)據(jù)挖掘技術(shù)針對(duì)全局?jǐn)?shù)據(jù)進(jìn)行優(yōu)化計(jì)算，能夠較好的兼容性和隱含并行性，因此在數(shù)據(jù)挖掘中與其它算法進(jìn)行聯(lián)合應(yīng)用范圍較廣，應(yīng)用較為普遍。決策樹算法是在對(duì)模型的預(yù)測(cè)中，該算法具有很強(qiáng)的優(yōu)勢(shì)，利用該算法對(duì)龐大的數(shù)據(jù)信息進(jìn)行分類，從而對(duì)有潛在價(jià)值的信息進(jìn)行定位，這種算法的優(yōu)勢(shì)也比較明顯，在利用這種算法對(duì)數(shù)據(jù)進(jìn)行分類時(shí)非常迅速，同時(shí)描述起來(lái)也很簡(jiǎn)潔，在大規(guī)模數(shù)據(jù)處理時(shí)，這種方法的應(yīng)用性很強(qiáng)。粗糙集算法是大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)挖掘技術(shù)應(yīng)用的典范，粗糙集算法通過(guò)數(shù)據(jù)劃分將模糊知識(shí)和精確知識(shí)進(jìn)行合并分析，并最終獲得有效數(shù)據(jù)，應(yīng)用范圍十分廣泛，應(yīng)用效果較好。

4 結(jié)論

總之，在大數(shù)據(jù)時(shí)代背景下，數(shù)據(jù)挖掘技術(shù)是人們面對(duì)浩瀚的數(shù)據(jù)庫(kù)所必備的技能，也是提高數(shù)據(jù)利用的有效方式數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代背景下面臨著挑戰(zhàn)也面臨著機(jī)遇。

參考文獻(xiàn)

[1]劉華婷，郭仁祥，姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件，2009（1）：146-149.

[2]丁守哲.基于云計(jì)算的建筑設(shè)計(jì)行業(yè)信息系統(tǒng)開發(fā)模式與實(shí)現(xiàn)技術(shù)研究[D].合肥：合肥工業(yè)大學(xué)，2012：16-17.

[3]陳明奇，姜禾，張娟等.大數(shù)據(jù)時(shí)代的美國(guó)信息網(wǎng)絡(luò)安全新戰(zhàn)略分析[J].信息網(wǎng)絡(luò)安全，2012，（08）：32-35.

[4]王珊，王會(huì)舉，覃雄派等.架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào)，2011，34（10）：1741-1752.

作者簡(jiǎn)介

篇（8）

1.大數(shù)據(jù)技術(shù)現(xiàn)狀

當(dāng)前許多企業(yè)都已基本實(shí)現(xiàn)了信息化建設(shè)，企業(yè)積累了海量數(shù)據(jù)。同時(shí)企業(yè)間的競(jìng)爭(zhēng)日益加劇，企業(yè)為了生存及發(fā)展需要保證自身能夠更加準(zhǔn)確、快速和個(gè)性化地為客戶提品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無(wú)法獲知的價(jià)值和模式，幫助企業(yè)更加迅速、科學(xué)、準(zhǔn)確地進(jìn)行決策和預(yù)測(cè)。

1.1大數(shù)據(jù)技術(shù)現(xiàn)狀

廣大企業(yè)的迫切需求反之也促進(jìn)了大數(shù)據(jù)技術(shù)的飛速發(fā)展，涌現(xiàn)出了諸如Hadoop、Spark等實(shí)用的架構(gòu)平臺(tái)。其中，目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群，允許使用簡(jiǎn)單的編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式大數(shù)據(jù)處理。通過(guò)使用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS，計(jì)算的時(shí)候只需要將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上，即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算。因此，Hadoop實(shí)現(xiàn)了高可靠性、高可拓展性、高容錯(cuò)性和高效性，可以輕松應(yīng)對(duì)PB級(jí)別的數(shù)據(jù)處理。

1.2大數(shù)據(jù)技術(shù)對(duì)煙草數(shù)據(jù)中心建設(shè)的影響

當(dāng)前，煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù)，同時(shí)每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下，需要在數(shù)據(jù)采集、存儲(chǔ)和運(yùn)算方面采用與以往完全不同的計(jì)算存儲(chǔ)模式，這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時(shí)，除了購(gòu)進(jìn)單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外，還產(chǎn)生越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù)，利用大數(shù)據(jù)技術(shù)，對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理，可為人工判斷和機(jī)器學(xué)縮減范圍。對(duì)海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進(jìn)行分析統(tǒng)計(jì)，僅僅依靠傳統(tǒng)的技術(shù)手段很難實(shí)現(xiàn)，只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來(lái)，成為企業(yè)決策的助力。

2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀

2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)

目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個(gè)部分為核心，構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個(gè)數(shù)據(jù)中心最核心的部分。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)存儲(chǔ)、ETL工具等組成部分，構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲(chǔ)、分發(fā)的總體架構(gòu)。建立了按ODS（SODS、UODS）、DW、DM三層結(jié)構(gòu)設(shè)計(jì)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)。一體化數(shù)據(jù)管理通過(guò)主數(shù)據(jù)管理、信息代碼管理、ESB平臺(tái)構(gòu)建了企業(yè)主數(shù)據(jù)收集、標(biāo)準(zhǔn)化、同步分發(fā)過(guò)程。結(jié)合指標(biāo)管理，全面管控企業(yè)的公用基礎(chǔ)信息。通過(guò)數(shù)據(jù)質(zhì)量管理，全面有效管控?cái)?shù)據(jù)質(zhì)量。通過(guò)數(shù)據(jù)服務(wù)管理，有效提升數(shù)據(jù)中心的對(duì)外服務(wù)能力與水平。通過(guò)元數(shù)據(jù)管理來(lái)管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過(guò)構(gòu)建移動(dòng)信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊，針對(duì)性解決當(dāng)前不同人員的決策、管理以及操作需求，發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺(tái)優(yōu)勢(shì)。通過(guò)移動(dòng)信息模塊為各級(jí)領(lǐng)導(dǎo)提供決策支持；通過(guò)業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐；通過(guò)數(shù)據(jù)挖掘模塊，發(fā)掘數(shù)據(jù)所蘊(yùn)含的隱性價(jià)值?；谏鲜鲆徽准軜?gòu)的支撐，目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系，一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量，另一方面為在建業(yè)務(wù)系統(tǒng)的實(shí)施、已有系統(tǒng)的改造提供了標(biāo)準(zhǔn)化的高質(zhì)量數(shù)據(jù)保障。

2.2大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景分析

隨著江蘇數(shù)據(jù)中心的不斷運(yùn)行，一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問(wèn)題。其中較為突出的問(wèn)題有：一是使用者對(duì)于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢；二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計(jì)分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預(yù)先定義好的，面對(duì)靈活的非傳統(tǒng)的統(tǒng)計(jì)查詢需求難以支撐，需要進(jìn)行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性，引入Hadoop平臺(tái)以及Impala等工具，搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)，以補(bǔ)充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足，并為未來(lái)進(jìn)一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準(zhǔn)備。

3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)實(shí)現(xiàn)

3.1設(shè)計(jì)思路及架構(gòu)

基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上，以數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)為基礎(chǔ)，以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段，以簡(jiǎn)單靈活、快速高效的查詢展現(xiàn)為目標(biāo)，建立的數(shù)據(jù)查詢分析支持平臺(tái)。

3.2技術(shù)方案

自定義數(shù)據(jù)查詢平臺(tái)的建設(shè)主要涉及數(shù)據(jù)存儲(chǔ)架構(gòu)、后臺(tái)數(shù)據(jù)加工準(zhǔn)備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)存儲(chǔ)分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲(chǔ)，另一部分則是查詢所需的各種統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)。元數(shù)據(jù)的存儲(chǔ)根據(jù)元數(shù)據(jù)庫(kù)的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫(kù)的元數(shù)據(jù)存儲(chǔ)。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù)，以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲(chǔ)。這部分存儲(chǔ)的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)則是使用Hadoop的HDFS實(shí)現(xiàn)的。根據(jù)Hadoop平臺(tái)架構(gòu)，自定義數(shù)據(jù)查詢平臺(tái)的HDFS建立在6臺(tái)虛擬主機(jī)構(gòu)建的集群上的。其中：2臺(tái)虛擬主機(jī)作為NameNode，一臺(tái)為主節(jié)點(diǎn)，另一臺(tái)為備份節(jié)點(diǎn)；其余4臺(tái)虛擬主機(jī)都作為DataNode用于存儲(chǔ)數(shù)據(jù)。所有數(shù)據(jù)將會(huì)統(tǒng)一分塊自動(dòng)分配存儲(chǔ)到4個(gè)DataNode上。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)加工，是通過(guò)開源ETL工具KETTLE實(shí)現(xiàn)的。通過(guò)KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)集市中讀取需要的數(shù)據(jù)，根據(jù)自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)模型定義對(duì)數(shù)據(jù)進(jìn)行處理，最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺(tái)的前端展現(xiàn)功能，主要是基于JSP技術(shù)實(shí)現(xiàn)頁(yè)面開發(fā)，通過(guò)JDBC或者ODBC對(duì)后臺(tái)Mysql數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)。使用者在查詢頁(yè)面中組織定義查詢的內(nèi)容，查詢服務(wù)自動(dòng)根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL，之后通過(guò)Impala執(zhí)行查詢SQL對(duì)HDFS文件系統(tǒng)中的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢。

3.3系統(tǒng)實(shí)現(xiàn)效果

利用大數(shù)據(jù)技術(shù)，自定義數(shù)據(jù)查詢平臺(tái)較好地解決了目前數(shù)據(jù)中心所面對(duì)的問(wèn)題，滿足了使用人員對(duì)于大數(shù)據(jù)量以及分析靈活性的需求。面對(duì)使用人員層出不窮的查詢需求，自定義數(shù)據(jù)查詢平臺(tái)通過(guò)預(yù)先梳理、分類定義各種維度以及統(tǒng)計(jì)指標(biāo)。使用者可以自由的根據(jù)實(shí)際需求選擇分析所需的維度及統(tǒng)計(jì)指標(biāo)，同時(shí)還可以基于這些基礎(chǔ)的內(nèi)容更進(jìn)一步自定義過(guò)濾條件以及計(jì)算公式，并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面，自定義查詢平臺(tái)相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。

4.結(jié)束語(yǔ)

大數(shù)據(jù)技術(shù)的發(fā)展方興未艾，應(yīng)用前景無(wú)比廣闊，對(duì)各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來(lái)的前景，更需要明確地認(rèn)識(shí)到大數(shù)據(jù)平臺(tái)的建設(shè)并非一朝一夕，需要有明確而長(zhǎng)遠(yuǎn)的規(guī)劃，不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計(jì)算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴(kuò)展。

參考文獻(xiàn)

[1]陳鵬.大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題研究[J].電子制，2015,18：48

篇（9）

一、大數(shù)據(jù)

1.大數(shù)據(jù)產(chǎn)生的背景

大數(shù)據(jù)（Big Data），也稱巨量資料，指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具，在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的資訊，通常被認(rèn)為是PB或EB或更高數(shù)量級(jí)的數(shù)據(jù)。

互聯(lián)網(wǎng)絡(luò)從上世紀(jì)90年代開始，發(fā)展迅速，加快了信息傳播和共享的速度，尤其是一些社交網(wǎng)站的興起，數(shù)據(jù)量更是以前所未有的速度暴增，文字資料、聲音、視頻、圖像等多媒體數(shù)據(jù)鋪天蓋地。據(jù)資料顯示，上世紀(jì)90年代，互聯(lián)網(wǎng)資源不是很豐富的時(shí)代，網(wǎng)民月平均流量1MB左右，之后則快速增長(zhǎng)，2000年后，逐漸發(fā)展為每月10MB、100MB、1GB，據(jù)估計(jì)2014年可能會(huì)達(dá)到10GB。淘寶網(wǎng)每日幾千萬(wàn)筆交易，單日數(shù)據(jù)量達(dá)幾十TB，數(shù)據(jù)存儲(chǔ)量幾十PB，百度公司目前數(shù)據(jù)總量接近1000PB，存儲(chǔ)網(wǎng)頁(yè)數(shù)量接近1萬(wàn)億頁(yè)，每天大約要處理60億次搜索請(qǐng)求，幾十PB數(shù)據(jù)。

隨著技術(shù)發(fā)展，大數(shù)據(jù)廣泛存在，如企業(yè)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、移動(dòng)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等等?？傊?，大數(shù)據(jù)存在于各行各業(yè)，一個(gè)大數(shù)據(jù)的時(shí)代已經(jīng)到來(lái)。

2.大數(shù)據(jù)時(shí)代的挑戰(zhàn)

大數(shù)據(jù)特點(diǎn)是容量在增長(zhǎng)、種類在增長(zhǎng)、速度也在增長(zhǎng)，面臨如此龐大的數(shù)據(jù)量，數(shù)據(jù)的存儲(chǔ)和檢索面臨著巨大挑戰(zhàn)。比如2007年時(shí)，F(xiàn)acebook使用數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)15個(gè)TB的數(shù)據(jù)，但到了2010年，每天壓縮過(guò)的數(shù)據(jù)比過(guò)去總和還多，那時(shí)商業(yè)并行數(shù)據(jù)庫(kù)很少有超過(guò)100個(gè)節(jié)點(diǎn)以上的，而現(xiàn)在雅虎的Hadoop集群超過(guò)4000個(gè)節(jié)點(diǎn)，F(xiàn)acebook倉(cāng)庫(kù)節(jié)點(diǎn)超過(guò)2700個(gè)。大量的數(shù)據(jù)現(xiàn)在已經(jīng)開始影響我們整個(gè)的工作、生活、甚至經(jīng)濟(jì)，如何存儲(chǔ)和高效利用這些數(shù)據(jù)是需要我們解決的。

二、關(guān)系數(shù)據(jù)庫(kù)

1.關(guān)系數(shù)據(jù)庫(kù)概述

關(guān)系型數(shù)據(jù)庫(kù)是支持關(guān)系模型的數(shù)據(jù)庫(kù)系統(tǒng)，他是目前各類數(shù)據(jù)庫(kù)中最重要，也是使用最廣泛的數(shù)據(jù)庫(kù)系統(tǒng)。關(guān)系型數(shù)據(jù)庫(kù)從上世紀(jì)70年代誕生到現(xiàn)在經(jīng)過(guò)幾十年的發(fā)展，已經(jīng)非常成熟，目前市場(chǎng)上主流的數(shù)據(jù)庫(kù)都為關(guān)系型數(shù)據(jù)庫(kù)，比較知名的有Oracle數(shù)據(jù)庫(kù)、DB2、Sybase、SQL Server等等。

2.關(guān)系數(shù)據(jù)庫(kù)優(yōu)勢(shì)

關(guān)系數(shù)據(jù)庫(kù)相比其他模型的數(shù)據(jù)庫(kù)而言，有著以下優(yōu)點(diǎn)：

模型容易理解：關(guān)系模型中的二維表結(jié)構(gòu)非常貼近邏輯世界，相對(duì)于網(wǎng)狀、層次等其他模型來(lái)說(shuō)更容易理解。

使用方便：通用的SQL語(yǔ)言使得操作關(guān)系型數(shù)據(jù)庫(kù)非常方便，只需使用SQL語(yǔ)言在邏輯層面操作數(shù)據(jù)庫(kù)，而完全不必理解其底層實(shí)現(xiàn)。

易于維護(hù)：豐富的完整性大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。

3.關(guān)系數(shù)據(jù)庫(kù)存在問(wèn)題

傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)具有不錯(cuò)的性能，穩(wěn)定性高，歷經(jīng)多年發(fā)展已日臻成熟，而且使用簡(jiǎn)單，功能強(qiáng)大，也積累了大量的成功案例。上世紀(jì)90年代的互聯(lián)網(wǎng)領(lǐng)域，網(wǎng)站基本都是靜態(tài)網(wǎng)頁(yè)，主要以文字為主，訪問(wèn)量也不大，當(dāng)時(shí)用單個(gè)數(shù)據(jù)庫(kù)完全可以應(yīng)對(duì)?？山鼛啄?，動(dòng)態(tài)網(wǎng)站隨處可見(jiàn)，各種論壇、博克、微博異?；鸨?，在大幅度提升交流方式的同時(shí)，用戶數(shù)據(jù)量迅速增長(zhǎng)，處理事務(wù)性的數(shù)據(jù)關(guān)系數(shù)據(jù)庫(kù)得心應(yīng)手，可面對(duì)互聯(lián)網(wǎng)的高并發(fā)、大數(shù)據(jù)量關(guān)系數(shù)據(jù)庫(kù)顯得力不從心，暴露了很多難以克服的問(wèn)題：

數(shù)據(jù)庫(kù)高并發(fā)讀寫：高并發(fā)的動(dòng)態(tài)網(wǎng)站數(shù)據(jù)庫(kù)并發(fā)負(fù)載非常高，往往要達(dá)到每秒上萬(wàn)次甚至百萬(wàn)次、千萬(wàn)次的讀寫請(qǐng)求。關(guān)系數(shù)據(jù)庫(kù)應(yīng)付上萬(wàn)次SQL查詢沒(méi)問(wèn)題，但是應(yīng)付上百萬(wàn)、千萬(wàn)次SQL數(shù)據(jù)請(qǐng)求，硬盤IO就已經(jīng)無(wú)法承受了。

海量數(shù)據(jù)的高效率訪問(wèn)：一般大型數(shù)據(jù)庫(kù)在百萬(wàn)級(jí)的數(shù)據(jù)庫(kù)表中檢索數(shù)據(jù)可達(dá)到秒級(jí)，但面對(duì)數(shù)億條記錄的數(shù)據(jù)庫(kù)表，檢索速度效率是極其低下，難以忍受的。

數(shù)據(jù)庫(kù)可擴(kuò)展性和高可用性：基于web的架構(gòu)當(dāng)中，數(shù)據(jù)庫(kù)無(wú)法通過(guò)添加更多的硬件和服務(wù)節(jié)點(diǎn)來(lái)擴(kuò)展性能和負(fù)載能力，對(duì)于很多需要提供24小時(shí)不間斷服務(wù)的網(wǎng)站來(lái)說(shuō)，數(shù)據(jù)庫(kù)系統(tǒng)升級(jí)和擴(kuò)展卻只能通過(guò)停機(jī)來(lái)實(shí)現(xiàn)，這無(wú)疑是一個(gè)艱難的決定。

三、NOSQL數(shù)據(jù)庫(kù)

1.NOSQL數(shù)據(jù)庫(kù)理論基礎(chǔ)

NOSQL作為新興數(shù)據(jù)庫(kù)系統(tǒng)概念，由于其具備處理海量數(shù)據(jù)的能力，近年來(lái)受到各大IT公司的追捧。Amazon、Google等大型網(wǎng)商已紛紛斥資進(jìn)行研究并開發(fā)了適用的產(chǎn)品。談及NOSQL數(shù)據(jù)庫(kù)，首先應(yīng)該了解支持NOSQL的理論：CAP理論、BASE思想和最終一致性。

（1）CAP理論

CAP理論由Eric Brewer在ACM PODC會(huì)議上的主題報(bào)告中提出，這個(gè)理論是NOSQL數(shù)據(jù)管理系統(tǒng)構(gòu)建的基礎(chǔ)，CAP解釋為一致性（Consistency）、可用性（Availability）以及分區(qū)容忍性（Partition Tolerance）。具體描述如下：

強(qiáng)一致性（Consistency）：系統(tǒng)在執(zhí)行過(guò)某項(xiàng)操作后仍然處于一致的狀態(tài)。在分布式數(shù)據(jù)庫(kù)系統(tǒng)中，數(shù)據(jù)變更后所有的用戶都應(yīng)該讀取到最新的值，這樣的系統(tǒng)被認(rèn)為具有強(qiáng)一致性。

可用性（Availability）：每一個(gè)操作都能夠在一定的時(shí)間內(nèi)返回結(jié)果?！耙欢〞r(shí)間內(nèi)”是指系統(tǒng)的結(jié)果必須在給定時(shí)間內(nèi)返回，如果超時(shí)則被認(rèn)為不可用，“返回結(jié)果”同樣非常重要，必須能提供成功或失敗的信息。

分區(qū)容錯(cuò)性（Partition Tolerance）：分區(qū)容錯(cuò)性可以理解為系統(tǒng)在存在網(wǎng)絡(luò)分區(qū)的情況下仍然可以接受請(qǐng)求。

CAP是在分布式環(huán)境中設(shè)計(jì)和部署系統(tǒng)時(shí)所要考慮的三個(gè)重要的系統(tǒng)需求。根據(jù)CAP理論，數(shù)據(jù)共享系統(tǒng)只能滿足這三個(gè)特性中的兩個(gè)，不能同時(shí)滿足三個(gè)條件。因此系統(tǒng)設(shè)計(jì)者必須在這三個(gè)特性之間做出權(quán)衡。例如Amazon的Dynamo具有高可用性和分區(qū)容錯(cuò)性但不支持強(qiáng)一致性，也就是說(shuō)用戶不能立即看到其他用戶更新的內(nèi)容。

（2）BASE思想

BASE（Basically Availble），基本可用，強(qiáng)調(diào)數(shù)據(jù)庫(kù)的最終一致（Eventually consistent最終一致，最終數(shù)據(jù)一致就可以，而不是時(shí)時(shí)高一致），不同于傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)基于的ACID模型。

ACID特性與高性能是不兼容的。比如，在網(wǎng)店買東西，每個(gè)客戶買東西時(shí)都會(huì)通過(guò)鎖來(lái)同步數(shù)據(jù)操作，操作完成每個(gè)客戶都可以看到一致的數(shù)據(jù)。也就是說(shuō)，不允許多個(gè)客戶同時(shí)買的情況。很明顯對(duì)于大多數(shù)網(wǎng)上商城，尤其是大型網(wǎng)商來(lái)說(shuō)，這個(gè)方法并不適用。

BASE思想實(shí)際上是CAP理論中AP的衍伸。通過(guò)犧牲高一致性，保證高可用性和分區(qū)容忍性。BASE思想的組成有以下3個(gè)部分：基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個(gè)應(yīng)用在任意時(shí)間首先應(yīng)該能完成最基本化的工作（即基本可用），并不需要總是一致（即軟狀態(tài)），但最終應(yīng)該是一致（即最終一致性）的。

（3）最終一致性

數(shù)據(jù)一致性可分別從使用者和提供者角度看：從使用者的角度，如何觀察數(shù)據(jù)更新;從提供者的角度，也就是服務(wù)器端，更新如何在系統(tǒng)中實(shí)現(xiàn)。

一致性可分為強(qiáng)一致性和弱一致性兩種：強(qiáng)一致性要求更新過(guò)的數(shù)據(jù)能被后續(xù)的訪問(wèn)都看到，根據(jù)CAP理論，強(qiáng)一致性無(wú)法和可用性、分區(qū)容忍性同時(shí)實(shí)現(xiàn);弱一致性，指讀取操作能夠見(jiàn)到變化的數(shù)據(jù)，但不是所有變化的數(shù)據(jù)。

最終一致性屬于弱一致性的一種，即存儲(chǔ)系統(tǒng)保證如果沒(méi)有新的更新提交，最終所有的訪問(wèn)都將獲得最后的更新。如果沒(méi)有故障發(fā)生，不一致性取決于通信時(shí)延、系統(tǒng)負(fù)載以及復(fù)制策略中涉及的副本數(shù)。

2.NOSQL數(shù)據(jù)庫(kù)產(chǎn)品

NOSQL（Not Only SQL）數(shù)據(jù)庫(kù)是指那些非關(guān)系型的數(shù)據(jù)庫(kù)。NOSQL數(shù)據(jù)庫(kù)分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產(chǎn)品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。

NOSQL數(shù)據(jù)庫(kù)遵循CAP理論和BASE原則，大部分Key-Value數(shù)據(jù)庫(kù)系統(tǒng)都會(huì)根據(jù)自己的設(shè)計(jì)目的進(jìn)行相應(yīng)的選擇，如Cassandra、Dynamo滿足AP，BigTable、MongoDB滿足CP。

四、結(jié)束語(yǔ)

本文首先介紹了大數(shù)據(jù)概念，分析了關(guān)系數(shù)據(jù)庫(kù)在存儲(chǔ)大數(shù)據(jù)量方面的不足，并介紹了當(dāng)前NOSQL數(shù)據(jù)庫(kù)的基本理論和當(dāng)前產(chǎn)品分類。大數(shù)據(jù)時(shí)代的來(lái)臨，我們忙于如何存儲(chǔ)和處理這些數(shù)據(jù)，但隨著計(jì)算機(jī)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò)的快速發(fā)展，數(shù)據(jù)量會(huì)持續(xù)大幅增長(zhǎng)，如何長(zhǎng)期保存這些數(shù)據(jù)以及如何處理更大級(jí)別的數(shù)據(jù)量，都需要我們思考并解決。

參考文獻(xiàn)

[1]王珊，王會(huì)舉，覃雄派等.架構(gòu)大數(shù)據(jù)：挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào)，2011（34）.

[2]黃賢立.NOSQL非關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展及應(yīng)用初探[J].福建電腦，2010（7）：30.

篇（10）

1.圖書館的大數(shù)據(jù)應(yīng)用特征

大數(shù)據(jù)是一場(chǎng)革命，將改變?nèi)藗兊纳?、工作和思維方式。大數(shù)據(jù)至今并無(wú)統(tǒng)一定義，通常以“4v”特征或?qū)Υ髷?shù)據(jù)進(jìn)行描述性解釋：規(guī)模（Volume）指數(shù)據(jù)的數(shù)量規(guī)模大；類型（Variety）指數(shù)據(jù)類型多樣復(fù)雜，混合結(jié)構(gòu)化與非結(jié)構(gòu)化多種類型；實(shí)時(shí)（Velocity）一方面是數(shù)據(jù)增長(zhǎng)速度快，另一方面要求在合理的時(shí)間內(nèi)處理數(shù)據(jù)；價(jià)值（Value）反映了大數(shù)據(jù)隱含著價(jià)值轉(zhuǎn)化。大數(shù)據(jù)發(fā)展的最終目標(biāo)是分析挖掘數(shù)據(jù)的價(jià)值，其重點(diǎn)在于數(shù)據(jù)的分析和應(yīng)用，“大”不過(guò)是信息技術(shù)不斷發(fā)展所產(chǎn)生的海量數(shù)據(jù)的表象而己。

社會(huì)進(jìn)步和信息技術(shù)不斷改變著圖書館的服務(wù)內(nèi)容與模式，網(wǎng)絡(luò)環(huán)境下要求將這些信息資源組合成整體并延伸至更大的范圍。隨著數(shù)字圖書館的興起，圖書館數(shù)字化文獻(xiàn)信息、數(shù)據(jù)庫(kù)的數(shù)量種類不斷增加，各地市級(jí)圖書館都已具有海量信息規(guī)模，比如上海圖書館提供的數(shù)據(jù)庫(kù)已多達(dá)400余個(gè)。這些數(shù)據(jù)包括類型多樣的文本、圖片、音頻與視頻各類非結(jié)構(gòu)化數(shù)據(jù)，滿足大數(shù)據(jù)的基本特征。然而，這些數(shù)據(jù)資源價(jià)值遠(yuǎn)未得到有效體現(xiàn)與利用。一個(gè)重要的原因是缺乏有效的數(shù)據(jù)挖掘技術(shù)方法。通過(guò)人工從大量結(jié)構(gòu)繁雜的數(shù)據(jù)中發(fā)現(xiàn)價(jià)值，是難以實(shí)現(xiàn)的。隨著大數(shù)據(jù)技術(shù)的發(fā)展與應(yīng)用，必然要求圖書館重點(diǎn)利用數(shù)據(jù)挖掘技術(shù)從大量的信息中發(fā)掘數(shù)據(jù)價(jià)值，以此推出知識(shí)化產(chǎn)品化的服務(wù)應(yīng)用。同時(shí)，通過(guò)大數(shù)據(jù)處理分析對(duì)信息資源進(jìn)行深度、動(dòng)態(tài)、廣泛的知識(shí)挖掘，便于揭示信息內(nèi)容中各個(gè)要素及其相互之間的聯(lián)系，促進(jìn)信息交流，實(shí)現(xiàn)信息資源共享，提高文獻(xiàn)信息的利用效率，從而實(shí)現(xiàn)圖書館信息增值服務(wù)并提高信息服務(wù)的競(jìng)爭(zhēng)力。因此，探索數(shù)據(jù)挖掘方法技術(shù)提高圖書館的服務(wù)水平是亟須思考和解決的問(wèn)題。

2.大數(shù)據(jù)時(shí)代圖書館數(shù)據(jù)挖掘面臨的挑戰(zhàn)

大數(shù)據(jù)時(shí)代的到來(lái)，極大地促進(jìn)了數(shù)據(jù)科學(xué)的興起。數(shù)據(jù)科學(xué)包括用科學(xué)的方法研究數(shù)據(jù)與用數(shù)據(jù)的方法研究科學(xué)，后者主要的實(shí)現(xiàn)方式就是數(shù)據(jù)挖掘方法與技術(shù)。數(shù)據(jù)挖掘是指從數(shù)據(jù)源中發(fā)現(xiàn)知識(shí)的過(guò)程。實(shí)現(xiàn)數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)在于數(shù)據(jù)的挖掘方法技術(shù)。所以，如何充分有效地利用數(shù)據(jù)挖掘方法對(duì)圖書館大數(shù)據(jù)進(jìn)行開發(fā)處理，是開展圖書館知識(shí)服務(wù)的重要研究方向，也是服務(wù)創(chuàng)新的關(guān)鍵途徑與支撐服務(wù)技術(shù)。大數(shù)據(jù)時(shí)代圖書館的數(shù)據(jù)數(shù)量大、類型多，對(duì)數(shù)據(jù)挖掘提出新的需求與挑戰(zhàn)，主要有以下方面。

2.1大規(guī)模數(shù)據(jù)量

數(shù)字館藏?cái)?shù)據(jù)規(guī)模與數(shù)據(jù)類型在不斷增長(zhǎng)，對(duì)于數(shù)據(jù)挖掘算法的能力要求也在不斷提高。傳統(tǒng)對(duì)于大規(guī)模數(shù)據(jù)的分析一般采用隨機(jī)取樣，以較少數(shù)據(jù)獲得最多的信息，其準(zhǔn)確性會(huì)隨著隨機(jī)性增加而提高。這是在計(jì)算機(jī)性能較低特別是無(wú)法收集全部數(shù)據(jù)的情況下的選擇。然而，大數(shù)據(jù)環(huán)境數(shù)據(jù)價(jià)值隱匿于海量數(shù)據(jù)中，單靠取樣是無(wú)法捕捉到這些細(xì)節(jié)的，需要采用全集數(shù)據(jù)進(jìn)行處理分析。如此大量的數(shù)據(jù)分析僅靠單機(jī)是無(wú)法完成的，分析挖掘模型必然要借助分布式計(jì)算框架，比如，Map Reduce或者當(dāng)前流行的Spark，將分析模型遷移至集群計(jì)算環(huán)境。大數(shù)據(jù)應(yīng)用具有實(shí)時(shí)性，如智能推薦、文獻(xiàn)關(guān)聯(lián)等，需要在合理的時(shí)間完成分析過(guò)程，采用集群計(jì)算環(huán)境也是提高計(jì)算效率的選擇。另外，數(shù)據(jù)量增加的同時(shí)，噪音數(shù)據(jù)也會(huì)增加。因此，在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作。

2.2數(shù)據(jù)的高維特征

圖書館數(shù)據(jù)的多樣性能夠提供更多維度的客觀對(duì)象描述屬性。數(shù)據(jù)從過(guò)去的一維、多維逐漸發(fā)展為巨量維度。雖然能夠建立豐富的多維數(shù)據(jù)模型與方法，但在構(gòu)建的大數(shù)據(jù)特征空間中，往往會(huì)超出傳統(tǒng)方法的處理能力?？梢钥紤]引入維度規(guī)約技術(shù)，比如主成分分析、奇異值分解來(lái)降低數(shù)據(jù)維度。同時(shí)，數(shù)據(jù)屬性可能過(guò)于稀疏，也會(huì)極大影響數(shù)據(jù)模型的有效性。

2.3數(shù)據(jù)關(guān)系廣泛

圖書館服務(wù)應(yīng)用過(guò)程中的信息、用戶對(duì)象之間存在多種行為與內(nèi)容關(guān)聯(lián)，從而組成多關(guān)系網(wǎng)絡(luò)。大數(shù)據(jù)的多源性、多樣性正是構(gòu)建這種復(fù)雜關(guān)系的基礎(chǔ)。比如，用戶的查詢?cè)~、借閱記錄、瀏覽記錄、圖書館文獻(xiàn)信息內(nèi)容之間形成的多關(guān)系網(wǎng)絡(luò)。特別是社交網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用，更使其趨于多元化。許多圖書館實(shí)踐中，比如基于用戶的信息推薦就是利用這種關(guān)系作為分析依據(jù)。過(guò)多關(guān)系的簡(jiǎn)單鏈接應(yīng)用，反而會(huì)削弱關(guān)鍵特征的作用和導(dǎo)致語(yǔ)義缺失。如何廣泛利用大數(shù)據(jù)提供的各類數(shù)據(jù)類型與數(shù)據(jù)關(guān)系，成為實(shí)際應(yīng)用中的一個(gè)重點(diǎn)。實(shí)際中，需要重視運(yùn)用關(guān)系選擇、組合及判斷函數(shù)，提高分析的正確性有效性。

2.4數(shù)據(jù)保護(hù)要求不斷增長(zhǎng)

數(shù)據(jù)是圖書館信息服務(wù)的核心和基礎(chǔ)，數(shù)據(jù)的安全性就顯得尤為重要。用戶在享受精準(zhǔn)個(gè)性化推薦帶來(lái)的便捷的同時(shí)，也在深深擔(dān)心個(gè)人隱私安全問(wèn)題。一些敏感信息以明文存儲(chǔ)也會(huì)有安全風(fēng)險(xiǎn)。這些會(huì)導(dǎo)致數(shù)據(jù)挖掘方或者任何可以接近數(shù)據(jù)集的人，能夠辨別特定的用戶個(gè)體或內(nèi)容信息，存在利益侵犯的可能性。數(shù)據(jù)挖掘在發(fā)現(xiàn)數(shù)據(jù)價(jià)值的同時(shí)，也對(duì)隱私安全和數(shù)據(jù)安全帶來(lái)了威脅。這就需利用數(shù)據(jù)修改、數(shù)據(jù)模糊、數(shù)據(jù)加密、加密檢索等隱私保護(hù)技術(shù)提高數(shù)據(jù)的安全性和可控性。

2.5自然語(yǔ)言理解程度較低

當(dāng)前，在信息檢索、自動(dòng)摘要等常見(jiàn)的數(shù)據(jù)挖掘任務(wù)中，仍無(wú)法有效識(shí)別同義詞、近義詞以及詞語(yǔ)間的語(yǔ)義關(guān)聯(lián)，特別是一些短文本處理中，無(wú)法有效識(shí)別詞語(yǔ)語(yǔ)義，造成處理效果不理想。雖然一些圖書館建設(shè)了知識(shí)庫(kù)，但僅限于研究層面，距離實(shí)用在規(guī)模上有相當(dāng)差距，在應(yīng)用方法上也沒(méi)有大的突破。同時(shí)，圖書館存在大量圖片、音頻、視頻數(shù)據(jù)，這些數(shù)據(jù)的加工處理也沒(méi)有引入有效的自動(dòng)圖像、音頻識(shí)別技術(shù)，圖書館難以基于數(shù)據(jù)挖掘提供全方位的信息服務(wù)。

3.大數(shù)據(jù)時(shí)代圖書館數(shù)據(jù)挖掘的關(guān)鍵技術(shù)方法

3.1數(shù)據(jù)存儲(chǔ)

圖書館數(shù)據(jù)類型眾多，需要引入非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)技術(shù)。比如典型的HDFS，No SOL（Not Only SOL），已廣泛用于非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)適合結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。需要注意的是，要區(qū)分結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)，針對(duì)數(shù)據(jù)特點(diǎn)使用相應(yīng)的存儲(chǔ)技術(shù)。在實(shí)際中，難以使用一種數(shù)據(jù)存儲(chǔ)方式存儲(chǔ)管理所有的數(shù)據(jù)，即使谷歌也是將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。同時(shí)，需要運(yùn)用高效存儲(chǔ)技術(shù)，比如數(shù)據(jù)壓縮、自動(dòng)精簡(jiǎn)配置、自動(dòng)分層存儲(chǔ)、存儲(chǔ)虛擬化等解決或緩解數(shù)據(jù)量過(guò)大、存儲(chǔ)利用率、存儲(chǔ)效率低等難題。

3.2數(shù)據(jù)集成

目前，相當(dāng)數(shù)量圖書館的一個(gè)重要問(wèn)題是數(shù)據(jù)資源分散化、碎片化，數(shù)據(jù)存儲(chǔ)在不能相互訪問(wèn)的數(shù)據(jù)庫(kù)與系統(tǒng)中，形成數(shù)據(jù)孤島。孤立的數(shù)據(jù)是難以發(fā)揮出數(shù)據(jù)價(jià)值的，如何連接這些數(shù)據(jù)，實(shí)現(xiàn)資源交互共享，是數(shù)據(jù)價(jià)值最大化的關(guān)鍵。數(shù)據(jù)集成將不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中，經(jīng)過(guò)關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的標(biāo)準(zhǔn)來(lái)存儲(chǔ)數(shù)據(jù)，從而應(yīng)對(duì)大數(shù)據(jù)數(shù)量眾多、類型廣泛等問(wèn)題給數(shù)據(jù)管理服務(wù)所帶來(lái)的挑戰(zhàn)。數(shù)據(jù)的集成連接涉及異構(gòu)數(shù)據(jù)的統(tǒng)一語(yǔ)義描述、多維特征關(guān)聯(lián)。同時(shí)，要保證數(shù)據(jù)質(zhì)量，需要對(duì)數(shù)據(jù)進(jìn)行清洗。但清洗的粒度過(guò)細(xì)，容易過(guò)濾有效數(shù)據(jù)；反之，無(wú)法達(dá)清洗效果。所以，在質(zhì)與量之間需要做出一定權(quán)衡。

3.3數(shù)據(jù)處理加工

語(yǔ)義處理技術(shù)能夠?yàn)樯顚拥臄?shù)據(jù)分析提供支持，提高各種數(shù)據(jù)挖掘算法的語(yǔ)義化程度與性能，提高機(jī)器可理解數(shù)據(jù)的能力。語(yǔ)義知識(shí)庫(kù)是語(yǔ)義處理的基礎(chǔ)支撐，典型的知識(shí)庫(kù)有WordNet、中文知網(wǎng)，但其構(gòu)建存在人工成本高、更新慢的問(wèn)題。實(shí)踐中，可以從維基百科、互動(dòng)百科等結(jié)構(gòu)化程度較高的海量數(shù)據(jù)中抽取詞語(yǔ)關(guān)系，以低成本方式自動(dòng)構(gòu)建語(yǔ)義知識(shí)庫(kù)獲取語(yǔ)義知識(shí)，也可以利用大規(guī)模語(yǔ)料構(gòu)建概念詞語(yǔ)矩陣或利用Word2 Vector工具，提高數(shù)據(jù)挖掘的語(yǔ)義化處理程度。圖書館需要采用圖像、音視頻內(nèi)容檢索技術(shù)，提高多媒體數(shù)據(jù)的處理能力。比如利用語(yǔ)音識(shí)別技術(shù)，將音頻數(shù)據(jù)處理為文本并記錄聲音信號(hào)在音頻中的時(shí)間位置，以此提高用戶獲取音頻數(shù)據(jù)的快速性與準(zhǔn)確性。通過(guò)語(yǔ)義標(biāo)注從圖書館數(shù)據(jù)中識(shí)別概念本體，實(shí)現(xiàn)信息之間的關(guān)聯(lián)，形成知識(shí)網(wǎng)絡(luò)，為個(gè)性化、語(yǔ)義化服務(wù)應(yīng)用提供支撐，進(jìn)而可通過(guò)分類、聚類等數(shù)據(jù)挖掘加工處理從多維度滿足用戶的信息需求。另外，可借助微博、微信等社會(huì)化網(wǎng)絡(luò)提供的API接口，獲得更廣泛的用戶數(shù)據(jù)，展開用戶需求與圖書館信息之間的深層處理分析，利用APP等多種方式為圖書館與用戶之間搭建有效的服務(wù)橋梁。

3.4數(shù)據(jù)可視化

上一篇: 民航法律論文相關(guān)精選

相關(guān)期刊

環(huán)境科技

統(tǒng)計(jì)源期刊 1-3個(gè)月下單

全年訂價(jià)：￥228.00
電力大數(shù)據(jù)

省級(jí)期刊 1個(gè)月內(nèi)下單

全年訂價(jià)：￥460.00
大數(shù)據(jù)

統(tǒng)計(jì)源期刊 1個(gè)月內(nèi)下單

全年訂價(jià)：￥508.00
數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)

CSSCI南大期刊 1-3個(gè)月下單

全年訂價(jià)：￥1180.00
招生考試通訊·高考版

省級(jí)期刊 1個(gè)月內(nèi)下單

全年訂價(jià)：￥196.00