中文字幕日韩人妻|人人草人人草97|看一二三区毛片网|日韩av无码高清|阿v 国产 三区|欧洲视频1久久久|久久精品影院日日

大數(shù)據(jù)技術匯總十篇

時間:2023-03-23 15:05:43

序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇大數(shù)據(jù)技術范例,希望它們能助您一臂之力,提升您的閱讀品質,帶來更深刻的閱讀感受。

大數(shù)據(jù)技術

篇(1)

數(shù)據(jù)(Big Data)是目前最重要的科學、技術和社會話題。借用IDC數(shù)據(jù)公司的定義:“大數(shù)據(jù)是一種新一代的技術和架構,具備高效率的捕捉、發(fā)現(xiàn)和分析能力,能夠經(jīng)濟地從類型繁雜、數(shù)量龐大的數(shù)據(jù)中挖掘出色價值。”

大數(shù)據(jù)定義有著如下的基本前提和含義。

① 大量的數(shù)據(jù):大數(shù)據(jù)概念源于數(shù)據(jù)的爆炸性增長。用世界著名的咨詢公司高德納(Gartner)研究報告的描述:“同一類型的數(shù)據(jù)量快速增長;數(shù)據(jù)增長速度的加快;數(shù)據(jù)多樣性、新數(shù)據(jù)來源和新數(shù)據(jù)種類的不斷增加。”

② 多種類型數(shù)據(jù)積累:新的數(shù)據(jù)存儲和數(shù)據(jù)采集的技術發(fā)展使巨量數(shù)據(jù)的采集、收集、存儲成為可能。網(wǎng)絡技術、移動設備、數(shù)字傳感器、數(shù)碼攝影/攝像、監(jiān)控影像、衛(wèi)星定位系統(tǒng)、遙感技術、氣候和環(huán)境監(jiān)測技術等等,每時每刻都在各種形式、各種類型的大量數(shù)據(jù)。

③ 計算技術的進步與發(fā)展:現(xiàn)代計算技術、網(wǎng)絡技術、多媒體技術和數(shù)據(jù)庫處理技術等可以處理各種形式的海量數(shù)據(jù),產(chǎn)生出大量的高附加值的數(shù)據(jù)、結果、狀態(tài)和知識。

④ 數(shù)據(jù)處理能力成為戰(zhàn)略能力:數(shù)據(jù)量的激增、數(shù)據(jù)類型的多樣、技術平臺對數(shù)據(jù)的綜合處理,造成了知識邊界擴展、知識價值提升、知識衍生能力加快,它極大地影響到了企業(yè)、個人、社會和政府的決策,極大地促進了社會生產(chǎn)力的發(fā)展,使掌握大數(shù)據(jù)技術者獲得了競爭優(yōu)勢和難于模仿的核心競爭力。因此,大數(shù)據(jù)技術也成為了國家的核心戰(zhàn)略資源。

大數(shù)據(jù)的含義廣博、技術領域廣泛、技術平臺多樣、作用效果巨大、影響意義深遠。理解大數(shù)據(jù)的理論、方法和架構,適應大數(shù)據(jù)的變革與發(fā)展,分享大數(shù)據(jù)所帶來的種種便利和收益,便能夠在大數(shù)據(jù)時代占領先機。

1.2 大數(shù)據(jù)對數(shù)據(jù)庫技術的影響

大數(shù)據(jù)的宗旨是處理數(shù)據(jù),數(shù)據(jù)庫技術自然占據(jù)核心地位。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術也具有明顯的特殊性。

1.2.1 大數(shù)據(jù)環(huán)境下數(shù)據(jù)處理技術面臨的新特點

數(shù)據(jù)量宏大。對數(shù)據(jù)庫技術影響最大、最直接的方面莫過于數(shù)據(jù)的爆炸性增長。即使先不考慮數(shù)據(jù)類型的變化,需要處理的數(shù)據(jù)從MB擴展到GB,現(xiàn)在再擴展到TB,不遠的將來數(shù)據(jù)庫將經(jīng)常面對PB量級的數(shù)據(jù),這必然對數(shù)據(jù)庫的硬件架構、數(shù)據(jù)庫系統(tǒng)結構和數(shù)據(jù)庫應用產(chǎn)生重大的影響。

數(shù)據(jù)形式多樣。另外一個對數(shù)據(jù)庫技術產(chǎn)生重要影響的因子是數(shù)據(jù)的多樣化,傳統(tǒng)數(shù)字、圖像、照片、影像、聲音等多種數(shù)據(jù)資源需要進行處理,并且和傳統(tǒng)關系式數(shù)據(jù)不同的,許多數(shù)據(jù)格式中的有價值數(shù)據(jù)并不多,例如多張圖片定對象的變化,連續(xù)視頻影像中對特殊對象的跟蹤等等,其數(shù)據(jù)抽取方式、過濾方法和存儲、計算方式均有別于傳統(tǒng)數(shù)據(jù)庫。

單機或小型局域網(wǎng)的數(shù)據(jù)庫處理無法滿足。當前,數(shù)據(jù)量爆炸式增長,數(shù)據(jù)類型日趨多樣,傳統(tǒng)關系數(shù)據(jù)庫的處理能力已難于滿足,需要新的數(shù)據(jù)庫處理技術。

傳統(tǒng)的并行數(shù)據(jù)庫的靈活性具有局限性。并行數(shù)據(jù)庫系統(tǒng)取得了輝煌的成績,但是它的靈活性不佳,彈性受限,系統(tǒng)規(guī)模的收縮或擴展成本非常高。這樣的系統(tǒng)適合于“相對固定結構”的計算結構,例如機銀行業(yè)務管理系統(tǒng)或城市交通管理系統(tǒng)等。

結構化、半結構化與非結構化形式并存。讓數(shù)據(jù)庫有能力處理這些半結構化和非結構化(有時不作區(qū)分)數(shù)據(jù)變成了新型數(shù)據(jù)庫技術的一項迫切要求。

對結果要求的模糊化。在大數(shù)據(jù)的時代,計算技術不僅限于回答“是/非”問題,而是需要更多的模糊化結果。例如,流感有很可能在一周后流行、近期可能發(fā)生5級左右地震、近一周國際往返機票將上漲……這些答案并不精確,但足以指導人們的活動。非結構化數(shù)據(jù)的處理結果常常是給出模糊化的答案。

新數(shù)據(jù)庫技術的出現(xiàn)與挑戰(zhàn)。新需求的出現(xiàn),促使了新技術的產(chǎn)生,為處理非結構化數(shù)據(jù),Apache、Google、Amazon等公司分別開發(fā)了適應各自需要的新型數(shù)據(jù)庫系統(tǒng),相關的專家經(jīng)過分析和總結提出了NoSQL的設計理念,并創(chuàng)建了許多成功的產(chǎn)品。

1.2.2 新型數(shù)據(jù)庫技術的特點

與傳統(tǒng)數(shù)據(jù)庫技術相比較,新型數(shù)據(jù)庫技術具有一些明顯的特點,具體如下:

可處理的數(shù)據(jù)總量和數(shù)據(jù)類型增加。不再為數(shù)據(jù)結構化或數(shù)據(jù)代表性而人為地選取部分數(shù)據(jù)或進行數(shù)據(jù)抽樣;不再靠樣本規(guī)模的大小來控制結果的置信區(qū)間和置信度。新的數(shù)據(jù)庫處理技術試圖利用“全部數(shù)據(jù)”,完成對結果的計算和推斷。

使用更多的非結構化數(shù)據(jù),而不是片面地強調全部使用結構化數(shù)據(jù)。在非結構化的高復雜度、高數(shù)據(jù)量、多種數(shù)據(jù)類型的情況下,允許結論和結果的“不精確”,允許追求“次優(yōu)解”。體現(xiàn)大數(shù)據(jù)技術“以概率說話”的特點。

不再試圖避免或降低數(shù)據(jù)的混雜性,而是把“使用全部數(shù)據(jù)”作為追求“次優(yōu)解”的途徑。即在復雜、混亂、無結構化與確定、規(guī)整、結構化數(shù)據(jù)之間做出平衡。

在遇到“使用全部數(shù)據(jù),得出模糊化結果”與“實用部分數(shù)據(jù),得出準確結論”的選擇時,新型數(shù)據(jù)庫技術一般會選擇前者,從一個更全面的角度利用更多的數(shù)據(jù)資源去尋找答案。

科學地在因果關系與相關關系中做出抉擇。如果數(shù)據(jù)總體支持因果關系的判別和斷言,則像傳統(tǒng)數(shù)據(jù)庫那樣提供因果關系斷語;如果數(shù)據(jù)計算量宏大、成本高昂或條件不具備,則把關注點由“因果關系”調整為“相關關系”——將追求“最優(yōu)解”變?yōu)樽非蟆按蝺?yōu)解”或“模糊解”。自然地,這種相關關系的選擇不能是隨機的,而是預先設計和規(guī)劃好的。

不同的數(shù)據(jù)庫開發(fā)理念,不同的應用目標,不同的技術方案,早就了新型數(shù)據(jù)庫豐富多彩、特點各異的局面。

1.3 從傳統(tǒng)關系數(shù)據(jù)庫到非關系數(shù)據(jù)

在計算機系統(tǒng)結構剛剛趨于穩(wěn)定的1970年,IBM公司的Edgar Codd(科德)首先提出了關系數(shù)據(jù)庫的概念和規(guī)則,這是數(shù)據(jù)庫技術的一個重要的里程碑??频露x的關系數(shù)據(jù)庫具有結構化程度高、數(shù)據(jù)冗余量低、數(shù)據(jù)關系明確、一致性好的優(yōu)點。關系數(shù)據(jù)庫模型把數(shù)據(jù)庫操作抽象成選擇、映射、連接、集合的并差交除操作、數(shù)據(jù)的增刪改查操作等。而1976年Boyce和Chamberlin提出的SQL結構化查詢語言則把關系數(shù)據(jù)庫及其操作模式完整地固定下來,其理論和做法延續(xù)至今,被作為數(shù)據(jù)庫技術的重要基石。關系數(shù)據(jù)庫中定義的關系模型的實質是二維表格模型,關系數(shù)據(jù)庫就是通過關系連接的多個二維表格之間的數(shù)據(jù)集合。當前流行的數(shù)據(jù)庫軟件Oracal、DB2、SQL Server、MySQL和Access等均屬于關系數(shù)據(jù)庫。

到二十世紀八十年代后期,IBM的研究員提出了數(shù)據(jù)倉庫(Data Warehouse)的概念,4年后Bill Inmon給出了被大家廣泛接受的數(shù)據(jù)倉庫定義:“數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理中的決策制定?!睌?shù)據(jù)倉庫的進步在于,它把決策支持定為數(shù)據(jù)庫中數(shù)據(jù)組織和管理的目標,從而把智能性和決策能力融入到數(shù)據(jù)庫中。Inmon之后,Ralph Kimball建立了更加方便、實用的“自底向上”數(shù)據(jù)倉庫架構并稱之為“數(shù)據(jù)集市”(Data Mart),這種技術受到企業(yè)及廠家的歡迎并采納實施。雖然數(shù)據(jù)集市被歸并為數(shù)據(jù)倉庫,但是它的出現(xiàn)誘發(fā)了商務智能和聯(lián)機分析技術的流行。

篇(2)

一、分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應用

目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應時間的最佳方法之一?;谝?guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結構,將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結構的進化優(yōu)化技術,用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點的可重用性,而節(jié)點本身就是圖形結構的功能。為了實現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結構由三種節(jié)點組成:起始節(jié)點、判斷節(jié)點和處理節(jié)點。開始節(jié)點表示節(jié)點轉換的開始位置;判斷節(jié)點表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點準備包括兩個階段:節(jié)點定義和節(jié)點排列。節(jié)點定義的目的是準備創(chuàng)建規(guī)則,節(jié)點排列是選擇重要的節(jié)點,以便高效地提取大量規(guī)則。節(jié)點排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點排列方法具有更好的聚類結果,這兩個過程中的規(guī)則生成都是通過圖結構的演化來實現(xiàn)。

二、在線規(guī)則更新系統(tǒng)的應用

在線規(guī)則更新系統(tǒng)用于通過分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應用中,每個節(jié)點都有自己的節(jié)點號,描述每個節(jié)點號的節(jié)點信息。程序大小取決于節(jié)點的數(shù)量,這會影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點表示根據(jù)連接順序執(zhí)行的判斷節(jié)點序列的起始點,開始節(jié)點的多個位置將允許一個人提取各種規(guī)則。判斷節(jié)點表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應用環(huán)節(jié),從每個起始節(jié)點開始的節(jié)點序列用虛線a、b和c表示,節(jié)點序列流動,直到支持判斷節(jié)點的下一個組合不滿足閾值。在節(jié)點序列中,如果具有已出現(xiàn)在上一個節(jié)點序列,將跳過這些節(jié)點。在更新每個集群中的規(guī)則時,重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數(shù)據(jù)之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過程中的判斷節(jié)點的屬性選擇。一些數(shù)據(jù)的庫存值和權重值低于0.85,因此這些值不包括在國民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質量的錨定點,進而影響輪廓值。在線規(guī)則更新系統(tǒng)應用中,完成主要的規(guī)則提取過程,這是一個標準的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過程,對初始數(shù)據(jù)集進行初始集群;改善規(guī)則更新過程,僅對輪廓值低于閾值的數(shù)據(jù)執(zhí)行。

三、大規(guī)模并行處理技術的應用

篇(3)

中圖分類號:TP311.13

關于數(shù)據(jù)方面的新名詞是層出不窮,云計算、物聯(lián)網(wǎng)的概念還沒有完全理解,大數(shù)據(jù)的概念又頻頻出現(xiàn)在媒體中,特別是今年“兩會”期間,在央視報道中,多次使用大數(shù)據(jù)進行實時分析。大數(shù)據(jù)的概念從計算機業(yè)界也迅速傳播到各行各業(yè),與我們的日常生活也密切的聯(lián)系在一起。不但中國如此,2012年3月,奧巴馬宣布美國政府五大部門投資兩億美元啟動“大數(shù)據(jù)研究與開發(fā)計劃”,【1】大力推動大數(shù)據(jù)相關的收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)技術研究,以提高美國的科研、教育與國家安全能力,美國政府以及把“大數(shù)據(jù)”技術上升到國家安全戰(zhàn)略的高度。其他國家也紛紛加大對大數(shù)據(jù)研究的資金投入,同時,許多大公司企業(yè)也將此技術視作創(chuàng)新前沿。

1 大數(shù)據(jù)概念與特征

但是,到目前為止,業(yè)界關于大數(shù)據(jù)的概念尚未有統(tǒng)一的定義。最早將大數(shù)據(jù)應用于IT環(huán)境的是著名的咨詢公司麥肯錫,它關于大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)是指無法在一定時間內用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內容進行采集、存儲、管理和分析的數(shù)據(jù)集合。另外,被引用較多得到大家認可的還有維基百科的定義:大數(shù)據(jù)指數(shù)量巨大、類型復雜的數(shù)據(jù)集合,現(xiàn)有的數(shù)據(jù)庫管理工具或傳統(tǒng)的數(shù)據(jù)處理應用難以對其進行處理。這些挑戰(zhàn)包括如捕獲、收集、存儲、搜索、共享、傳遞、分析與可視化等?!?】

當前,較為統(tǒng)一的認識是大數(shù)據(jù)有四個基本特征:數(shù)據(jù)規(guī)模大(Volume),數(shù)據(jù)種類多(Variety),數(shù)據(jù)要求處理速度快(Velocity),數(shù)據(jù)價值密度低(Value),即所謂的四V特性。這些特性使得大數(shù)據(jù)區(qū)別于傳統(tǒng)的數(shù)據(jù)概念?!?】

首先,數(shù)據(jù)量龐大是大數(shù)據(jù)的最主要的特征,大數(shù)據(jù)的數(shù)據(jù)規(guī)模是以PB、EB、ZB量級為存儲單位的,數(shù)據(jù)量非常龐大。同時,此類數(shù)據(jù)還在不斷的加速產(chǎn)生,因此,傳統(tǒng)的數(shù)據(jù)庫管理技術無法在短時間內完成對數(shù)據(jù)的處理。第二,數(shù)據(jù)種類多。與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)的數(shù)據(jù)類型種類繁多,包括了結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)等多種數(shù)據(jù)類型。傳統(tǒng)的數(shù)據(jù)庫技術采取關系型數(shù)據(jù)庫較多,結構單一,而大數(shù)據(jù)重點關注的是包含大量細節(jié)信息的非結構化數(shù)據(jù),因此傳統(tǒng)數(shù)據(jù)庫技術不能適應新的大數(shù)據(jù)的要求,傳統(tǒng)的數(shù)據(jù)處理方式也面臨著巨大的挑戰(zhàn)。第三,大數(shù)據(jù)的產(chǎn)生與存儲是動態(tài)的,有的處理結果時效性要求很高,這就要求對數(shù)據(jù)能夠快速處理,數(shù)據(jù)處理速度快也是大數(shù)據(jù)區(qū)別數(shù)據(jù)倉庫的主要因素。數(shù)據(jù)產(chǎn)生的速度以及快速變化形成的數(shù)據(jù)流,超越了傳統(tǒng)的信息系統(tǒng)的承載能力。最后,數(shù)據(jù)價值密度低是大數(shù)據(jù)關注的非結構化數(shù)據(jù)的重要屬性。大數(shù)據(jù)分析是采用原始數(shù)據(jù)的分析,保留了數(shù)據(jù)的全貌,因此一個事件的全部數(shù)據(jù)都會被保存,產(chǎn)生的數(shù)據(jù)量激增,而有用的信息可能非常少,因此價值密度偏低。

2 大數(shù)據(jù)可用性的面臨的技術與問題

大數(shù)據(jù)并不僅僅指其數(shù)據(jù)量之大,更代表著其潛在的數(shù)據(jù)價值之大。有研究證明,有效地管理、使用大數(shù)據(jù)能夠給企業(yè)提供更多增強企業(yè)生產(chǎn)能力和競爭能力的機會,能夠給企業(yè)帶來巨大的潛在商業(yè)價值。【4】但不可否認的是,大數(shù)據(jù)目前也面臨很多負面影響。低質量低密度的數(shù)據(jù)也可能對決策造成致命性的錯誤。如何把大數(shù)據(jù)從理論研究到企業(yè)應用的轉變,還面臨很多問題與挑戰(zhàn)。

(1)可用性理論體系的建立。大數(shù)據(jù)的可用性需要完整的理論做支撐,才能解決諸如如何形式化的表示數(shù)據(jù)可用性、如何評估數(shù)據(jù)可用性、數(shù)據(jù)錯誤自動發(fā)現(xiàn)和修復依據(jù)什么理論、如何管理數(shù)據(jù)和數(shù)據(jù)融合、數(shù)據(jù)安全性采取何種策略和理論等一系列問題。因此,要建立完整可用性理論體系,構建統(tǒng)一的模型,為大數(shù)據(jù)的進一步應用提供堅實的理論基礎。

(2)高質量數(shù)據(jù)的獲取的能力。大數(shù)據(jù)技術最基礎的對象就是數(shù)據(jù),是一切應用和分析決策的前提。因此,獲取高質量數(shù)據(jù)是確保信息可用性的重要因素之一。隨著互聯(lián)網(wǎng)的數(shù)據(jù)不斷增大,物聯(lián)網(wǎng)的興起以及復雜物理信息系統(tǒng)的應用,大數(shù)據(jù)的來源也多種多樣,數(shù)據(jù)模型千差萬別,質量也參差不齊,這就為加工整合數(shù)據(jù)帶來非常大的困難。

大數(shù)據(jù)是對事物最原始的全貌記錄,數(shù)據(jù)量規(guī)模很大,但是其中有用的信息非常少,因此,對于處理數(shù)據(jù)來說,數(shù)據(jù)并不是越多越好。如何提高數(shù)據(jù)中的有效數(shù)據(jù)是非常關鍵的。大量的數(shù)據(jù)中如果僅僅包含了少量的錯誤數(shù)據(jù),對分析結果可能不會造成很大的影響。但是如果對錯誤數(shù)據(jù)沒有有效控制的話,大量錯誤數(shù)據(jù)的涌入很可能會得到完全錯誤的結果。

因此,獲取高質量數(shù)據(jù)的能力是大數(shù)據(jù)能否進行實用的關鍵因素,否則只會在浪費人力物力后獲得完全無效甚至錯誤的結果。但是目前還缺乏系統(tǒng)的研究,對于出現(xiàn)的問題還沒有很好的解決方案,在獲取數(shù)據(jù)方面的工作任重而道遠。

篇(4)

目前,業(yè)界已經(jīng)從對大數(shù)據(jù)重要性的認識階段,發(fā)展到實踐大數(shù)據(jù)必要性的戰(zhàn)略實施階段。中國市場在大數(shù)據(jù)概念產(chǎn)生的初期便已經(jīng)步入大數(shù)據(jù)認知和探索階段,并逐步成為全球市場最具行動力的市場之一。據(jù)IDC預測,2013年中國大數(shù)據(jù)市場將達到1.8億美元。而賽迪顧問數(shù)據(jù)顯示,到2016年,中國有望成為世界最大的大數(shù)據(jù)市場,市場份額達到8.03億美元(約50億人民幣)。

數(shù)據(jù)改變世界

在感知化、物聯(lián)化和智能化的交會下,世界的面貌即將改變。

2013年7月11日,IBM 2013技術峰會(IBM Tech Summit 2013)在京舉行。牛津大學教授、大數(shù)據(jù)權威專家、《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格博士在會上表示:“大數(shù)據(jù)開啟了一次重大的時代轉型,正在變革我們的生活、工作和思維。中國是世界上最復雜的大數(shù)據(jù)國家,面臨著充滿變化的局面和無限的可能性,但是她同時也擁有最大的發(fā)展機會。因為在大數(shù)據(jù)環(huán)境下,充分的數(shù)據(jù)樣本能夠幫助企業(yè)揭示規(guī)律,更好的洞察和預測未來;另外,中國人憑借在數(shù)學和統(tǒng)計方面的優(yōu)勢,成為全球矚目的大數(shù)據(jù)人才據(jù)點。我很高興看到,在IBM和牛津大學年初的大數(shù)據(jù)調研中,中國市場有四分之一的企業(yè)已經(jīng)步入大數(shù)據(jù)實踐階段。這表明中國不僅快速把握了創(chuàng)新的趨勢,更有可能成為全球大數(shù)據(jù)領域的先驅?!?/p>

在大數(shù)據(jù)和分析領域,IBM已充分展現(xiàn)了在該市場的領先優(yōu)勢。近期,IBM被IT分析機構capioIT評為2013年亞太區(qū)商業(yè)智能和分析解決方案供應商行業(yè)第一名 。作為目前業(yè)界唯一能夠集咨詢、服務、軟硬件綜合實力,提供端到端全面整合解決方案的廠商,IBM相關產(chǎn)品和服務覆蓋了“大數(shù)據(jù)”相關領域的各個階段和各個領域。

IBM軟件集團大中華區(qū)戰(zhàn)略及市場總監(jiān)吳立東認為:在大數(shù)據(jù)時代,企業(yè)既可以基于數(shù)據(jù)更好地做到以客戶為中心,也可以利用大數(shù)據(jù)幫助企業(yè)整合后端業(yè)務,從而更好地為客戶服務。

同時,IBM在全球的大數(shù)據(jù)實踐已經(jīng)深入到包括中國在內的全球市場的各個行業(yè)。包括電信、金融、醫(yī)療、零售、制造等全球30000家客戶已在IBM大數(shù)據(jù)平臺及大數(shù)據(jù)分析等技術和理念支持下獲得收益。

前不久,IBM更是推出了大數(shù)據(jù)方面的多款產(chǎn)品和技術,大力提升了其分析產(chǎn)品的加速性能,簡化了開發(fā)和運營,并推出了企業(yè)級別的開源Hadoop系統(tǒng),同時推出了企業(yè)移動業(yè)務解決方案MessageSight,以及升級DB2 10.5等系列產(chǎn)品。在認知計算領域,更推出第一款面向消費者的Waston應用。其中,業(yè)內首創(chuàng)的分析加速技術BLU Acceleration,延續(xù)了傳統(tǒng)的內存管理系統(tǒng)功能,能夠幫助用戶更快速地抓取關鍵信息,并將數(shù)據(jù)分析速度提高25倍。全新的“大數(shù)據(jù)專家”PureData for Hadoop系統(tǒng)能夠大幅提升企業(yè)部署Hadoop的速度,同時降低部署難度。新版本企業(yè)級Hadoop產(chǎn)品InfoSphere BigInsights可以利用現(xiàn)有的SQL技術,更便捷地開發(fā)應用組件。

技術維新助力再現(xiàn)代化

隨著IT技術的進一步發(fā)展,技術正在彰顯著前所未有的特殊作用,人們對技術的追求也越來越迫切。

IBM全球副總裁兼大中華區(qū)軟件集團總經(jīng)理胡世忠表示:“最新的IBM全球CEO調研顯示全球企業(yè)領導者將技術列為最重要的外部力量,而‘科技是第一生產(chǎn)力’一直被廣大中國的企業(yè)家和技術人們奉為至理名言。IBM認為,在由新一代技術組成的智慧計算時代,中國的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運用到自身的變革轉型之中。作為智慧地球的推進者,IBM正在引領商業(yè)和科技的創(chuàng)新,通過業(yè)務前線化實現(xiàn)以客戶為中心的業(yè)務轉型,通過企業(yè)內部全面整合大幅優(yōu)化流程和運營,充分發(fā)揮最新的科技能力,攜手合作伙伴幫助中國企業(yè)、組織和政府共同打造‘再現(xiàn)代化’發(fā)展的全新方式?!?/p>

篇(5)

顯然,這三大經(jīng)典的技術信條在大數(shù)據(jù)時代面臨動搖,

技術信徒的思維模式也即將發(fā)生顛覆。

那么,大數(shù)據(jù)對技術信徒意味著什么?

他們又將如何面對這一顛覆性的變革?

“技術匯成一條大河,一波推動另外一波?!盜BM中國開發(fā)中心首席技術官兼新技術研發(fā)中心總經(jīng)理毛新生帶著對技術的滿腔癡迷這樣形容道。

一波未平一波又起,移動、社交商務、云計算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進而推動商業(yè)和社會的演進。這也就意味著“科技是第一生產(chǎn)力”在當下有了更深層次的涵義——“IBM認為,在由新一代技術組成的智慧運算時代,中國的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運用到自身的變革轉型之中?!?IBM全球副總裁兼大中華區(qū)軟件集團總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻策。

由2012年的“軟件技術峰會”改名為2013年的“技術峰會”,在這么一個盛會上,IBM試圖展示的內容涵蓋范圍更為廣泛——移動應用、大數(shù)據(jù)、云計算、DevOps軟件持續(xù)交付、應用整合、社交商務、專家集成系統(tǒng)等熱議話題,上百場技術主題演講、28場分論壇、22場動手實驗室和80個未來產(chǎn)品的現(xiàn)場演示,再加上被譽為“大數(shù)據(jù)時代的預言家”的《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來自IBM的院士、杰出工程師、相關領域的全球首席技術官和首席架構師的現(xiàn)場分享,IBM 2013技術峰會再次成為技術精英們關注的焦點。 大數(shù)據(jù)的新信條

《大數(shù)據(jù)時代》作者、牛津大學網(wǎng)絡學院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實讓場內數(shù)以萬計的技術信徒激動了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預測網(wǎng)站的例子作為開場白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來改變。

“全體性、混雜性和相關性是大數(shù)據(jù)的三個主要特點,而且這三個特點是互相加強的。”維克托歸納出了大數(shù)據(jù)對應的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細節(jié),這些細節(jié)恰恰是隨機抽樣所錯失的?!案蓛簟钡?、高質量的數(shù)據(jù)不再是標的,大數(shù)據(jù)需要我們摒棄對宏觀上精確性的追求,轉而獲得微觀上的準確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關系,即不再糾結于為什么,而是直接獲得“是什么”的答案,并通過應用相關關系,更好地捕捉現(xiàn)在和預測未來——抽樣因錯失細節(jié)得不償失,盲目追求精確性已經(jīng)過時,執(zhí)著于因果關系喪失機遇。

如何在大數(shù)據(jù)時代生存?維克托指出了兩個關鍵點:一是意識到技術或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務器才能提供搜索服務,但在大數(shù)據(jù)時代,由于云計算的便利性,不擁有實體服務器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍色被谷歌選為搜索窗口的色彩,但藍色實際上有51種,而且這51種藍色人依靠裸眼無法明確區(qū)分,卻能在心理層面給人帶來不同的感受。經(jīng)過大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來的藍色會導致谷歌損失200億~300億美元的收入,因為這一種藍色并不最具備誘惑力,無法激起人們點擊的欲望。

大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級開發(fā)經(jīng)理James R Giles闡述了IBM對大數(shù)據(jù)的看法:“我們正一步步走到了一個新紀元——大數(shù)據(jù)時代。如同對待自然資源一樣,我們需要開掘、轉變、銷售、保護大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無窮無盡的,我們不能任由大數(shù)據(jù)淹沒自己,而應該在獲得洞察需求的驅使下獲得價值?!?/p>

大數(shù)據(jù)的類型廣義而言有移動數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結構性數(shù)據(jù)和非結構性數(shù)據(jù),這對應著不同的處理方式?!凹夹g人員的責任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時代提供技術支撐,以保證管理、安全、商業(yè)的持續(xù)性?!?James R Giles號召技術人員積極行動,以大數(shù)據(jù)的思維模式展現(xiàn)技術的價值和魅力。

找到內在聯(lián)系

技術的趨勢總是融合,也只有有機融合才能形成合力,發(fā)揮更大的威力,而實現(xiàn)這一合力的前提是明確各個趨勢之間的內在聯(lián)系。

“實際上,社交商務、移動、大數(shù)據(jù)、云計算是一體化的?!泵律ㄗh技術人員用一個全面的、融合的范式來沉著看待和應對紛繁的熱點技術,理解這些熱點會如何影響整個IT的走向,進而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務轉型和創(chuàng)新,“讓每個行業(yè)都可以從新的技術轉型當中獲得足夠的原動力”。

從貼近最終用戶的角度來看,移動技術、社交技術改變了商業(yè)機構與其雇員、客戶進行互動的方式?!熬臀覀€人的經(jīng)歷而言,航空公司的移動應用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應用服務很貼心,比如查詢航班信息、根據(jù)我的喜好預留位置、定制化地進行社交推薦等。”毛新生以一個普通消費者的感受證明了企業(yè)通過移動應用收集并利用用戶行為數(shù)據(jù)所帶來的服務質量的提升。

移動催生了“一種嶄新的服務交付端點”,即為用戶提供了更多樣化的服務體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業(yè)務服務,也為企業(yè)帶來了全新的服務交付渠道。移動這個渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎上,大數(shù)據(jù)分析就更可信?!耙苿铀邆涞乃槠攸c會帶來更大量的用戶行為信息。當把所有的人的行為結合在一起,就可以做群體的社會性分析。社會性分析會得到比較準確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會?!泵律J為移動與大數(shù)據(jù)結合給企業(yè)提供了新的商業(yè)機會。

移動的設備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領我們來到維克托所描述的更為廣闊的大數(shù)據(jù)世界。

移動和社交商務的便捷性使得企業(yè)的整個業(yè)務流程變得非常自動化,用戶可以享受自助服務,對應到企業(yè)端就意味著業(yè)務流程對前端的需求要反應得更為迅速,也意味著各個業(yè)務系統(tǒng)之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務體驗,但跨部門和跨應用的整合實屬不易。進一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務可以作為補充,這即是“跨企業(yè)邊界”的行為。這種行為必然導致大規(guī)模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎。沒有云計算,移動前端的體驗、大數(shù)據(jù)分析的效果都會大打折扣?!霸频幕A設施使大規(guī)模互動、大規(guī)模數(shù)據(jù)處理、大規(guī)模應用可以更好地服務我們?!泵律赋?。

環(huán)境變化加速,競爭更加激烈,要求企業(yè)的反應速度越來越快,應用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應用和業(yè)務流程的設計、開發(fā)、部署、測試、維護的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發(fā)和運維結合起來,生命周期變得以天為周期,才能響應新的商業(yè)環(huán)境?!?/p>

“移動、云計算、大數(shù)據(jù)、社交商務之間的緊密聯(lián)系讓我們應該以整體的眼光來審視它們?!焙乐覉孕?,它們的組合可以創(chuàng)造可持續(xù)的競爭優(yōu)勢,可以迸發(fā)變革的力量。

至于一個企業(yè)應該從哪里下手來實現(xiàn)這一幅宏偉藍圖?毛新生給出的答案是:“每一個企業(yè),因為它所處的行業(yè)或者特定的情況而擁有不同的切入點,有一些企業(yè)需要從移動開始,有一些企業(yè)需要從云計算開始,有一些企業(yè)需要從大數(shù)據(jù)開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略。”

例如,銀行、保險、零售業(yè)這一類和最終消費者打交道的服務業(yè)在很大概率上需要先從移動、社交商務入手,從而使其有機會改善和用戶交互的過程。而以數(shù)據(jù)為生的行業(yè)會琢磨如何將自己的內容和資源數(shù)據(jù)增值,而傳統(tǒng)的運營基礎設施的重資產(chǎn)企業(yè),會追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進行分析,以優(yōu)化資產(chǎn)的生命周期管理來預防性地降低維護成本,這些企業(yè)是以大數(shù)據(jù)作為切入點的。還有一些企業(yè)希望跨行業(yè)整合進行業(yè)務創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務模式和新業(yè)務模式的整合,這種情況下需要以云的方式構建新的應用、服務、商業(yè)流程。

毛新生認為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結合起來做進一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關聯(lián)推薦了。隨后,能不能跨界再實現(xiàn)更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎設施可以讓成本更合理。“所以說,到最后都是綜合性的應用,盡管起點不一樣”,毛新生說。

對技術人員而言,IT就是交付業(yè)務流程的基礎,是信息化的工具。它的目標無非是優(yōu)化業(yè)務流程或者創(chuàng)新業(yè)務流程。創(chuàng)新到達一定程度后,業(yè)務流程的量變會導致質變?!斑@就解釋了為何全球越來越多的CEO將技術視為驅動企業(yè)發(fā)展的首要因素?!?IBM軟件集團大中華區(qū)中間件集團總經(jīng)理李紅焰強調,技術人員有能力,也有責任將“看不見的技術轉變?yōu)榭吹靡姷南硎堋薄?/p>

移動開發(fā)的轉變

在大數(shù)據(jù)的帶領下我們進入移動時代,企業(yè)有了新機遇,技術人員卻有了新挑戰(zhàn)。為什么移動開發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術人員腦子里最主要的兩個問題。

IBM杰出工程師及IBM移動平臺首席架構師Greg Truty解答了這兩個疑問。他認為,很多企業(yè)現(xiàn)在所做的事情與在移動的狀態(tài)下做的事情是不一樣的,移動狀態(tài)下的任務和規(guī)劃更具有戰(zhàn)略性。移動應用是在不穩(wěn)定的網(wǎng)絡上運行的,所占用的資源更少。用戶在移動設備上和非移動設備上的體驗是完全不一樣的,他們會希望在不穩(wěn)定的網(wǎng)絡上仍然能夠獲得良好的體驗。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發(fā)的特性也不一樣了。比如對一個企業(yè)來說,移動開發(fā)周期更短,有更多設備需要支持,有更多開發(fā)方法可供選擇,也有更多的工具和庫可供選擇,這時候企業(yè)就需要仔細斟酌,哪些開發(fā)方法和工具是自己需要的。

自然而然,對于設備的管理也有了變化,因為應用變化了。“一直以來,客戶端服務器的應用架構是企業(yè)在使用的。你需要協(xié)調在服務器端的服務以及在客戶端的服務,挑戰(zhàn)非常大。你不可能強迫客戶運行你的應用,而必須能協(xié)調和兼容原有的系統(tǒng)。這是非常關鍵的一點?!?Greg Truty強調了設備管理的重要性。

篇(6)

1.1什么是大數(shù)據(jù)

大數(shù)據(jù)概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長速度快(Velocity),最后一個C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結構化數(shù)據(jù)要復雜的多(Complexity)。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計算框架將復雜的計算任務分配到“云”中成百上千的節(jié)點。

1.2大數(shù)據(jù)與云計算

大數(shù)據(jù)本身就是一個問題集,云計算技術是目前解決大數(shù)據(jù)問題集最重要最有效的手段。云計算提供了基礎的架構平臺,大數(shù)據(jù)應用在這個平臺上運行。目前公認為分析大數(shù)據(jù)集最有效手段的分布式處理技術,也是云計算思想的一種具體體現(xiàn)。

云計算是分布式處理、并行處理和網(wǎng)格計算的發(fā)展,或者說是這些計算機科學概念的商業(yè)實現(xiàn)。云計算將網(wǎng)絡上分布的計算、存儲、服務構件、網(wǎng)絡軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務, 實現(xiàn)了資源和計算的分布式共享和并行處理,能夠很好地應對當前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長的勢頭。

1.3大數(shù)據(jù)與Hadoop

Hadoop是一個Apache的開源項目,主要面向存儲和處理成百上千TB直至PB級別的結構化、半結構化或非結構化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問題分解成多個子問題,并將它們分配到成百上千個處理節(jié)點之上,再將結果匯集到一個小數(shù)據(jù)集當中,從而更容易分析得出最后的結果。

Hadoop項目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強的靈活性、允許用戶自己修改代碼等特點,同時能支持海量數(shù)據(jù)的存儲和計算任務。這些特點讓Hadoop被公認為是新一代的大數(shù)據(jù)處理平臺。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲、管理和分析數(shù)據(jù)方面遠遠超越傳統(tǒng)的數(shù)據(jù)庫軟件工具。Hadoop經(jīng)常在構建大數(shù)據(jù)解決方案時被用作基礎構架軟件。

二、大數(shù)據(jù)技術綜述

大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應用場景是需要實時分析和互動反饋的,這時候就需要利用包括內存檢索、流處理和實時計算等其他技術。而云計算的分布式存儲和計算架構開啟了大數(shù)據(jù)技術研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術結合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。

2.1分布式計算框架

MapReduce是Google開發(fā)的一種簡化的分布式編程模型和高效的任務調度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算,使云計算環(huán)境下的編程變得十分簡單。

MapReduce將數(shù)據(jù)處理任務抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會自動對任務進行劃分以做到并行執(zhí)行。

Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴展和容錯的特性,并隱藏了分布式相關的細節(jié),展現(xiàn)給人們的僅僅是一個表現(xiàn)力很強、很容易編程的大型圖算法處理的計算框架。Pregel的主要應用場景是大型的圖計算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關領域。

2.2分布式文件系統(tǒng)

為保證高可用、高可靠和經(jīng)濟性,基于云計算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲的方式來保存數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團隊開發(fā)的GFS的開源實現(xiàn)HDFS。

GFS即Google文件系統(tǒng),是一個可擴展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進行訪問的應用。GFS的設計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應用特性而設計的,運行成本低廉,并提供容錯功能。

HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯性,并且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數(shù)據(jù)集的應用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結構,在master上只運行一個Namenode,而在每一個slave上運行一個Datanode。HDFS支持傳統(tǒng)的層次文件組織結構,對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數(shù)據(jù)塊。

2.3大數(shù)據(jù)管理技術

互聯(lián)網(wǎng)數(shù)據(jù)已超出關系型數(shù)據(jù)庫的管理范疇,電子郵件、超文本、博客、標簽(Tag)以及圖片、音視頻等各種非結構化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結構化數(shù)據(jù)存儲的關系型數(shù)據(jù)庫已經(jīng)不能滿足數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,隨之而來,一系列新型的大數(shù)據(jù)管理技術和工具應運而生。

2.3.1 非關系型數(shù)據(jù)庫

NoSQL,也有人理解為Not Only SQL,它是一類非關系型數(shù)據(jù)庫的統(tǒng)稱。其特點是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴展。NoSQL并不是單純的反對關系型數(shù)據(jù)庫,而是針對其缺點的一種補充和擴展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結構化數(shù)據(jù),數(shù)據(jù)量可達PB級。而HBase是Hadoop團隊基于Bigtable的開源實現(xiàn),使用HDFS作為其文件存儲系統(tǒng)。同時,Cassandra(K/V型數(shù)據(jù)庫)、MongoDB(文檔數(shù)據(jù)庫)和Redis等一系列優(yōu)秀的非關系型數(shù)據(jù)庫產(chǎn)品如雨后春筍般問世。

2.3.2 數(shù)據(jù)查詢工具

Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉庫,其目標是簡化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負擔.它借鑒關系數(shù)據(jù)庫的模式管理、SQL接口等技術,把結構化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優(yōu)化的MapReduce任務執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。

PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺.兩者的區(qū)別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說Pig利用操作符來對Hadoop進行封裝,Hive利用SQL進行封裝。

Google Dremel是個可擴展的、交互式的即時查詢系統(tǒng),用于完成大規(guī)模查詢結構化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒有表索引。數(shù)據(jù)被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補充,被用于分析MapReduce的結果或者是作為大規(guī)模計算的測試。

2.4實時流處理技術

伴隨著互聯(lián)網(wǎng)業(yè)務發(fā)展的步調,以及業(yè)務流程的復雜化,企業(yè)的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時發(fā)生的數(shù)據(jù)流的架構,現(xiàn)有的分布式計算架構并不適合數(shù)據(jù)流處理。流計算強調的是數(shù)據(jù)流的形式和實時性。MapReduce系統(tǒng)主要解決的是對靜態(tài)數(shù)據(jù)的批量處理,當MapReduce任務啟動時,一般數(shù)據(jù)已經(jīng)到位了(比如保存到了分布式文件系統(tǒng)上),而流式計算系統(tǒng)在啟動時,一般數(shù)據(jù)并沒有完全到位,而是經(jīng)由外部數(shù)據(jù)源源不斷地流入,重視的是對數(shù)據(jù)處理的低延遲,希望進入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結果就越有價值,這也是實時處理的價值所在。

流計算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準備的時間,有數(shù)據(jù)流入就開始計算,解決了數(shù)據(jù)準備和延遲的兩個問題。現(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計算的場景。Storm是開源的分布式實時計算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進行實時計算,單機性能可達到百萬記錄每秒,開發(fā)語言為Clojure和Java,并具備容錯特性。S4是面向流式數(shù)據(jù)和實時處理的,所以針對實時性較高的業(yè)務,可以很好地對數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預,源源不斷的數(shù)據(jù)流會被自動路由并分析。對于海量數(shù)據(jù),它和MapReduce都可以應對,但它能比后者更快地處理數(shù)據(jù)。

三、思考與展望

以云計算為基礎的信息存儲、分享和挖掘手段為知識生產(chǎn)提供了工具,通過對大數(shù)據(jù)分析、預測會使得決策更為精準,這對媒體融合具有重要意義。

篇(7)

21世紀是信息化的時代,也是數(shù)據(jù)時代,隨著世界范圍內數(shù)據(jù)挖掘技術的不斷深入研究,大數(shù)據(jù)時代的到來給數(shù)據(jù)挖掘技術帶來了機遇的同時,也帶來了挑戰(zhàn)。面對浩瀚的數(shù)據(jù)庫海洋,如何在茫茫海洋中尋找針對特點人群有用的數(shù)據(jù)是數(shù)據(jù)挖掘技術在大數(shù)據(jù)時代背景下的意義。通過數(shù)據(jù)挖掘技術的充分應用分類技術,挖掘大數(shù)據(jù)時代中的數(shù)據(jù)刪選,同時通過大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘技術的應用技術探討了數(shù)據(jù)挖掘技術在大數(shù)據(jù)時代背景下的應用。

1 大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘的意義

在信息時代的背景下,數(shù)字化技術和信息化技術在各行各業(yè)的應用,隨著互聯(lián)網(wǎng)技術、信息技術、物聯(lián)網(wǎng)技術、云計算技術等數(shù)字信息技術的高速發(fā)展,結合當前高速發(fā)展的移動互聯(lián)網(wǎng)技術以及數(shù)字地球技術的發(fā)展與應用,全世界范圍內數(shù)據(jù)呈爆炸式增長,據(jù)統(tǒng)計2012年世界范圍內產(chǎn)生的數(shù)據(jù)總量約1.86萬億GB。國際互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計中心根據(jù)近十年來來的數(shù)據(jù)增長速度計算,2020年全球范圍內數(shù)據(jù)總量預計達到100萬億GB。信息化技術的發(fā)展給企業(yè)帶來的沖擊是巨大的,信息化技術徹底改變了傳統(tǒng)的社會信息傳輸方式,帶來全新的信息傳播途徑。對于社會來說,信息化是社會未來發(fā)展方向。信息化要求社會重視信息的形成、信息運用,社會用信息化的工具整合業(yè)務、共享信息構建企業(yè)“信息化網(wǎng)絡體系”才能使企業(yè)在當今信息爆炸,高效率的社會背景下,是企業(yè)高效運轉,才能綜合企業(yè)的人力、物力、財力和管理能力是企業(yè)的各種資源通過信息化網(wǎng)絡凝聚在一起,共同為企業(yè)的高效發(fā)展和全球化的進程的目標凝聚力量。企業(yè)信息化作為國民經(jīng)濟發(fā)展的重要組成部分,同時也是我國社會邁向信息化進程的重要前提。

企業(yè)信息化要求企業(yè)將大量的信息資源進行整合和電子化處理,從而提高信息的交互與傳輸效率,并希望藉此提高企業(yè)的生產(chǎn)經(jīng)營管理方式和管理效率,從而達到利用現(xiàn)代信息技術提高企業(yè)生產(chǎn)力、提高企業(yè)生產(chǎn)效率和利潤的根本目的。云計算作為現(xiàn)代信息化產(chǎn)業(yè)發(fā)展的新技術,給社會的信息化建設帶來了巨大的改變,降低了社會在信息化建設中的投入,隨著近年來云計算技術的不斷成熟,云計算構建的信息化平臺使社會的信息化、生產(chǎn)與辦公效率前所未有地提高毫無疑問,當前的信息時代的發(fā)展已經(jīng)達到了大數(shù)據(jù)時代的階段,大數(shù)據(jù)時代的來臨意味著人們在應用和利用數(shù)字信息技術時不得不花費更多的人力、物力、財力去篩選、存儲和利用龐大的數(shù)據(jù)庫。例如對于一個銀行系統(tǒng)來說,每天數(shù)以萬計的銀行和ATM終端都發(fā)生龐大的交易和數(shù)據(jù)交換,這些龐大的數(shù)據(jù)交換信息構成了龐大的數(shù)據(jù),如何在龐大的數(shù)據(jù)中篩選、分類和提取有價值的數(shù)據(jù)是數(shù)據(jù)挖掘技術在當前大數(shù)據(jù)時代存在的意義。

2 大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘技術的分類應用

數(shù)據(jù)挖掘技術在當代數(shù)據(jù)爆炸的現(xiàn)代社會的重要性越來越強,隨著社會信息化程度的不斷提升,數(shù)據(jù)挖掘技術也逐漸發(fā)展成為一門獨立的學科,數(shù)據(jù)挖掘技術為了滿足用戶在龐大的數(shù)據(jù)庫中篩選有用的數(shù)據(jù)的需要,通過分類技術對數(shù)據(jù)進行分類挖掘,是當前大數(shù)據(jù)時代背景下大數(shù)據(jù)技術應用最為廣泛的手段之一。

通過數(shù)據(jù)庫類型分類技術是數(shù)據(jù)挖掘技術在大數(shù)據(jù)時代的應用之一。數(shù)據(jù)庫的自動存儲系統(tǒng)在數(shù)據(jù)存儲過程中按照數(shù)據(jù)的類型、場景進行基礎分類,數(shù)據(jù)挖掘技術在數(shù)據(jù)存儲的基礎分類的基礎上進行數(shù)據(jù)庫類型細分,通過數(shù)據(jù)模型的導入和數(shù)據(jù)類型包括關系型、對象型、時間型、空間型的分類進行數(shù)據(jù)挖掘的分類。其次通過數(shù)據(jù)知識類型分類技術是數(shù)據(jù)挖掘的重要分類方法之一。知識類型分類包括知識相關性、知識預測型和樣本偏離分析法等知識類型分類方法。數(shù)據(jù)的抽象性和數(shù)據(jù)的粒度是數(shù)據(jù)知識類型分類的層次之一。通過挖掘數(shù)據(jù)分類中的抽象層和價值層找出數(shù)據(jù)的模式和規(guī)則性。數(shù)據(jù)的規(guī)則性通過不同的方法挖掘,通過數(shù)據(jù)概念的描述和數(shù)據(jù)預測等方法實現(xiàn)大數(shù)據(jù)精細化分類。

3 大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘的應用技術

大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘技術的應用技術主要包括神經(jīng)網(wǎng)絡算法、數(shù)據(jù)遺傳、數(shù)據(jù)決策樹、數(shù)據(jù)粗糙集等算法。數(shù)據(jù)神經(jīng)算法通過對龐大的數(shù)據(jù)庫進行分類,對符合優(yōu)先條件的有用數(shù)據(jù)進行分類,能夠在規(guī)模龐大的數(shù)據(jù)中迅速定位和精選有用數(shù)據(jù)。例如網(wǎng)絡構架的基礎傳輸通道光纜發(fā)生故障時,通過神經(jīng)網(wǎng)絡算法能夠及時診斷網(wǎng)絡中的損壞數(shù)據(jù)點,能夠迅速定位故障點,并排除。神經(jīng)網(wǎng)絡算法針對網(wǎng)狀結構的數(shù)據(jù)庫利用效率較高。遺傳數(shù)據(jù)挖掘技術是仿生學和遺傳學中發(fā)展而來的數(shù)據(jù)算法。遺傳數(shù)據(jù)挖掘技術針對全局數(shù)據(jù)進行優(yōu)化計算,能夠較好的兼容性和隱含并行性,因此在數(shù)據(jù)挖掘中與其它算法進行聯(lián)合應用范圍較廣,應用較為普遍。決策樹算法是在對模型的預測中,該算法具有很強的優(yōu)勢,利用該算法對龐大的數(shù)據(jù)信息進行分類,從而對有潛在價值的信息進行定位,這種算法的優(yōu)勢也比較明顯,在利用這種算法對數(shù)據(jù)進行分類時非常迅速,同時描述起來也很簡潔,在大規(guī)模數(shù)據(jù)處理時,這種方法的應用性很強。粗糙集算法是大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘技術應用的典范,粗糙集算法通過數(shù)據(jù)劃分將模糊知識和精確知識進行合并分析,并最終獲得有效數(shù)據(jù),應用范圍十分廣泛,應用效果較好。

4 結論

總之,在大數(shù)據(jù)時代背景下,數(shù)據(jù)挖掘技術是人們面對浩瀚的數(shù)據(jù)庫所必備的技能,也是提高數(shù)據(jù)利用的有效方式數(shù)據(jù)挖掘技術在大數(shù)據(jù)時代背景下面臨著挑戰(zhàn)也面臨著機遇。

參考文獻

[1]劉華婷,郭仁祥,姜浩.關聯(lián)規(guī)則挖掘Apriori算法的研究與改進[J].計算機應用與軟件,2009(1):146-149.

[2]丁守哲.基于云計算的建筑設計行業(yè)信息系統(tǒng)開發(fā)模式與實現(xiàn)技術研究[D].合肥:合肥工業(yè)大學,2012:16-17.

[3]陳明奇,姜禾,張娟等.大數(shù)據(jù)時代的美國信息網(wǎng)絡安全新戰(zhàn)略分析[J].信息網(wǎng)絡安全,2012,(08):32-35.

[4]王珊,王會舉,覃雄派等.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011,34(10):1741-1752.

作者簡介

篇(8)

1.大數(shù)據(jù)技術現(xiàn)狀

當前許多企業(yè)都已基本實現(xiàn)了信息化建設,企業(yè)積累了海量數(shù)據(jù)。同時企業(yè)間的競爭日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準確、快速和個性化地為客戶提品及服務。而大數(shù)據(jù)技術能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無法獲知的價值和模式,幫助企業(yè)更加迅速、科學、準確地進行決策和預測。

1.1大數(shù)據(jù)技術現(xiàn)狀

廣大企業(yè)的迫切需求反之也促進了大數(shù)據(jù)技術的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實用的架構平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構支持大規(guī)模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數(shù)據(jù)處理。通過使用專門為分布式計算設計的文件系統(tǒng)HDFS,計算的時候只需要將計算代碼推送到存儲節(jié)點上,即可在存儲節(jié)點上完成數(shù)據(jù)本地化計算。因此,Hadoop實現(xiàn)了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數(shù)據(jù)處理。

1.2大數(shù)據(jù)技術對煙草數(shù)據(jù)中心建設的影響

當前,煙草企業(yè)基于多年的信息化建設已經(jīng)積累了海量數(shù)據(jù),同時每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數(shù)據(jù)技術。同時,除了購進單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結構化數(shù)據(jù)外,還產(chǎn)生越來越多的非結構化數(shù)據(jù),利用大數(shù)據(jù)技術,對非結構化數(shù)據(jù)進行預處理,可為人工判斷和機器學縮減范圍。對海量數(shù)據(jù)以及非結構化的信息進行分析統(tǒng)計,僅僅依靠傳統(tǒng)的技術手段很難實現(xiàn),只有引入大數(shù)據(jù)技術才能充分的將所有的數(shù)據(jù)資源利用起來,成為企業(yè)決策的助力。

2.江蘇煙草數(shù)據(jù)中心應用現(xiàn)狀

2.1江蘇煙草數(shù)據(jù)中心體系架構

目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個部分為核心,構建了一套完整的數(shù)據(jù)中心架構。一體化數(shù)據(jù)中心是整個數(shù)據(jù)中心最核心的部分。通過數(shù)據(jù)倉庫模型、數(shù)據(jù)存儲、ETL工具等組成部分,構建了業(yè)務數(shù)據(jù)的收集、加工、存儲、分發(fā)的總體架構。建立了按ODS(SODS、UODS)、DW、DM三層結構設計建設的數(shù)據(jù)倉庫。一體化數(shù)據(jù)管理通過主數(shù)據(jù)管理、信息代碼管理、ESB平臺構建了企業(yè)主數(shù)據(jù)收集、標準化、同步分發(fā)過程。結合指標管理,全面管控企業(yè)的公用基礎信息。通過數(shù)據(jù)質量管理,全面有效管控數(shù)據(jù)質量。通過數(shù)據(jù)服務管理,有效提升數(shù)據(jù)中心的對外服務能力與水平。通過元數(shù)據(jù)管理來管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過構建移動信息、業(yè)務分析、數(shù)據(jù)挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術、平臺優(yōu)勢。通過移動信息模塊為各級領導提供決策支持;通過業(yè)務分析模塊為業(yè)務人員的日常工作提供支撐;通過數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊含的隱性價值?;谏鲜鲆徽准軜嫷闹?,目前數(shù)據(jù)中心構建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎數(shù)據(jù)、業(yè)務數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質量,另一方面為在建業(yè)務系統(tǒng)的實施、已有系統(tǒng)的改造提供了標準化的高質量數(shù)據(jù)保障。

2.2大數(shù)據(jù)技術的應用場景分析

隨著江蘇數(shù)據(jù)中心的不斷運行,一些基于傳統(tǒng)技術架構的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數(shù)據(jù)量數(shù)據(jù)的查詢需求?;趥鹘y(tǒng)技術架構的查詢功能響應較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計分析應用的數(shù)據(jù)結構大多是預先定義好的,面對靈活的非傳統(tǒng)的統(tǒng)計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數(shù)據(jù)中心結合互聯(lián)網(wǎng)大數(shù)據(jù)技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺,以補充基于傳統(tǒng)技術架構的功能不足,并為未來進一步發(fā)展建設基于大數(shù)據(jù)技術和云環(huán)境的數(shù)據(jù)中心做好準備。

3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺實現(xiàn)

3.1設計思路及架構

基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺是在現(xiàn)有數(shù)據(jù)中心的建設成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲為基礎,以Hadoop、Hive、Impala等大數(shù)據(jù)技術工具為手段,以簡單靈活、快速高效的查詢展現(xiàn)為目標,建立的數(shù)據(jù)查詢分析支持平臺。

3.2技術方案

自定義數(shù)據(jù)查詢平臺的建設主要涉及數(shù)據(jù)存儲架構、后臺數(shù)據(jù)加工準備、前端展現(xiàn)三塊內容。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數(shù)據(jù)存儲,另一部分則是查詢所需的各種統(tǒng)計數(shù)據(jù)的存儲。元數(shù)據(jù)的存儲根據(jù)元數(shù)據(jù)庫的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫的元數(shù)據(jù)存儲。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權限、數(shù)據(jù)源、表、列和表列關系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計數(shù)據(jù)的存儲則是使用Hadoop的HDFS實現(xiàn)的。根據(jù)Hadoop平臺架構,自定義數(shù)據(jù)查詢平臺的HDFS建立在6臺虛擬主機構建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節(jié)點,另一臺為備份節(jié)點;其余4臺虛擬主機都作為DataNode用于存儲數(shù)據(jù)。所有數(shù)據(jù)將會統(tǒng)一分塊自動分配存儲到4個DataNode上。自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)加工,是通過開源ETL工具KETTLE實現(xiàn)的。通過KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉庫及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺的數(shù)據(jù)模型定義對數(shù)據(jù)進行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺的前端展現(xiàn)功能,主要是基于JSP技術實現(xiàn)頁面開發(fā),通過JDBC或者ODBC對后臺Mysql數(shù)據(jù)庫進行訪問。使用者在查詢頁面中組織定義查詢的內容,查詢服務自動根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內容拼接轉換成為查詢SQL,之后通過Impala執(zhí)行查詢SQL對HDFS文件系統(tǒng)中的統(tǒng)計數(shù)據(jù)進行查詢。

3.3系統(tǒng)實現(xiàn)效果

利用大數(shù)據(jù)技術,自定義數(shù)據(jù)查詢平臺較好地解決了目前數(shù)據(jù)中心所面對的問題,滿足了使用人員對于大數(shù)據(jù)量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺通過預先梳理、分類定義各種維度以及統(tǒng)計指標。使用者可以自由的根據(jù)實際需求選擇分析所需的維度及統(tǒng)計指標,同時還可以基于這些基礎的內容更進一步自定義過濾條件以及計算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺相比傳統(tǒng)架構的查詢功能有了較大提升。

4.結束語

大數(shù)據(jù)技術的發(fā)展方興未艾,應用前景無比廣闊,對各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設既要看到大數(shù)據(jù)技術未來的前景,更需要明確地認識到大數(shù)據(jù)平臺的建設并非一朝一夕,需要有明確而長遠的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設、云計算環(huán)境的構建以及數(shù)據(jù)服務的擴展。

參考文獻

[1]陳鵬.大數(shù)據(jù)時代下的信息安全問題研究[J].電子制,2015,18:48

篇(9)

一、大數(shù)據(jù)

1.大數(shù)據(jù)產(chǎn)生的背景

大數(shù)據(jù)(Big Data),也稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的資訊,通常被認為是PB或EB或更高數(shù)量級的數(shù)據(jù)。

互聯(lián)網(wǎng)絡從上世紀90年代開始,發(fā)展迅速,加快了信息傳播和共享的速度,尤其是一些社交網(wǎng)站的興起,數(shù)據(jù)量更是以前所未有的速度暴增,文字資料、聲音、視頻、圖像等多媒體數(shù)據(jù)鋪天蓋地。據(jù)資料顯示,上世紀90年代,互聯(lián)網(wǎng)資源不是很豐富的時代,網(wǎng)民月平均流量1MB左右,之后則快速增長,2000年后,逐漸發(fā)展為每月10MB、100MB、1GB,據(jù)估計2014年可能會達到10GB。淘寶網(wǎng)每日幾千萬筆交易,單日數(shù)據(jù)量達幾十TB,數(shù)據(jù)存儲量幾十PB,百度公司目前數(shù)據(jù)總量接近1000PB,存儲網(wǎng)頁數(shù)量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數(shù)據(jù)。

隨著技術發(fā)展,大數(shù)據(jù)廣泛存在,如企業(yè)數(shù)據(jù)、統(tǒng)計數(shù)據(jù)、科學數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、移動數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等等??傊?,大數(shù)據(jù)存在于各行各業(yè),一個大數(shù)據(jù)的時代已經(jīng)到來。

2.大數(shù)據(jù)時代的挑戰(zhàn)

大數(shù)據(jù)特點是容量在增長、種類在增長、速度也在增長,面臨如此龐大的數(shù)據(jù)量,數(shù)據(jù)的存儲和檢索面臨著巨大挑戰(zhàn)。比如2007年時,F(xiàn)acebook使用數(shù)據(jù)倉庫存儲15個TB的數(shù)據(jù),但到了2010年,每天壓縮過的數(shù)據(jù)比過去總和還多,那時商業(yè)并行數(shù)據(jù)庫很少有超過100個節(jié)點以上的,而現(xiàn)在雅虎的Hadoop集群超過4000個節(jié)點,F(xiàn)acebook倉庫節(jié)點超過2700個。大量的數(shù)據(jù)現(xiàn)在已經(jīng)開始影響我們整個的工作、生活、甚至經(jīng)濟,如何存儲和高效利用這些數(shù)據(jù)是需要我們解決的。

二、關系數(shù)據(jù)庫

1.關系數(shù)據(jù)庫概述

關系型數(shù)據(jù)庫是支持關系模型的數(shù)據(jù)庫系統(tǒng),他是目前各類數(shù)據(jù)庫中最重要,也是使用最廣泛的數(shù)據(jù)庫系統(tǒng)。關系型數(shù)據(jù)庫從上世紀70年代誕生到現(xiàn)在經(jīng)過幾十年的發(fā)展,已經(jīng)非常成熟,目前市場上主流的數(shù)據(jù)庫都為關系型數(shù)據(jù)庫,比較知名的有Oracle數(shù)據(jù)庫、DB2、Sybase、SQL Server等等。

2.關系數(shù)據(jù)庫優(yōu)勢

關系數(shù)據(jù)庫相比其他模型的數(shù)據(jù)庫而言,有著以下優(yōu)點:

模型容易理解:關系模型中的二維表結構非常貼近邏輯世界,相對于網(wǎng)狀、層次等其他模型來說更容易理解。

使用方便:通用的SQL語言使得操作關系型數(shù)據(jù)庫非常方便,只需使用SQL語言在邏輯層面操作數(shù)據(jù)庫,而完全不必理解其底層實現(xiàn)。

易于維護:豐富的完整性大大降低了數(shù)據(jù)冗余和數(shù)據(jù)不一致的概率。

3.關系數(shù)據(jù)庫存在問題

傳統(tǒng)的關系數(shù)據(jù)庫具有不錯的性能,穩(wěn)定性高,歷經(jīng)多年發(fā)展已日臻成熟,而且使用簡單,功能強大,也積累了大量的成功案例。上世紀90年代的互聯(lián)網(wǎng)領域,網(wǎng)站基本都是靜態(tài)網(wǎng)頁,主要以文字為主,訪問量也不大,當時用單個數(shù)據(jù)庫完全可以應對??山鼛啄?,動態(tài)網(wǎng)站隨處可見,各種論壇、博克、微博異常火爆,在大幅度提升交流方式的同時,用戶數(shù)據(jù)量迅速增長,處理事務性的數(shù)據(jù)關系數(shù)據(jù)庫得心應手,可面對互聯(lián)網(wǎng)的高并發(fā)、大數(shù)據(jù)量關系數(shù)據(jù)庫顯得力不從心,暴露了很多難以克服的問題:

數(shù)據(jù)庫高并發(fā)讀寫:高并發(fā)的動態(tài)網(wǎng)站數(shù)據(jù)庫并發(fā)負載非常高,往往要達到每秒上萬次甚至百萬次、千萬次的讀寫請求。關系數(shù)據(jù)庫應付上萬次SQL查詢沒問題,但是應付上百萬、千萬次SQL數(shù)據(jù)請求,硬盤IO就已經(jīng)無法承受了。

海量數(shù)據(jù)的高效率訪問:一般大型數(shù)據(jù)庫在百萬級的數(shù)據(jù)庫表中檢索數(shù)據(jù)可達到秒級,但面對數(shù)億條記錄的數(shù)據(jù)庫表,檢索速度效率是極其低下,難以忍受的。

數(shù)據(jù)庫可擴展性和高可用性:基于web的架構當中,數(shù)據(jù)庫無法通過添加更多的硬件和服務節(jié)點來擴展性能和負載能力,對于很多需要提供24小時不間斷服務的網(wǎng)站來說,數(shù)據(jù)庫系統(tǒng)升級和擴展卻只能通過停機來實現(xiàn),這無疑是一個艱難的決定。

三、NOSQL數(shù)據(jù)庫

1.NOSQL數(shù)據(jù)庫理論基礎

NOSQL作為新興數(shù)據(jù)庫系統(tǒng)概念,由于其具備處理海量數(shù)據(jù)的能力,近年來受到各大IT公司的追捧。Amazon、Google等大型網(wǎng)商已紛紛斥資進行研究并開發(fā)了適用的產(chǎn)品。談及NOSQL數(shù)據(jù)庫,首先應該了解支持NOSQL的理論:CAP理論、BASE思想和最終一致性。

(1)CAP理論

CAP理論由Eric Brewer在ACM PODC會議上的主題報告中提出,這個理論是NOSQL數(shù)據(jù)管理系統(tǒng)構建的基礎,CAP解釋為一致性(Consistency)、可用性(Availability)以及分區(qū)容忍性(Partition Tolerance)。具體描述如下:

強一致性(Consistency):系統(tǒng)在執(zhí)行過某項操作后仍然處于一致的狀態(tài)。在分布式數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)變更后所有的用戶都應該讀取到最新的值,這樣的系統(tǒng)被認為具有強一致性。

可用性(Availability):每一個操作都能夠在一定的時間內返回結果。“一定時間內”是指系統(tǒng)的結果必須在給定時間內返回,如果超時則被認為不可用,“返回結果”同樣非常重要,必須能提供成功或失敗的信息。

分區(qū)容錯性(Partition Tolerance):分區(qū)容錯性可以理解為系統(tǒng)在存在網(wǎng)絡分區(qū)的情況下仍然可以接受請求。

CAP是在分布式環(huán)境中設計和部署系統(tǒng)時所要考慮的三個重要的系統(tǒng)需求。根據(jù)CAP理論,數(shù)據(jù)共享系統(tǒng)只能滿足這三個特性中的兩個,不能同時滿足三個條件。因此系統(tǒng)設計者必須在這三個特性之間做出權衡。例如Amazon的Dynamo具有高可用性和分區(qū)容錯性但不支持強一致性,也就是說用戶不能立即看到其他用戶更新的內容。

(2)BASE思想

BASE(Basically Availble),基本可用,強調數(shù)據(jù)庫的最終一致(Eventually consistent最終一致,最終數(shù)據(jù)一致就可以,而不是時時高一致),不同于傳統(tǒng)關系數(shù)據(jù)庫基于的ACID模型。

ACID特性與高性能是不兼容的。比如,在網(wǎng)店買東西,每個客戶買東西時都會通過鎖來同步數(shù)據(jù)操作,操作完成每個客戶都可以看到一致的數(shù)據(jù)。也就是說,不允許多個客戶同時買的情況。很明顯對于大多數(shù)網(wǎng)上商城,尤其是大型網(wǎng)商來說,這個方法并不適用。

BASE思想實際上是CAP理論中AP的衍伸。通過犧牲高一致性,保證高可用性和分區(qū)容忍性。BASE思想的組成有以下3個部分:基本可用、軟狀態(tài)、最終一致性。BASE模式指的是一個應用在任意時間首先應該能完成最基本化的工作(即基本可用),并不需要總是一致(即軟狀態(tài)),但最終應該是一致(即最終一致性)的。

(3)最終一致性

數(shù)據(jù)一致性可分別從使用者和提供者角度看:從使用者的角度,如何觀察數(shù)據(jù)更新;從提供者的角度,也就是服務器端,更新如何在系統(tǒng)中實現(xiàn)。

一致性可分為強一致性和弱一致性兩種:強一致性要求更新過的數(shù)據(jù)能被后續(xù)的訪問都看到,根據(jù)CAP理論,強一致性無法和可用性、分區(qū)容忍性同時實現(xiàn);弱一致性,指讀取操作能夠見到變化的數(shù)據(jù),但不是所有變化的數(shù)據(jù)。

最終一致性屬于弱一致性的一種,即存儲系統(tǒng)保證如果沒有新的更新提交,最終所有的訪問都將獲得最后的更新。如果沒有故障發(fā)生,不一致性取決于通信時延、系統(tǒng)負載以及復制策略中涉及的副本數(shù)。

2.NOSQL數(shù)據(jù)庫產(chǎn)品

NOSQL(Not Only SQL)數(shù)據(jù)庫是指那些非關系型的數(shù)據(jù)庫。NOSQL數(shù)據(jù)庫分為Key-Value、Key-Document和Key-Column這3類。典型的NOSQL產(chǎn)品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。

NOSQL數(shù)據(jù)庫遵循CAP理論和BASE原則,大部分Key-Value數(shù)據(jù)庫系統(tǒng)都會根據(jù)自己的設計目的進行相應的選擇,如Cassandra、Dynamo滿足AP,BigTable、MongoDB滿足CP。

四、結束語

本文首先介紹了大數(shù)據(jù)概念,分析了關系數(shù)據(jù)庫在存儲大數(shù)據(jù)量方面的不足,并介紹了當前NOSQL數(shù)據(jù)庫的基本理論和當前產(chǎn)品分類。大數(shù)據(jù)時代的來臨,我們忙于如何存儲和處理這些數(shù)據(jù),但隨著計算機互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡的快速發(fā)展,數(shù)據(jù)量會持續(xù)大幅增長,如何長期保存這些數(shù)據(jù)以及如何處理更大級別的數(shù)據(jù)量,都需要我們思考并解決。

參考文獻

[1]王珊,王會舉,覃雄派等.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011(34).

[2]黃賢立.NOSQL非關系型數(shù)據(jù)庫的發(fā)展及應用初探[J].福建電腦,2010(7):30.

篇(10)

1.圖書館的大數(shù)據(jù)應用特征

大數(shù)據(jù)是一場革命,將改變人們的生活、工作和思維方式。大數(shù)據(jù)至今并無統(tǒng)一定義,通常以“4v”特征或對大數(shù)據(jù)進行描述性解釋:規(guī)模(Volume)指數(shù)據(jù)的數(shù)量規(guī)模大;類型(Variety)指數(shù)據(jù)類型多樣復雜,混合結構化與非結構化多種類型;實時(Velocity)一方面是數(shù)據(jù)增長速度快,另一方面要求在合理的時間內處理數(shù)據(jù);價值(Value)反映了大數(shù)據(jù)隱含著價值轉化。大數(shù)據(jù)發(fā)展的最終目標是分析挖掘數(shù)據(jù)的價值,其重點在于數(shù)據(jù)的分析和應用,“大”不過是信息技術不斷發(fā)展所產(chǎn)生的海量數(shù)據(jù)的表象而己。

社會進步和信息技術不斷改變著圖書館的服務內容與模式,網(wǎng)絡環(huán)境下要求將這些信息資源組合成整體并延伸至更大的范圍。隨著數(shù)字圖書館的興起,圖書館數(shù)字化文獻信息、數(shù)據(jù)庫的數(shù)量種類不斷增加,各地市級圖書館都已具有海量信息規(guī)模,比如上海圖書館提供的數(shù)據(jù)庫已多達400余個。這些數(shù)據(jù)包括類型多樣的文本、圖片、音頻與視頻各類非結構化數(shù)據(jù),滿足大數(shù)據(jù)的基本特征。然而,這些數(shù)據(jù)資源價值遠未得到有效體現(xiàn)與利用。一個重要的原因是缺乏有效的數(shù)據(jù)挖掘技術方法。通過人工從大量結構繁雜的數(shù)據(jù)中發(fā)現(xiàn)價值,是難以實現(xiàn)的。隨著大數(shù)據(jù)技術的發(fā)展與應用,必然要求圖書館重點利用數(shù)據(jù)挖掘技術從大量的信息中發(fā)掘數(shù)據(jù)價值,以此推出知識化產(chǎn)品化的服務應用。同時,通過大數(shù)據(jù)處理分析對信息資源進行深度、動態(tài)、廣泛的知識挖掘,便于揭示信息內容中各個要素及其相互之間的聯(lián)系,促進信息交流,實現(xiàn)信息資源共享,提高文獻信息的利用效率,從而實現(xiàn)圖書館信息增值服務并提高信息服務的競爭力。因此,探索數(shù)據(jù)挖掘方法技術提高圖書館的服務水平是亟須思考和解決的問題。

2.大數(shù)據(jù)時代圖書館數(shù)據(jù)挖掘面臨的挑戰(zhàn)

大數(shù)據(jù)時代的到來,極大地促進了數(shù)據(jù)科學的興起。數(shù)據(jù)科學包括用科學的方法研究數(shù)據(jù)與用數(shù)據(jù)的方法研究科學,后者主要的實現(xiàn)方式就是數(shù)據(jù)挖掘方法與技術。數(shù)據(jù)挖掘是指從數(shù)據(jù)源中發(fā)現(xiàn)知識的過程。實現(xiàn)數(shù)據(jù)價值的關鍵環(huán)節(jié)在于數(shù)據(jù)的挖掘方法技術。所以,如何充分有效地利用數(shù)據(jù)挖掘方法對圖書館大數(shù)據(jù)進行開發(fā)處理,是開展圖書館知識服務的重要研究方向,也是服務創(chuàng)新的關鍵途徑與支撐服務技術。大數(shù)據(jù)時代圖書館的數(shù)據(jù)數(shù)量大、類型多,對數(shù)據(jù)挖掘提出新的需求與挑戰(zhàn),主要有以下方面。

2.1大規(guī)模數(shù)據(jù)量

數(shù)字館藏數(shù)據(jù)規(guī)模與數(shù)據(jù)類型在不斷增長,對于數(shù)據(jù)挖掘算法的能力要求也在不斷提高。傳統(tǒng)對于大規(guī)模數(shù)據(jù)的分析一般采用隨機取樣,以較少數(shù)據(jù)獲得最多的信息,其準確性會隨著隨機性增加而提高。這是在計算機性能較低特別是無法收集全部數(shù)據(jù)的情況下的選擇。然而,大數(shù)據(jù)環(huán)境數(shù)據(jù)價值隱匿于海量數(shù)據(jù)中,單靠取樣是無法捕捉到這些細節(jié)的,需要采用全集數(shù)據(jù)進行處理分析。如此大量的數(shù)據(jù)分析僅靠單機是無法完成的,分析挖掘模型必然要借助分布式計算框架,比如,Map Reduce或者當前流行的Spark,將分析模型遷移至集群計算環(huán)境。大數(shù)據(jù)應用具有實時性,如智能推薦、文獻關聯(lián)等,需要在合理的時間完成分析過程,采用集群計算環(huán)境也是提高計算效率的選擇。另外,數(shù)據(jù)量增加的同時,噪音數(shù)據(jù)也會增加。因此,在數(shù)據(jù)分析之前必須進行數(shù)據(jù)清洗等預處理工作。

2.2數(shù)據(jù)的高維特征

圖書館數(shù)據(jù)的多樣性能夠提供更多維度的客觀對象描述屬性。數(shù)據(jù)從過去的一維、多維逐漸發(fā)展為巨量維度。雖然能夠建立豐富的多維數(shù)據(jù)模型與方法,但在構建的大數(shù)據(jù)特征空間中,往往會超出傳統(tǒng)方法的處理能力??梢钥紤]引入維度規(guī)約技術,比如主成分分析、奇異值分解來降低數(shù)據(jù)維度。同時,數(shù)據(jù)屬性可能過于稀疏,也會極大影響數(shù)據(jù)模型的有效性。

2.3數(shù)據(jù)關系廣泛

圖書館服務應用過程中的信息、用戶對象之間存在多種行為與內容關聯(lián),從而組成多關系網(wǎng)絡。大數(shù)據(jù)的多源性、多樣性正是構建這種復雜關系的基礎。比如,用戶的查詢詞、借閱記錄、瀏覽記錄、圖書館文獻信息內容之間形成的多關系網(wǎng)絡。特別是社交網(wǎng)絡數(shù)據(jù)的應用,更使其趨于多元化。許多圖書館實踐中,比如基于用戶的信息推薦就是利用這種關系作為分析依據(jù)。過多關系的簡單鏈接應用,反而會削弱關鍵特征的作用和導致語義缺失。如何廣泛利用大數(shù)據(jù)提供的各類數(shù)據(jù)類型與數(shù)據(jù)關系,成為實際應用中的一個重點。實際中,需要重視運用關系選擇、組合及判斷函數(shù),提高分析的正確性有效性。

2.4數(shù)據(jù)保護要求不斷增長

數(shù)據(jù)是圖書館信息服務的核心和基礎,數(shù)據(jù)的安全性就顯得尤為重要。用戶在享受精準個性化推薦帶來的便捷的同時,也在深深擔心個人隱私安全問題。一些敏感信息以明文存儲也會有安全風險。這些會導致數(shù)據(jù)挖掘方或者任何可以接近數(shù)據(jù)集的人,能夠辨別特定的用戶個體或內容信息,存在利益侵犯的可能性。數(shù)據(jù)挖掘在發(fā)現(xiàn)數(shù)據(jù)價值的同時,也對隱私安全和數(shù)據(jù)安全帶來了威脅。這就需利用數(shù)據(jù)修改、數(shù)據(jù)模糊、數(shù)據(jù)加密、加密檢索等隱私保護技術提高數(shù)據(jù)的安全性和可控性。

2.5自然語言理解程度較低

當前,在信息檢索、自動摘要等常見的數(shù)據(jù)挖掘任務中,仍無法有效識別同義詞、近義詞以及詞語間的語義關聯(lián),特別是一些短文本處理中,無法有效識別詞語語義,造成處理效果不理想。雖然一些圖書館建設了知識庫,但僅限于研究層面,距離實用在規(guī)模上有相當差距,在應用方法上也沒有大的突破。同時,圖書館存在大量圖片、音頻、視頻數(shù)據(jù),這些數(shù)據(jù)的加工處理也沒有引入有效的自動圖像、音頻識別技術,圖書館難以基于數(shù)據(jù)挖掘提供全方位的信息服務。

3.大數(shù)據(jù)時代圖書館數(shù)據(jù)挖掘的關鍵技術方法

3.1數(shù)據(jù)存儲

圖書館數(shù)據(jù)類型眾多,需要引入非結構化數(shù)據(jù)存儲技術。比如典型的HDFS,No SOL(Not Only SOL),已廣泛用于非結構化數(shù)據(jù)的分布式存儲。傳統(tǒng)關系型數(shù)據(jù)庫適合結構化數(shù)據(jù)存儲。需要注意的是,要區(qū)分結構化與非結構化數(shù)據(jù),針對數(shù)據(jù)特點使用相應的存儲技術。在實際中,難以使用一種數(shù)據(jù)存儲方式存儲管理所有的數(shù)據(jù),即使谷歌也是將結構化數(shù)據(jù)存儲在關系型數(shù)據(jù)庫中。同時,需要運用高效存儲技術,比如數(shù)據(jù)壓縮、自動精簡配置、自動分層存儲、存儲虛擬化等解決或緩解數(shù)據(jù)量過大、存儲利用率、存儲效率低等難題。

3.2數(shù)據(jù)集成

目前,相當數(shù)量圖書館的一個重要問題是數(shù)據(jù)資源分散化、碎片化,數(shù)據(jù)存儲在不能相互訪問的數(shù)據(jù)庫與系統(tǒng)中,形成數(shù)據(jù)孤島。孤立的數(shù)據(jù)是難以發(fā)揮出數(shù)據(jù)價值的,如何連接這些數(shù)據(jù),實現(xiàn)資源交互共享,是數(shù)據(jù)價值最大化的關鍵。數(shù)據(jù)集成將不同來源、格式、特點性質的數(shù)據(jù)在邏輯上或物理上有機地集中,經(jīng)過關聯(lián)和聚合之后采用統(tǒng)一定義的標準來存儲數(shù)據(jù),從而應對大數(shù)據(jù)數(shù)量眾多、類型廣泛等問題給數(shù)據(jù)管理服務所帶來的挑戰(zhàn)。數(shù)據(jù)的集成連接涉及異構數(shù)據(jù)的統(tǒng)一語義描述、多維特征關聯(lián)。同時,要保證數(shù)據(jù)質量,需要對數(shù)據(jù)進行清洗。但清洗的粒度過細,容易過濾有效數(shù)據(jù);反之,無法達清洗效果。所以,在質與量之間需要做出一定權衡。

3.3數(shù)據(jù)處理加工

語義處理技術能夠為深層的數(shù)據(jù)分析提供支持,提高各種數(shù)據(jù)挖掘算法的語義化程度與性能,提高機器可理解數(shù)據(jù)的能力。語義知識庫是語義處理的基礎支撐,典型的知識庫有WordNet、中文知網(wǎng),但其構建存在人工成本高、更新慢的問題。實踐中,可以從維基百科、互動百科等結構化程度較高的海量數(shù)據(jù)中抽取詞語關系,以低成本方式自動構建語義知識庫獲取語義知識,也可以利用大規(guī)模語料構建概念詞語矩陣或利用Word2 Vector工具,提高數(shù)據(jù)挖掘的語義化處理程度。圖書館需要采用圖像、音視頻內容檢索技術,提高多媒體數(shù)據(jù)的處理能力。比如利用語音識別技術,將音頻數(shù)據(jù)處理為文本并記錄聲音信號在音頻中的時間位置,以此提高用戶獲取音頻數(shù)據(jù)的快速性與準確性。通過語義標注從圖書館數(shù)據(jù)中識別概念本體,實現(xiàn)信息之間的關聯(lián),形成知識網(wǎng)絡,為個性化、語義化服務應用提供支撐,進而可通過分類、聚類等數(shù)據(jù)挖掘加工處理從多維度滿足用戶的信息需求。另外,可借助微博、微信等社會化網(wǎng)絡提供的API接口,獲得更廣泛的用戶數(shù)據(jù),展開用戶需求與圖書館信息之間的深層處理分析,利用APP等多種方式為圖書館與用戶之間搭建有效的服務橋梁。

3.4數(shù)據(jù)可視化

上一篇: 民航法律論文 相關精選
相關期刊