時間:2022-09-19 12:49:44
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)探討論文范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。
[2] (美)MICHAEL MILLER云計算(史美林?譯)[M].北京:機械工業(yè)出版社,2009年4月.
[3] 王鵬.云計算的關(guān)鍵技術(shù)與應(yīng)用實例[M].北京:人民郵電出版社,2009年12月.
[4] Luiz AndréBarroso, Jeffrey Dean, Urs H-lzle.
入分析,提出了具體算法。
網(wǎng)絡(luò)數(shù)據(jù)挖掘又稱Web數(shù)據(jù)挖掘,是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用,從與網(wǎng)絡(luò)相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網(wǎng)站的數(shù)據(jù)中發(fā)掘關(guān)系和規(guī)則。其挖掘?qū)ο笫谴罅?、異質(zhì)、分布的Web文檔,可以對數(shù)據(jù)庫、Web服務(wù)器上的日志、讀者信息等數(shù)據(jù)展開挖掘工作。同時,由于Web在邏輯上是一個由文檔節(jié)點和超鏈接構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于Web結(jié)構(gòu)的,或者是關(guān)于用戶行為模式的1。通過網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)γ總€用戶的訪問行為、頻度、和內(nèi)容等進行分析,能提取出每個用戶的特征,給每個用戶個性化的界面,提供個性化的Web信息服務(wù)。
本文以中國知網(wǎng)(CNKI)總庫為統(tǒng)計源,以主題“We數(shù)據(jù)挖掘”、“網(wǎng)絡(luò)數(shù)據(jù)挖掘”搜索到國內(nèi)近六年的論文數(shù)量,從中可以看出相關(guān)領(lǐng)域的研究從2007年開始呈逐年上升趨勢,2009年達到峰值后,逐年有所下降。具體數(shù)據(jù)如表2所示:
根據(jù)對這些文章內(nèi)容的分析,研究網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及其實現(xiàn)的占大多數(shù),國內(nèi)關(guān)于網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館的應(yīng)用研究不多,大多是作為電子商務(wù)中數(shù)據(jù)挖掘研究的一部分。網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用主要表現(xiàn)在以下幾個方面:
(1)圖書推薦系統(tǒng)。這類系統(tǒng)主要通過日志挖掘讀者的借閱習(xí)慣,推測讀者的閱讀需求,從而為不同興趣的讀者提供相應(yīng)的推薦內(nèi)容。這種個性化推薦系統(tǒng)能夠較好地把握讀者需求,通過聚類和關(guān)聯(lián)規(guī)則為讀者推薦借閱過的相似圖書或可能需要的其他文獻。但它的缺點在于,推薦的相似圖書,讀者已經(jīng)借閱過,再借閱的幾率不大。因此,這個研究的重點和難點在使用的挖掘算法上2。
(2)網(wǎng)絡(luò)學(xué)習(xí)平臺?,F(xiàn)代圖書館越來越重視讀者的學(xué)習(xí)需求,從而推出各種學(xué)習(xí)服務(wù)3。這類應(yīng)用主要是針對網(wǎng)絡(luò)學(xué)習(xí)中的學(xué)習(xí)資源的挖掘。因為在圖書館提供的虛擬學(xué)習(xí)平臺中,資源是龐大的,而讀者的精力有限,同時每個人的興趣不同,需要對不同的讀者組織不同的教育資源。而網(wǎng)絡(luò)數(shù)據(jù)挖掘在其中所起的重要作用就是對讀者的借閱和瀏覽行為進行挖掘分析,根據(jù)分析結(jié)果為讀者匹配學(xué)習(xí)資源。
(3)文獻檢索系統(tǒng)。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)也常見于文獻檢索系統(tǒng)的應(yīng)用中,圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息,使用網(wǎng)絡(luò)數(shù)據(jù)挖掘也是為讀者提供高效獲取信息的方式。
由以上分析看出,網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中應(yīng)用的主要目的就是為讀者找到所需資源,滿足讀者的個性化需求。下面我們就針對網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個性化推薦中的應(yīng)用進行探討。
1、 圖書館個性化推薦常用分析方法
1.1聚類算法
通常說來,許多圖書館的讀者建模方法是基于統(tǒng)計的,即對所有讀者的統(tǒng)計數(shù)據(jù)(比如基于平均值)進行分析。這樣的后果是對讀者的個性化行為視而不見,影響了讀者專業(yè)性和個性化需求,忽略了隱含的讀者信息的價值。而讀者聚類建模,則是把一類讀者聚集起來,分析他們的特性并對這類讀者建模,在建模質(zhì)量相同或接近的條件下,聚類建模所需的數(shù)據(jù)量將遠遠低于對單個讀者建模的數(shù)據(jù)量,因為分類中的每個讀者(知識背景和生活閱歷貢獻具有很大的相似度)都貢獻了其數(shù)據(jù)。常用聚類算法如表3。
1.2 社會網(wǎng)絡(luò)分析
社會網(wǎng)絡(luò)分析已經(jīng)有相當(dāng)長的一段歷史了,近60年來,相關(guān)研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說提出來的HITS算法開創(chuàng)了將社會網(wǎng)絡(luò)研究應(yīng)用在Web范疇的先河。這兩種算法都來源于社會網(wǎng)絡(luò)分析,都利用了網(wǎng)頁的超鏈接結(jié)構(gòu)并依據(jù)網(wǎng)頁的“威望”或者“權(quán)威”級別來對網(wǎng)頁進行分級排序。這在搜索引擎中得到了廣泛的運用。圖書館也同樣存在著這樣的社會網(wǎng)絡(luò)關(guān)系,這種關(guān)系主要通過讀者瀏覽和獲取文獻行為體現(xiàn)。這種關(guān)系和活動可以用網(wǎng)絡(luò)或圖來表示,其中,每一個頂點(結(jié)點)用來表示一個讀者,而一條邊的連接用來表示兩個讀者之間的關(guān)系。利用網(wǎng)絡(luò)圖我們可以研究該網(wǎng)絡(luò)的結(jié)構(gòu)特征,以及每個讀者威望性、中心性等屬性。同時從中我們也可以找到各種類型的子圖,即社區(qū)。
2、 基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的圖書館個性化推薦分析
2.1基于K-means聚類推薦分析
圖書館讀者聚類可以通過兩種方式進行聚類,建立二維推薦模型,即:查詢聚類和借閱聚類。在此,只要實現(xiàn)查詢信息和借閱信息的高效率、高準確率的自動分類,然后根據(jù)讀者興趣模型匹配,就可以完成其推薦過程。自動分類信息可以采用K-均值聚類算法實現(xiàn),并根據(jù)圖書館相關(guān)信息結(jié)構(gòu)的特點,對算法本身加以改進。具體流程如圖1。
2.2 基于PageRank社會網(wǎng)絡(luò)分析
在圖書館借閱場景下,讀者瀏覽和借閱行為反應(yīng)了讀者的需求。PageRank算法關(guān)鍵在于測度每個對象的隨機訪問概率。我們假定讀者借閱史就是讀者推薦書目單,反應(yīng)了讀者對于圖書的認可程度。在此,我們可以把訪問概率轉(zhuǎn)化為讀者推薦書目單的緊密程度,因此,問題轉(zhuǎn)化為求讀者推薦書目單的緊密程度,然后通過PageRank算法,求出讀者推薦書目單的權(quán)威度排名,進而推薦給興趣模型相似的讀者。
我們用dist(j, t)表示兩個讀者推薦書目單關(guān)系程度,使用其文本相似度 來度量,進而產(chǎn)生新的PageRank2算法。對于每個讀者推薦書目單,其重要度PR2(i)可定義為:
其中DIS(j,i)定義為:
在實際應(yīng)用中,由于某些讀者推薦書目單可能與其他讀者推薦書目單 值為0,故將公式2調(diào)整為:
其中a為衰減系數(shù),設(shè)定為0和1之間,其本質(zhì)是為了消除孤立讀者,給每個讀者增加一條指向所有其它讀者的鏈接,并且給予每個鏈接一個由參數(shù)a控制的轉(zhuǎn)移概率,在這里我們沿用PageRank中的取值a=0.8570。
3、 結(jié)語
本文主要探討了網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館中的應(yīng)用問題,并對于社會網(wǎng)絡(luò)分析的應(yīng)用進行了較為深入的分析,提出了具體算法。網(wǎng)絡(luò)數(shù)據(jù)挖掘廣泛應(yīng)用于互聯(lián)網(wǎng)。隨著數(shù)字圖書館的不斷興起,其在圖書館領(lǐng)域的應(yīng)用將更加廣泛4。但是,圖書館相對封閉的信息環(huán)境制約著網(wǎng)絡(luò)數(shù)據(jù)挖掘的應(yīng)用。相信隨著Web2.0和讀者個性化需求不斷得到重視5,數(shù)字圖書館技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)l(fā)揮更加重要的作用。
參考文獻
[1] 馬費成,王曉光.信息資源管理研究及國際前沿[J].情報學(xué)研究進展.武漢大學(xué)出版社,2007.
[2] 劉曉忠.數(shù)據(jù)挖掘技術(shù)在圖書館建設(shè)中的應(yīng)用[J].硅谷,2012(6).
【中圖分類號】G420 【文獻標識碼】A 【論文編號】1009―8097(2009)06―0104―03
數(shù)據(jù)挖掘技術(shù)可以從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識的過程。通過這種技術(shù)把獲取的信息和知識提供給決策支持系統(tǒng)。這種技術(shù)已廣泛地用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等[1,2,3] ,隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘在網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究也逐漸深入[4,5,6] 。網(wǎng)絡(luò)教學(xué)成為一種新型教學(xué)手段,理論上學(xué)習(xí)者可以在任何時間、任何地點以任何形式、從任何章節(jié)開始學(xué)習(xí)任何內(nèi)容,實現(xiàn)個性化學(xué)習(xí)。但在網(wǎng)絡(luò)教學(xué)實施過程中,教學(xué)內(nèi)容和組織活動卻不能隨著學(xué)生的學(xué)習(xí)狀況發(fā)生動態(tài)變化,導(dǎo)致了教與學(xué)脫離的現(xiàn)象,教學(xué)效果達不到預(yù)期效果。因此可以利用該技術(shù)對收集到的與學(xué)生學(xué)習(xí)相關(guān)的歷史數(shù)據(jù)進行分析,從而可以為教師深入理解學(xué)生的實際學(xué)習(xí)情況,制定相關(guān)的教學(xué)目標供 其學(xué)習(xí)提供有力的決策支持,是提升教學(xué)效果的有力手段。
一 擬解決的關(guān)鍵問題
本文探討 在現(xiàn)有的網(wǎng)絡(luò)教學(xué)平臺基礎(chǔ)上,以在教學(xué)信息數(shù)據(jù)庫中采集到的學(xué)生學(xué)習(xí)記錄為樣本,應(yīng)用數(shù)據(jù)挖掘技術(shù),挖掘有用的規(guī)則,探討學(xué)生的學(xué)習(xí)習(xí)慣, 學(xué)習(xí)興趣和學(xué)習(xí)成績間的關(guān)系,從而及時了解學(xué)生對每一章節(jié)知識的掌握程度并根據(jù)每個學(xué)生的情況制定下一章節(jié)的教學(xué)目標,為其提供不同的教學(xué)內(nèi)容,從而使教學(xué)更適合學(xué)生
個性的發(fā)展,實現(xiàn)網(wǎng)絡(luò)分層教學(xué),最終實現(xiàn)教學(xué)過程的動態(tài)調(diào)節(jié)。
二 數(shù)據(jù)預(yù)處理
由于人為的原因、設(shè)備的故障及數(shù)據(jù)傳輸中的錯誤,導(dǎo)致現(xiàn)實世界的數(shù)據(jù)含有臟的、不完整的和不一致的數(shù)據(jù)。數(shù)據(jù)預(yù)處理技術(shù)可以檢測數(shù)據(jù)異常,調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),從而改進數(shù)據(jù)的質(zhì)量,提高其后挖掘過程的精度和性能。
本文數(shù)據(jù)源于《數(shù)據(jù)結(jié)構(gòu)》網(wǎng)絡(luò)教學(xué)課程,48節(jié)理論課,24節(jié)實驗,4.5個學(xué)分。學(xué)生111人,其中06級信息與計算科學(xué)專業(yè)班合計64人,07級地理信息系統(tǒng)專業(yè)一個班計47人。針對1節(jié)提出的問題,本文通過對網(wǎng)絡(luò)教學(xué)平臺教學(xué)信息數(shù)據(jù)庫中的學(xué)生信息表、學(xué)生學(xué)習(xí)進度表、測試信息表等進行數(shù)據(jù)挖掘,說明其在網(wǎng)絡(luò)教學(xué)中的應(yīng)用。各表結(jié)構(gòu)如表1至表3所示(本文中學(xué)生信息經(jīng)過掩飾處理)。
其中內(nèi)容是指客觀性考題,如單項選擇題等。主觀性考題,如算法設(shè)計之類考題可以以教師組織的BBS討論為依據(jù)評分,在此以有效討論次數(shù)(有實質(zhì)性的討論內(nèi)容)計算。
首先去除數(shù)據(jù)表中的冗余信息,如學(xué)生信息表中除學(xué)號信息以外的各分項信息,每一章節(jié)學(xué)習(xí)進度表中的節(jié)、日期信息,每章測試信息表中的題號、內(nèi)容、答案等信息;對某些匯總數(shù)據(jù)項進行離散化處理,如將測試信息表中得分匯總后分為(0,59),(60,85),(85,100)等 3個組并概化為不及格,合格和優(yōu)秀三個層次;學(xué)習(xí)時間匯總后分為(0,2),(2,4),(4,6),(6,)等 四個組,單位:小時;學(xué)習(xí)次數(shù)匯總后分為(0,3),(3,6),(6,)等 三個組,BBS討論匯總后分為(0,3),(3,6),(6,)并 概化為積極,參與和不積極三個層次[7];同時下一章節(jié)的教學(xué)目標制定為三個層次,內(nèi)容呈現(xiàn)分別表示為A類、B類、C類三個層次的內(nèi)容,提供給學(xué)生學(xué)習(xí)。然后檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行處理。經(jīng)過數(shù)據(jù)預(yù)處理工作,得到一張描述學(xué)生學(xué)習(xí)過程信息的數(shù)據(jù)表格,表4是我們整理出的某一章節(jié)的學(xué)生學(xué)習(xí)情況數(shù)據(jù)。
三 數(shù)據(jù)挖掘過程
主要是利用關(guān)聯(lián)分析、序列模式分析、分類分析和聚類分析等分析方法對數(shù)據(jù)庫中的潛在規(guī)則進行挖掘。針對1節(jié)中提出的問題,根據(jù)國內(nèi)外對各類模式挖掘算法的研究[8,9],本文采用FP-Tree關(guān)聯(lián)規(guī)則挖掘算法進行關(guān)聯(lián)規(guī)則挖掘和用于 分類模型判定樹歸納算法進行數(shù)據(jù)挖掘。
1 關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,通過這種挖掘技術(shù)對表4進行挖掘,可以發(fā)現(xiàn)學(xué)生的學(xué)習(xí)時間、學(xué)習(xí)次數(shù)及網(wǎng)絡(luò)課堂討論和學(xué)習(xí)效果之間的關(guān)系,使教師了解學(xué)生的網(wǎng)上學(xué)習(xí)行為和目標掌握程度,幫助教師調(diào)整教學(xué)計劃,如設(shè)計有意義的討論課題提升學(xué)生的學(xué)習(xí)興趣,從而間接增加學(xué)生的學(xué)習(xí)時間和學(xué)習(xí)次數(shù)。
首先給出關(guān)聯(lián)規(guī)則的形式化描述:設(shè) 是m個項的集合,D是數(shù)據(jù)庫事務(wù)的集合,每個事務(wù)有一個標識符。關(guān)聯(lián)規(guī)則就是形如 的蘊含式,其中 ,并且 。規(guī)則的支持度記為 ,是事務(wù)D中包含的 事務(wù)數(shù)與所有事務(wù)數(shù)之比,置信度記為 ,是指包含的 事務(wù)數(shù)與包含的 事務(wù)數(shù)之比。
給定事務(wù)數(shù)據(jù)庫D挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度、置信度分別大于用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。
表5是使用FP-Tree算法對學(xué)生學(xué)習(xí)情況表進行挖掘得到的一系列關(guān)聯(lián)規(guī)則(因篇幅限制,本文僅列出部分內(nèi)容)。
從上表可以看出,學(xué)習(xí)時間在6小時以上并且成績?yōu)閮?yōu)秀的同學(xué)占全班的20.51%,學(xué)習(xí)時間6小時以上的同學(xué)中有34.78%的學(xué)生成績?yōu)閮?yōu)秀。學(xué)習(xí)時間在2小時以下的并且成績不及格的同學(xué)占全班的7.69%,學(xué)習(xí)時間2小時以下的同學(xué)中有75%的學(xué)生成績不及格。學(xué)習(xí)時間在6小時以上,學(xué)習(xí)次數(shù)多于6次且成績?yōu)閮?yōu)秀的學(xué)生占全班的7.69%,這部分同學(xué)中有75%也積極參與BBS討論,而學(xué)習(xí)時間少于2小時,次數(shù)少于3次,基本不參與討論的同學(xué),不及格率為100%,這部分同學(xué)占全班的7.69%。比例明顯偏高,需要調(diào)整教學(xué)的內(nèi)容和設(shè)計討論問題以提高學(xué)生的興趣。從表中還可以看出,學(xué)習(xí)次數(shù)多于6次的學(xué)生中有92.31%的學(xué)生其學(xué)習(xí)時間一般也會超過6小時,這部分學(xué)生占全班的61.54%,通過關(guān)聯(lián)規(guī)則的挖掘,可以掌握學(xué)生網(wǎng)上學(xué)習(xí)行為,從而為教師的教學(xué)策略調(diào)整提供依據(jù),可以更好地進行學(xué)生的培養(yǎng)。
2 分類模型挖掘
著名的心理學(xué)家、教育學(xué)家布盧姆提出的掌握學(xué)習(xí)理論認為:“只要在提供恰當(dāng)?shù)牟牧虾瓦M行教學(xué)的同時給每個學(xué)生提供適度的幫助和充分的時間,幾乎所有的學(xué)生都能完成學(xué)習(xí)任務(wù)或達到規(guī)定的學(xué)習(xí)目標”。
通過構(gòu)造判定樹可以建立學(xué)生分層教學(xué)模型,并依據(jù)判定樹為學(xué)生提供不同層次的教學(xué)內(nèi)容而 實現(xiàn)對學(xué)生的網(wǎng)絡(luò)分層教學(xué)。分類模型判定樹歸納算法主要表述為計算每個屬性的信息增益,將具有最高信息增益的屬性選作 給定樣本集合的測試屬性,創(chuàng)建樹的結(jié)點,并以該屬性標記,對屬性的每個值創(chuàng)建分支,并據(jù)此劃分樣本。由于樣本數(shù)據(jù)中存在噪聲或孤立點,通過樹剪枝去除不合理的分支,以提高在未知數(shù)據(jù)上分類的準確性。據(jù)此算法構(gòu)造的判定樹如圖1所示。
判定樹的第一層條件為每一章節(jié)的單元測試成績,分別表示為優(yōu)秀、合格和不及格。不及格的同學(xué)下一章節(jié)進入C類教學(xué)目標學(xué)習(xí),優(yōu)秀的同學(xué)則進入A類教學(xué)目標學(xué)習(xí),合格的同學(xué)則根據(jù)學(xué)習(xí)的次數(shù)決定下一章節(jié)的教學(xué)目標。學(xué)習(xí)次數(shù)為0~2次的同學(xué)進入B類教學(xué)目標學(xué)習(xí),3~5次的同學(xué)則需要根據(jù)學(xué)習(xí)時間判定,根據(jù)判定樹可知,所有同學(xué)進入B類教學(xué)目標學(xué)習(xí),這和我們?nèi)粘5呐袛噙壿嬒喾?,因為學(xué)習(xí)次數(shù)較多,學(xué)習(xí)時間較長,但成績卻是合格的同學(xué)很有可能是因為方法不當(dāng)?shù)仍驅(qū)е陆邮苤R能力較差,進入A類目標學(xué)習(xí)顯然是不合理的。當(dāng)學(xué)習(xí)次數(shù)大于6次時,可以根據(jù)學(xué)生參與BBS討論的次數(shù)決定學(xué)生的下一章節(jié)的學(xué)習(xí)目標,討論次數(shù)0~2次的同學(xué)其學(xué)習(xí)目標定為B類,3次以上的同學(xué)其學(xué)習(xí)目標則定為A類,這類學(xué)生表現(xiàn)出對知識的渴求,興趣較濃,理解知識的能力相對較強。
本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文
根據(jù)判定樹,可以根據(jù)學(xué)生學(xué)習(xí)本章節(jié)的實際情況對學(xué)生學(xué)習(xí)下一章節(jié)內(nèi)容的效果進行預(yù)測,據(jù)此對學(xué)生進行分類,提供不同的教學(xué)內(nèi)容供其學(xué)習(xí),以提高整體教學(xué)質(zhì)量。
參考文獻
[1] 湯小文,蔡慶生. 數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].計算機工程,2004,30(6):36-37,41.
[2] 楊引霞,謝康林,朱揚勇等.電子商務(wù)網(wǎng)站推薦系統(tǒng)中關(guān)聯(lián)規(guī)則推薦模型的實現(xiàn)[J].計算機工程, 2004, 30(19):57-59.
[3] 印鑒,陳憶群,張鋼.基于數(shù)據(jù)倉庫的聯(lián)機分析挖掘系統(tǒng)[J].計算機工程,2004,30(19):49-51.
[4] 楊清蓮,周慶敏,常志玲.Web挖掘技術(shù)及其在網(wǎng)絡(luò)教學(xué)評價中的應(yīng)用[J].南京工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2005, 27(5):100-103.
[5] 劉革平,黃智興,邱玉輝.基于數(shù)據(jù)挖掘的遠程學(xué)習(xí)過程評價系統(tǒng)設(shè)計與實現(xiàn)[J].電化教育研究,2005,(7):67-69.
[6] 孫瑩,程華,萬浩.基于數(shù)據(jù)挖掘的遠程學(xué)習(xí)者網(wǎng)上學(xué)習(xí)行為研究[J].中國遠程教育,2008,(5):44-47.
[7] 龔志武.關(guān)于成人學(xué)生網(wǎng)上學(xué)習(xí)行為影響因素的實證研究[J].中國電化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2012)06-0001-08
1 引言
當(dāng)數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟資產(chǎn)[1],當(dāng)科研處于以數(shù)據(jù)為基礎(chǔ)進行科學(xué)發(fā)現(xiàn)的第四范式[2],當(dāng)數(shù)據(jù)開始變革教育[3],這些無不宣告著我們已經(jīng)進入了大數(shù)據(jù)(big data)時代。不同的學(xué)科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對自己的研究和實踐帶來的深刻影響,情報研究領(lǐng)域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個簡單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機會,使業(yè)務(wù)更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見,大數(shù)據(jù)強調(diào)的不單純只是數(shù)據(jù)量多少的問題,其背后隱藏了更為復(fù)雜和深刻的理念,這些理念包括:①將對數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計計算,而是深層的挖掘。大數(shù)據(jù)時代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價值,已經(jīng)成為企業(yè)管理者、政府機構(gòu)以及科研工作者首要關(guān)注的問題。“業(yè)務(wù)就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務(wù)”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對數(shù)據(jù)分析提出了新的、更高的要求??梢赃@么說,大數(shù)據(jù)時代就是數(shù)據(jù)分析的時代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時代,數(shù)據(jù)的多樣性是一種真實的存在,數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個事實或規(guī)律可以同時隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個事實或規(guī)律的某一個或幾個側(cè)面,這既為數(shù)據(jù)和信息分析的結(jié)論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識。只有如此,才能真正地提高數(shù)據(jù)分析的科學(xué)性和準確性。③更加廣泛地應(yīng)用新技術(shù)和適用技術(shù)。數(shù)據(jù)量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數(shù)據(jù)的突出特點,這必然會帶來數(shù)據(jù)獲取、整合、存儲、分析等方面的新發(fā)展,產(chǎn)生相應(yīng)的新技術(shù)或者將已有的技術(shù)創(chuàng)新地應(yīng)用于大數(shù)據(jù)的管理與分析。同時,大數(shù)據(jù)的這些特點也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數(shù)據(jù)時代數(shù)據(jù)與信息分析的主流模式。
對于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來了機遇,也帶來了挑戰(zhàn)。一方面,在大數(shù)據(jù)時代,情報研究工作正在得到空前的重視,大數(shù)據(jù)為情報研究的新發(fā)展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術(shù)新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數(shù)據(jù)時代本身也要求各行各業(yè)重視情報研究工作,這就必然使得眾多學(xué)科有意識地涉足到以往作為專門領(lǐng)域的情報研究之中,并將其作為本學(xué)科的重要組成部分加以建設(shè)。文獻分析(本質(zhì)是文本分析)不再為情報研究所獨占,以往情報研究領(lǐng)域積累的相關(guān)理論和方法很有可能優(yōu)勢不再。因此,如何把握住自身的優(yōu)勢,并抓住機會有所拓展,是情報學(xué)在大數(shù)據(jù)時代需要思考的問題。
2 大數(shù)據(jù)環(huán)境下情報研究的發(fā)展趨勢
大數(shù)據(jù)帶來的新觀念,正在引報研究的新發(fā)展,而且,研究人員也在不斷地從情報研究的實踐中總結(jié)經(jīng)驗教訓(xùn),引導(dǎo)情報研究的未來走向。英國萊斯特大學(xué)的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關(guān)重要的。忽略戰(zhàn)略環(huán)境、領(lǐng)導(dǎo)風(fēng)格和心理因素等更為廣泛的問題,將導(dǎo)致情報研究的失誤;②要加強信息之間的關(guān)聯(lián)。美國政府部門內(nèi)部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導(dǎo)致情報研究中的預(yù)測失敗;③要汲取更多外界的專業(yè)知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。
綜合大數(shù)據(jù)背景的要求和以往情報研究的經(jīng)驗教訓(xùn),結(jié)合國內(nèi)外同行的研究成果,本文將情報研究的發(fā)展趨勢總結(jié)為以下五個方面:單一領(lǐng)域情報研究轉(zhuǎn)向全領(lǐng)域情報研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強調(diào)情報研究的嚴謹性;情報研究的智能化。
2.1 單一領(lǐng)域情報研究轉(zhuǎn)向全領(lǐng)域情報研究
隨著學(xué)科的深入交叉融合及社會發(fā)展、經(jīng)濟發(fā)展與科技發(fā)展一體化程度的增強,情報研究正從單一領(lǐng)域分析向全領(lǐng)域分析的方向發(fā)展。
首先,表現(xiàn)在各領(lǐng)域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡(luò)分析方法、空間信息分析等其他學(xué)科的分析方法,廣泛應(yīng)用于軍事情報、科技情報等領(lǐng)域,心理學(xué)等領(lǐng)域的理論也用于情報分析的認知過程,以指導(dǎo)情報分析及其工具的研發(fā)。同時,情報學(xué)中的引文分析等文獻計量方法也被借鑒用于網(wǎng)站影響力評估。從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計算機領(lǐng)域的技術(shù),為情報研究提供了有力的技術(shù)視角,情報研究獲得的知識反過來又給予其他技術(shù)領(lǐng)域的發(fā)展以引導(dǎo)??梢姡瑹o論從思想上、方法上、技術(shù)上,各領(lǐng)域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識更強、手段更為綜合。
其次是分析內(nèi)容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領(lǐng)域問題的分析而分析,而將所分析的內(nèi)容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹?shù)慕Y(jié)論。聯(lián)合國的創(chuàng)新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關(guān)鍵,基于沒有代表性樣本而獲得的結(jié)論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領(lǐng)域,一些數(shù)據(jù)往往因為一些不可抗力的原因而不完整,如早期的科技數(shù)據(jù),可能由于國際形勢等外部因素,導(dǎo)致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無疑是會得“正確”的錯誤結(jié)論,這時應(yīng)針對這樣的異常情況,將研究問題放置在當(dāng)時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結(jié)論。也就是說,必須要考察不同時間戳下的相關(guān)信息,再對分析內(nèi)容加以擴充,這實質(zhì)是一種基于時間軸的擴展。另外,將內(nèi)容擴展至本領(lǐng)域的上下游則是一種更為重要的擴展。例如,考察某項技術(shù)的發(fā)展前景,如果僅就該技術(shù)本身來討論,可能會得出正面的結(jié)論,但如果結(jié)合特定地區(qū)人們對該技術(shù)的態(tài)度、當(dāng)?shù)氐募夹g(shù)水平、物理條件、發(fā)展定位等,卻可能會得出相反的結(jié)論。這就說明,在很多領(lǐng)域中,環(huán)境不同,發(fā)展程度不同,要解決的問題也就不同。一些地區(qū)當(dāng)前關(guān)注的問題不一定就是其他地區(qū)要關(guān)注的問題,某些欠發(fā)達地區(qū)當(dāng)前不一定就必須照搬另一些所謂發(fā)達地區(qū)的當(dāng)前做法。這需要通盤考察,分析相關(guān)思想、觀點和方法產(chǎn)生的土壤、使用的條件,結(jié)合當(dāng)前環(huán)境再做出判斷,否則可能會對決策者產(chǎn)生誤導(dǎo)。
2.2 綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報研究的另一大發(fā)展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識或解決政策難題??萍记閳蠼缫彩侨绱?,如利用科技論文和專利,發(fā)現(xiàn)科技之間的轉(zhuǎn)換關(guān)系、預(yù)測技術(shù)發(fā)展方向,綜合利用政府統(tǒng)計數(shù)據(jù)、高校網(wǎng)站、期刊、報紙、圖書等來評估大學(xué)等科研機構(gòu)。可見,綜合利用多種信息源是從問題出發(fā),系統(tǒng)化地整合所有相關(guān)信息資源來支持情報研究,信息源可以是學(xué)術(shù)論文、專利等不同類型的文獻集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢是由幾大因素決定的。一是情報研究問題的復(fù)雜性。在大數(shù)據(jù)背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導(dǎo)致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉(zhuǎn)換關(guān)系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術(shù)報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調(diào)查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現(xiàn)實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結(jié)果的重要性。以評估大學(xué)為例,評估的結(jié)果會引導(dǎo)各學(xué)校在比較中發(fā)現(xiàn)自身優(yōu)勢和差距,指導(dǎo)未來發(fā)展定位,同時也為廣大學(xué)生報考提供參考??梢姡芯拷Y(jié)果對社會的影響是廣泛而深遠的,要做到分析結(jié)果的可靠性、科學(xué)性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現(xiàn)的,不同信息源相互之間的關(guān)系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當(dāng)問題含糊不清時,可能需要不斷地調(diào)整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結(jié)果,特別是當(dāng)結(jié)論有所沖突的時候,識別不當(dāng)結(jié)果、保證分析結(jié)果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網(wǎng)絡(luò)應(yīng)用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構(gòu)建于Web2.0技術(shù)和思想基礎(chǔ)上,允許用戶創(chuàng)建交換信息內(nèi)容的基于網(wǎng)絡(luò)的應(yīng)用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內(nèi)容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網(wǎng)絡(luò)技術(shù),以用戶為中心來組織、傳播信息,信息可以是用戶創(chuàng)造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環(huán)境,并引導(dǎo)著技術(shù)、娛樂、政治等諸多主題的發(fā)展[11]。這些通過龐大的用戶社區(qū)來傳播的高度多樣化的信息及其網(wǎng)絡(luò)結(jié)構(gòu),為洞悉公眾對某一主題的觀點、研究信息擴散等社會現(xiàn)象[12]、預(yù)測未來發(fā)展方向[11]等提供了機會,有助于發(fā)現(xiàn)有共同興趣的社群、領(lǐng)域?qū)<?、熱點話題[13]等,帶來了網(wǎng)絡(luò)輿情分析等研究內(nèi)容。此外,這類信息結(jié)合其他類型的數(shù)據(jù),產(chǎn)生了新的情報研究領(lǐng)域。例如,智能手機的普及和GPS的廣泛應(yīng)用,使得可以從社交網(wǎng)絡(luò)和網(wǎng)絡(luò)交互數(shù)據(jù)、移動傳感數(shù)據(jù)和設(shè)備傳感數(shù)據(jù)中獲取社會和社區(qū)情報(social and community intelligence,SCI),揭示人類行為模式和社群動態(tài)[14]。
此外,機構(gòu)知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網(wǎng)絡(luò)信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學(xué)的角度指出,成熟完整的機構(gòu)知識庫應(yīng)包含機構(gòu)和學(xué)生的智力成果(包括科研材料和教學(xué)材料)以及記錄機構(gòu)自身各項事件和正在進行的科研活動的文檔。這暗示著學(xué)術(shù)界從過去只關(guān)心科研成果正逐步轉(zhuǎn)向關(guān)注科研過程。從機構(gòu)知識庫中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導(dǎo)機構(gòu)未來科研的發(fā)展走向等。但現(xiàn)有的機構(gòu)知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數(shù)據(jù)環(huán)境下,加強這方面的研究也是必然趨勢??梢灶A(yù)見,隨著科技的發(fā)展和應(yīng)用的深入,還會不斷的有新型資源出現(xiàn),并不斷促進情報研究的發(fā)展。
2.4 強調(diào)情報研究的嚴謹性
情報研究活動在宏觀層面上是一種意義構(gòu)建(sensemaking)[17],依賴于分析人員根據(jù)已有知識構(gòu)建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質(zhì)量,正成為學(xué)術(shù)界當(dāng)前普遍關(guān)注的問題。情報研究嚴謹性(rigor)不等同于分析結(jié)果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調(diào)查,應(yīng)用精確和嚴格的標準,從而更好地理解和得出結(jié)論”[19]。美國俄亥俄州立大學(xué)的Deniel Zelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設(shè)探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協(xié)作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設(shè)探索是要使用多種視角來揭示數(shù)據(jù)和信息;信息驗證側(cè)重于數(shù)據(jù)的溯源、佐證和交叉驗證;立場分析強調(diào)分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協(xié)作是防止分析結(jié)果受分析人員自身的學(xué)科背景或經(jīng)驗帶來的偏差;解釋評價是要正確對待分析結(jié)論??梢姡閳笱芯康膰乐斝砸庠谙说闹饔^偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉(zhuǎn)變?yōu)橐婚T科學(xué)。
在大數(shù)據(jù)背景下,情報分析的嚴謹性,不僅體現(xiàn)在理念上,還暗含了對技術(shù)的要求。面對海量數(shù)據(jù),自動化的技術(shù)手段必不可少。當(dāng)信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴數(shù)據(jù)倉庫等技術(shù)手段,如何在這樣的分析環(huán)境中將情報研究的科學(xué)性落到實處,是需要關(guān)注的問題??梢钥吹?,利用技術(shù)本身已經(jīng)在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術(shù)手段,也可能產(chǎn)生不同的結(jié)果,如何避免由技術(shù)產(chǎn)生的偏見,也許通過多種技術(shù)手段或采用不同的算法,全方位地展示信息內(nèi)容及其之間的關(guān)系,從而避免產(chǎn)生信息的誤讀,是一個解決方案??梢?,在大數(shù)據(jù)時代,情報研究需要多種手段來加強其分析過程的科學(xué)性,而這又需要多種技術(shù)方法加以支持。
2.5 情報研究的智能化
大數(shù)據(jù)背景下的情報研究,對技術(shù)提出了更高的要求。正如美國國家科學(xué)基金會(NSF)的報告[22]所說,美國在科學(xué)和工程領(lǐng)域的領(lǐng)先地位將越來越取決于利用數(shù)字化科學(xué)數(shù)據(jù)以及借助復(fù)雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識的能力。對于情報研究來說,應(yīng)用智能化技術(shù)能自動進行高級、復(fù)雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環(huán)境瞬息萬變的今天,及時收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的涌入,必然需要技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以供后續(xù)分析。同時,多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語義層面上的技術(shù)支持。從分析需求來講,簡單的統(tǒng)計分析已不能滿足現(xiàn)在社會的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來的發(fā)展,這就涉及數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術(shù)來支撐??梢?,這一發(fā)展趨勢是大數(shù)據(jù)時代下的必然。而各國在積極建設(shè)的數(shù)字化基礎(chǔ)設(shè)施,也在推動著情報研究的智能化,如歐洲網(wǎng)格基礎(chǔ)設(shè)施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領(lǐng)域研究人員提供集成計算資源,從而推動創(chuàng)新。
目前,對情報研究中的智能化技術(shù)沒有統(tǒng)一的界定,但概觀之,可以將情報研究智能化的本質(zhì)概括為定量化、可計算、可重復(fù)。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗等給出粗略的結(jié)論,如果說這是一種定性化分析,現(xiàn)在更多地依賴通過計算機自動化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎(chǔ)上輔以人的判斷,可以說是一種定量化的分析??捎嬎闶侵笇⒏鞣N信息資源轉(zhuǎn)化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結(jié)構(gòu)化的、富有語義的信息,采用統(tǒng)計、數(shù)據(jù)挖掘等方法加以計算,獲取隱含的知識。可重復(fù)是指自動化分析技術(shù)消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結(jié)論也應(yīng)該是一致的,這也體現(xiàn)了智能化技術(shù)為情報研究帶來客觀性的一面。
3 情報研究中的技術(shù)問題
情報研究的上述發(fā)展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統(tǒng)計替代情報研究中的計算技術(shù),由此對情報研究技術(shù)提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領(lǐng)域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數(shù)據(jù)技術(shù),并圍繞大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)技術(shù)和可視化三方面進行了闡述。在大數(shù)據(jù)分析技術(shù)中,列舉了26項適用于眾多行業(yè)的分析技術(shù),包括A/B測試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識別、預(yù)測建模、回歸、情感分析、信號處理、空間分析、統(tǒng)計、監(jiān)督學(xué)習(xí)、模擬、時間序列分析、無監(jiān)督學(xué)習(xí)和可視化。這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來的,如眾包就是隨著Web2.0而產(chǎn)生的技術(shù)。
根據(jù)我們的理解,這些技術(shù)大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語義處理三大類。這三大類技術(shù)也是當(dāng)前情報分析領(lǐng)域應(yīng)予以關(guān)注和深入研究的技術(shù)。
3.1 可視化分析
可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學(xué)[25],是自動分析技術(shù)與交互技術(shù)相結(jié)合的產(chǎn)物,目的是幫助用戶在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關(guān)注計算機自動生成信息的交互式圖形表示,關(guān)注這些圖形表示的設(shè)計、開發(fā)及其應(yīng)用[27],而可視化分析在此基礎(chǔ)上加入了知識發(fā)現(xiàn)過程,關(guān)注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當(dāng)?shù)目梢暬夹g(shù)相結(jié)合,以達到輔助決策的目的。
目前的情報分析系統(tǒng),雖然也提供了多種視圖來揭示信息,但更多的是一種分析結(jié)果的呈現(xiàn),系統(tǒng)內(nèi)部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結(jié)果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發(fā)展要求。同時,現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對情報分析認知過程的支持,這就對使用人員的專業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領(lǐng)域包括采用信息分析、地理空間分析、科學(xué)分析領(lǐng)域的分析方法,應(yīng)用數(shù)據(jù)管理和知識表示、統(tǒng)計分析、知識發(fā)現(xiàn)領(lǐng)域的成果進行自動分析,融入交互、認知等人的因素來協(xié)調(diào)人與機器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結(jié)果[28]。佐治亞理工學(xué)院的John Stasko等人應(yīng)用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應(yīng)用于學(xué)術(shù)研究領(lǐng)域(涉及期刊和會議論文)以及研究網(wǎng)絡(luò)文章(如網(wǎng)絡(luò)新聞報道或?qū)n}博客)領(lǐng)域,也說明了將可視化分析技術(shù)應(yīng)用于情報研究的可行性。
將可視化分析技術(shù)應(yīng)用于情報研究領(lǐng)域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結(jié)合的問題,第二類是應(yīng)用自動化分析潛力有限的問題,第三類是應(yīng)用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎(chǔ)上,Daniel A. Keim等人指出,應(yīng)分析如何通過考慮用戶、任務(wù)和數(shù)據(jù)集特點,來確定可視化和自動分析方法的優(yōu)化組合,從而達到最佳的效果[31]??梢?,要將可視化分析技術(shù)應(yīng)用于情報研究領(lǐng)域,需要明確每類問題適用哪種組合方式。其次,情報研究領(lǐng)域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關(guān)系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過程的可視化展示等。第三,情報研究領(lǐng)域中的認知過程是什么樣的,關(guān)注哪些問題,涉及哪些實體,在大數(shù)據(jù)環(huán)境下面臨哪些認知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過技術(shù)來解決。此外,從現(xiàn)有的可視化分析技術(shù)來看,主要是將各個相關(guān)領(lǐng)域的技術(shù)以優(yōu)化的方式整合起來,但在將來會產(chǎn)生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術(shù)需要關(guān)注的。
3.2 數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個知識發(fā)現(xiàn)的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數(shù)據(jù)分析和知識發(fā)現(xiàn)的任務(wù),從數(shù)據(jù)特征化與區(qū)分到關(guān)聯(lián)和相關(guān)性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統(tǒng)計學(xué)、機器學(xué)習(xí)、模式識別、算法、高性能計算、可視化、數(shù)據(jù)庫和數(shù)據(jù)倉庫等領(lǐng)域的技術(shù),并可以用于任何類型的數(shù)據(jù),包括數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實現(xiàn)過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關(guān)聯(lián)規(guī)劃來分析研究主題的相關(guān)性,從科技論文與專利的關(guān)聯(lián)中發(fā)現(xiàn)科技的轉(zhuǎn)換關(guān)系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統(tǒng)計、共詞計算層次上,在知識發(fā)現(xiàn)的過程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準備,還有待于更為深入的發(fā)掘??梢?,數(shù)據(jù)挖掘能夠也應(yīng)該應(yīng)用于情報研究領(lǐng)域,這不僅是數(shù)據(jù)挖掘應(yīng)用擴展的結(jié)果,也是情報研究自身發(fā)展的需求。此外,由于較少有專門針對情報研究領(lǐng)域研發(fā)的挖掘工具,現(xiàn)有情報分析通常借助于其他工具,不同工具的功能不同,這就導(dǎo)致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網(wǎng)絡(luò)。這帶來的問題是,分析缺乏完整性,可能社會網(wǎng)絡(luò)和其他信息之間有關(guān)聯(lián),因為工具的分割性,就導(dǎo)致潛在模式的丟失。由此,研發(fā)適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。
要解決以上的問題,首先需要研究情報分析任務(wù),分析哪些問題是可以使用數(shù)據(jù)挖掘技術(shù)來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數(shù)據(jù)挖掘技術(shù),原因是什么等。其次,對于某類或某個分析問題,使用哪種數(shù)據(jù)挖掘技術(shù)或幾種技術(shù)的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應(yīng)性改造,如何評價挖掘的結(jié)果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢,即構(gòu)建靈活的用戶界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發(fā)展,尋找情報分析的新模式,值得我們關(guān)注。
3.3 語義處理
語義是關(guān)于意義(meaning)的科學(xué),語義技術(shù)提供了機器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施[34],整合了Web技術(shù)、人工智能、自然語言處理、信息抽取、數(shù)據(jù)庫技術(shù)、通信理論等技術(shù)方法,旨在讓計算機更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息[35]。核心語義技術(shù)包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過對各類信息的語義處理,在獲取的富有語義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語義性支持了機器學(xué)習(xí)等技術(shù)的內(nèi)在功能[36]。
從現(xiàn)有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統(tǒng)的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內(nèi)容主題時,需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時,常常無法識別同義詞、近義詞等,需要人工干預(yù)。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結(jié)果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當(dāng)面對大數(shù)據(jù)的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網(wǎng)絡(luò)新聞、博客等,已有如動態(tài)監(jiān)測科研機構(gòu)等的系統(tǒng)工具,但總體來說還處于起步狀態(tài),目前較多的還是依賴人工篩選出所需信息,并整理成結(jié)構(gòu)化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應(yīng)用語義技術(shù)成為廣泛需求及必然。
將語義技術(shù)應(yīng)用于情報分析,需要關(guān)注以下幾方面的內(nèi)容。首先,分析情報研究任務(wù)的特點,了解它的語義需求,是否存在規(guī)律性的準則以供指導(dǎo)分析工具的研發(fā),這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務(wù)給出詳細的規(guī)范,例如,對微博等社會化媒體,其中既存在高質(zhì)量的信息,也存在辱罵等低質(zhì)量的信息,區(qū)分這些信息并篩選出高質(zhì)量信息,就成為在分析社會化媒體中的語義任務(wù)之一。其次,語義資源建設(shè)問題,即在情報分析領(lǐng)域中,要實現(xiàn)語義層面上的理解,是否需要建設(shè)語義資源,如果不需要,哪些技術(shù)手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構(gòu)建,并且這種語義資源應(yīng)該如何構(gòu)建,如何使用才能有效地服務(wù)于情報研究工作。第三,信息抽取問題??萍夹畔⑸婕氨姸鄬W(xué)科的專業(yè)術(shù)語、各種科研機構(gòu)、組織等,如何使用語義技術(shù)將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術(shù),把不同來源的數(shù)據(jù)對象及其互動關(guān)系進行融合、重組,重新結(jié)合為一個新的具有更高效率和更好性能的具有語義關(guān)聯(lián)的有機整體,以便后續(xù)分析。
4 結(jié)語
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術(shù)為情報學(xué)領(lǐng)域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰(zhàn)。機遇巨大,挑戰(zhàn)更大,需要我們對此有清醒的認識。本文分析了大數(shù)據(jù)背景下情報研究的若干發(fā)展趨勢,總結(jié)了情報研究中值得關(guān)注的技術(shù)問題,以期能為促進情報研究的理論和實踐的發(fā)展添磚加瓦。
參考文獻:
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1)?。?7-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
中圖分類號:G642 文獻標志碼:B 文章編號:1674-9324(2013)09-0253-03
一、引言
21世紀是國家全面推進學(xué)生素質(zhì)培養(yǎng)的時期,計算機專業(yè)課既具有較強的理論性,又具有較深的實踐性。目前,計算機專業(yè)的教學(xué)過程中往往理論教育與實際脫節(jié),很多學(xué)生通過了專業(yè)理論課的考試,卻不能將理論付諸于實踐,學(xué)生對課程知識并沒有深刻的理解和消化,對課程理論的實際應(yīng)用沒有感觀上的體驗。經(jīng)調(diào)查顯示,60%以上的學(xué)生認為在校期間的計算機理論課的學(xué)習(xí)對就業(yè)和實際工作幫助不大,這給學(xué)生學(xué)習(xí)計算機理論的積極性帶來了消極的影響,更有很多學(xué)生熱衷于參加社會上的計算機培訓(xùn)機構(gòu),放棄在高校的課程學(xué)習(xí)。因此,在培養(yǎng)學(xué)生的理論創(chuàng)新能力的同時,提高學(xué)生的動手操作能力,加強學(xué)生理論聯(lián)系實際的能力是計算機教學(xué)十分緊迫和必要的任務(wù)。
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,在短短幾年內(nèi)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘就已經(jīng)成為IT信息領(lǐng)域廣泛應(yīng)用和熱點研究的領(lǐng)域。該領(lǐng)域主要是研究如何從浩如煙海的海量數(shù)據(jù)中有效地提取并挖掘知識,對其進行自動分析和匯總,是計算機行業(yè)中最熱門、最有前景的領(lǐng)域之一[1]。數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程也順應(yīng)計算機發(fā)展的需要,進入到高校計算機教育的專業(yè)課課程列表中。
本論文在深入研究了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程的內(nèi)容和特點的基礎(chǔ)上,采用B/S(Browser/Server)架構(gòu),即瀏覽器/服務(wù)器架構(gòu),開發(fā)了web課程教學(xué)實驗平臺。
二、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W科教學(xué)現(xiàn)狀
隨著數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程在各大高校成功試教后,近年來各大高校都為計算機專業(yè)都設(shè)立了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程,時至今日,其課堂理論教學(xué)已經(jīng)比較成熟。然而,絕大多數(shù)學(xué)生在經(jīng)過該課程的學(xué)習(xí)后,普遍反映雖然基本了解了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘相關(guān)理論知識,卻缺乏感性認識和實踐應(yīng)用能力。這主要是因為該課程的實驗教學(xué)較難開展,缺乏一個符合以下特點的教學(xué)實驗平臺。
市場中通用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘軟件昂貴且難以使用,大量的專業(yè)術(shù)語、專業(yè)業(yè)務(wù)理論、數(shù)學(xué)知識和挖掘模型讓人無從下手。因此我們需要的僅僅是一個實驗平臺,并非大型企業(yè)應(yīng)用軟件,只要學(xué)生能通過它更簡易地完成該課程的實驗環(huán)節(jié)即可。
1.可視化、易操作??梢暬鸵撞僮骺梢蕴岣邔W(xué)生的學(xué)習(xí)興趣,讓學(xué)生更直觀的參與到教學(xué)活動中來,而不是苦惱于如何使用該平成實驗。
2.交互性。一個好的教學(xué)平臺不僅是一個可以提供給學(xué)生傳授知識的平臺,還應(yīng)該是一個可以和學(xué)生及老師有交互性的平臺,并且使學(xué)生和學(xué)生有交互性,老師和學(xué)生有交互性[2]。
3.教學(xué)與實驗相結(jié)合。我們需要不僅僅是一個數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)嶒炣浖?,而是綜合課程教學(xué)和課程實驗的平臺。教學(xué)與實驗相結(jié)合、理論與實踐并重,這才是計算機專業(yè)教育的核心。
4.擁有合理和充足的實驗數(shù)據(jù)。對于一個實驗平臺來說,數(shù)據(jù)的缺乏將使得實驗無法進行。尤其是對于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘這個特殊的領(lǐng)域,數(shù)據(jù)不僅要足夠的多而且要合理,否則會嚴重影響實驗結(jié)果和教學(xué)效果。
三、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W科教學(xué)實驗平臺的構(gòu)建
為適應(yīng)教育發(fā)展需要,秉承深化教學(xué)改革的方針,改革數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程原有的普通教學(xué)模式,啟動了“數(shù)據(jù)挖掘課程設(shè)計平臺建設(shè)”教學(xué)改革項目。該平臺依托我校電信學(xué)院985平臺的優(yōu)良硬件環(huán)境,由遠程開放實驗平臺服務(wù)器和終端PC機組成,其成本低廉、維護方便、部署容易。該實驗平臺服務(wù)器直接部署于本校的學(xué)院985實驗基地,具有操作穩(wěn)定性、魯棒性和容錯性。通過該實驗教學(xué)平臺,學(xué)生對該課程的學(xué)習(xí)過程將不受場地限制,只要通過網(wǎng)絡(luò)就可以登錄該平臺。該平臺主要框架如圖1所示。
1.用戶管理模塊實現(xiàn)了對不同用戶的權(quán)限設(shè)置、登錄和注冊等功能,超級管理員可以為普通學(xué)生用戶分配權(quán)限。
2.實驗平臺模塊給學(xué)生提供了算法模擬和試驗的平臺,主要分為以下兩個部分。
(1)數(shù)據(jù)倉庫的維度建模設(shè)計模塊。雪花模型設(shè)計案例;星型模型設(shè)計案例;ETL抽取操作平臺。
(2)數(shù)據(jù)挖掘算法實驗?zāi)K。數(shù)據(jù)預(yù)處理程序?qū)崿F(xiàn)算法平臺;Apriori算法實驗平臺;ID3算法實驗平臺;BP算法實驗平臺;K-Mean和K-Medoid算法實驗平臺;C4.5算法和決策樹算法實驗平臺;KNN算法實驗平臺;貝葉斯算法實驗平臺。
維度建模設(shè)計平臺和數(shù)據(jù)挖掘算法實驗平臺模塊是該平臺的核心模塊。
3.實驗課程模塊主要向?qū)W生介紹該實驗課程的相關(guān)內(nèi)容、教學(xué)大綱和教學(xué)任務(wù),也包含數(shù)據(jù)倉庫環(huán)境的具體安裝和配置視頻演示。
4.作業(yè)提交模塊更是改變了傳統(tǒng)的提交紙質(zhì)作業(yè)的模式,讓學(xué)生將動手完成的實驗和相關(guān)作業(yè)通過該平臺提交,一個學(xué)生一個賬戶,避免了作業(yè)抄襲和拷貝。學(xué)生提交的作業(yè)只要運行正確,按題目要求編程,不論采用何種語言或者何種算法都是可以的,并沒有唯一性的標準答案。當(dāng)實驗課程考核的時候,學(xué)生能夠通過作業(yè)提交系統(tǒng)向服務(wù)器提交指定課程內(nèi)容的作業(yè),供教師在線評閱和打分。
5.教學(xué)資源下載提供給學(xué)生自學(xué)的資料,給感興趣的學(xué)生提供了進一步學(xué)習(xí)的捷徑。
6.當(dāng)有學(xué)生對實驗環(huán)節(jié)和該課程有任何疑問,都可以登錄在線答疑系統(tǒng),給授課老師留言,這些信息都會以郵件的形式發(fā)送到授課老師的收件箱,從而實現(xiàn)即時的答復(fù),讓學(xué)生在第一時間接受老師的指導(dǎo)。當(dāng)有問題重復(fù)出現(xiàn)三次以上,系統(tǒng)就會自動識別,將問題和答復(fù)展示在FAQ中,提供給更多的學(xué)生共享該問題和該問題的解答,避免重復(fù)提問,也給還未遇到該問題的學(xué)生共享和學(xué)習(xí)。在線答疑給學(xué)生和教師提供了交互、交流和學(xué)習(xí)的平臺。
7.數(shù)據(jù)挖掘?qū)嶒炂脚_的在線代碼編譯環(huán)境主要采用gcc編譯器,能夠?qū)W(xué)生提交的各種代碼進行實時編譯,給用戶的感覺就像是在本地執(zhí)行一樣。它能夠支持的在線運行編程語言包括java、C和C++等,給學(xué)生提供多樣化的語言實現(xiàn)方式,體現(xiàn)了非機械化的計算機應(yīng)試理念。
四、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W科教學(xué)實驗平臺的教學(xué)效果
在數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程中使用該教學(xué)實驗平臺,具有教育的先進性和優(yōu)越性。
(一)建設(shè)了數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程的實驗教學(xué)體系
1.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘模型。本平臺可以培養(yǎng)學(xué)生自己動手創(chuàng)建多維星型模型、多維雪花模型、緩慢變化維、ETL模型、數(shù)據(jù)立方體模型及其實例等,還可以增加學(xué)生對各類重要挖掘算法的特點和應(yīng)用場景的理解,讓學(xué)生在實驗平臺上體驗基于數(shù)據(jù)倉庫的主要數(shù)據(jù)挖掘算法。
2.模型評估。當(dāng)學(xué)生創(chuàng)建完畢自己的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘模型后,可以通過調(diào)整不同的參數(shù)值和更改數(shù)據(jù)集來檢驗算法的輸出結(jié)果,并通過記錄在不同的應(yīng)用場景下的參數(shù)值和結(jié)果值得到最優(yōu)值。
3.優(yōu)化創(chuàng)建模型和算法的性能。學(xué)生通過使用計算機領(lǐng)域中的一些經(jīng)典優(yōu)化技術(shù),如創(chuàng)建位圖索引、哈希索引、S-tree索引等來優(yōu)化模型和算法的性能,并記錄和比較不同優(yōu)化技術(shù)對模型和算法的效率和響應(yīng)時間的影響。
4.定期對學(xué)生所學(xué)實驗內(nèi)容進行測試,根據(jù)學(xué)生的實驗測試結(jié)果對平臺的遠程實驗操作功能進行改進和完善。
(二)部署和實施了基于網(wǎng)絡(luò)的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程遠程實驗教學(xué)環(huán)境
本項目通過構(gòu)建基于網(wǎng)絡(luò)技術(shù)的遠程實驗教學(xué)平臺,不僅給學(xué)生和教師提供這樣一個教學(xué)實驗平臺,而且還實現(xiàn)了實驗教學(xué)的網(wǎng)上開放式管理,改革原有相對封閉的實驗教學(xué)模式為開放的實驗教學(xué)模式,構(gòu)建了一個符合實踐教學(xué)環(huán)節(jié)需求、虛擬和真實環(huán)境相結(jié)合、基于Web的多應(yīng)用場景的遠程開放實驗平臺。
(三)基于采樣評估證明了遠程網(wǎng)絡(luò)實驗教學(xué)的可行性和優(yōu)越性
根據(jù)采樣評估結(jié)果,該系統(tǒng)體現(xiàn)了遠程網(wǎng)絡(luò)實驗的可行性和優(yōu)越性。在該平臺真正投入使用之前,我們將一批學(xué)生分為兩個組進行數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程的學(xué)習(xí),A組學(xué)生使用現(xiàn)有的課程教學(xué)方法,而B組學(xué)生使用該平臺的遠程實驗教學(xué)環(huán)境。具體教學(xué)內(nèi)容為多維數(shù)據(jù)模型和數(shù)據(jù)立方體的概念以及k-means聚類和Apriori關(guān)聯(lián)分析算法。兩組學(xué)生通過不同的教學(xué)方式學(xué)習(xí)后,對他們進行了問卷調(diào)查和統(tǒng)計,結(jié)果如圖2所示。
從圖2的數(shù)據(jù)結(jié)果可以看到,無論是從學(xué)生興趣程度、作業(yè)完成度還是考試成績的角度對兩組學(xué)生的學(xué)習(xí)效果進行評估,使用該數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程教學(xué)實驗平臺的教學(xué)方式都具有明顯的優(yōu)勢。在實驗過程中學(xué)生是主體,用所學(xué)知識發(fā)揮創(chuàng)造性思維進行實踐。當(dāng)實驗取得結(jié)果時,不論結(jié)果成功與否,都能帶給學(xué)生一定的鼓勵,從而在某種程度上激發(fā)學(xué)生的創(chuàng)造力和積極性,真正加速問題解決和理論創(chuàng)新。因此,我們有理由相信該平臺的使用可以極大地提高學(xué)生的學(xué)習(xí)興趣,促進教學(xué)目標的實現(xiàn)。
五、結(jié)論
在計算機專業(yè)的教學(xué)中,如何提高學(xué)生的實踐能力和獨立解決問題的能力是當(dāng)前高等教育發(fā)展的新形勢下所面臨的主要問題。本文首先介紹了基于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘課程的實驗平臺的整體架構(gòu),展示了該平臺的優(yōu)點,證明了該平臺可以將課堂學(xué)習(xí)和課后練習(xí)、理論教育與工程實踐有機結(jié)合,為實施更加行之有效的教學(xué)組織和教學(xué)管理模式提供了可能。只有教育者和學(xué)生充分認識到計算機課程中實驗環(huán)節(jié)的重要性,更有效地利用現(xiàn)有的社會資源和計算機技術(shù)為我們的教育服務(wù),專業(yè)學(xué)科教學(xué)模式和方法才能不斷推陳出新,不斷進步和發(fā)展。
參考文獻:
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
1 科學(xué)數(shù)據(jù)開放共享中的出版商
1.1 科學(xué)數(shù)據(jù)開放共享
在科學(xué)研究過程中,有不同的利益相關(guān)者參與其中。這些利益相關(guān)者類別多樣,性質(zhì)各異,共同形成科學(xué)研究的生態(tài)系統(tǒng)。根據(jù)各利益相關(guān)者的職能,圍繞研究人員,將這一系統(tǒng)進行分類研究,確定出4個利益相關(guān)者群體,即資助者、數(shù)據(jù)管理者、研究機構(gòu)與出版商作為關(guān)鍵參與者,以促進和實現(xiàn)科學(xué)研究數(shù)據(jù)的開放共享。
在這一系統(tǒng)中,每類利益相關(guān)者都有各自不同的職能、驅(qū)動力及利益點,但總體利益與動機相同,即促進科學(xué)的進步。利益相關(guān)者的利益與行為動機與各自職能連接在一起,形成了科學(xué)研究系統(tǒng)的邊界。該系統(tǒng)本質(zhì)上受到外部和內(nèi)部因素的雙重影響:外部因素可能表現(xiàn)為政治、社會、經(jīng)濟、科學(xué)和文化體系等;內(nèi)部因素包括政治意愿、經(jīng)濟及學(xué)術(shù)競爭、技術(shù)基礎(chǔ)設(shè)施、法律、道德等因素。該系統(tǒng)的價值與動機是外部和內(nèi)部因素共同作用的結(jié)果,其中外部因素控制資源輸入到該系統(tǒng)中,內(nèi)部因素控制這些資源的可用性和分配。如圖1所示:
在此科學(xué)開放系統(tǒng)中,利益相關(guān)者群體職能眾多并偶有重疊,總體上各利益相關(guān)方對研究數(shù)據(jù)的開放獲取的意義已達成共識,但各利益相關(guān)方對實現(xiàn)開放研究數(shù)據(jù)的方式的認識并不一致。本研究主要探討在推動科學(xué)數(shù)據(jù)開放共享中,出版商數(shù)據(jù)政策的現(xiàn)狀、問題,并構(gòu)建相應(yīng)模型,提出相應(yīng)建議。
1.2 出版商在科學(xué)數(shù)據(jù)開放共享系統(tǒng)中的目標
在促進研究數(shù)據(jù)開放共享方面,各利益相關(guān)方發(fā)揮不同的作用。出版商通過期刊向作者提供數(shù)據(jù)共享政策,在數(shù)據(jù)開放中發(fā)揮著重要作用。研究出版商的數(shù)據(jù)政策,是因為這是在研究過程中將數(shù)據(jù)政策與研究人員密切關(guān)聯(lián)起來的點,為研究成果,研究人員有動力、有可能遵守數(shù)據(jù)政策。同時,研究發(fā)現(xiàn),雖然包括出資者和研究機構(gòu)都可能有適用于研究人員的政策,但遵守這些政策的研究人員的比例還很低。研究人員沒有遵守數(shù)據(jù)政策的直接動力;此外研究人員在需要進行數(shù)據(jù)存檔時,可能也沒有合適的機構(gòu)知識庫可以選擇。出版商提出的數(shù)據(jù)政策,是在研究人員完成研究過程后發(fā)表研究成果前,研究人員有可能、有動力遵守出版商的數(shù)據(jù)政策。
1.2.1 科學(xué)數(shù)據(jù)開放共享的價值
科學(xué)的思想與科學(xué)的證據(jù)互相佐證,研究數(shù)據(jù)和科學(xué)實踐之間的聯(lián)系是不言自明的,因此,推動開放獲取研究數(shù)據(jù),與促進科學(xué)嚴謹?shù)哪繕讼嘁恢隆8蟪潭鹊毓蚕砼c獲取數(shù)據(jù),能加強科學(xué)的基礎(chǔ)價值,即允許科學(xué)研究有效地自我校正,以便二次分析、檢驗、質(zhì)疑或改進原有成果[3]。此外,開放獲取政策通過減少重復(fù)工作,最大限度地減少研究人員用在搜索信息和數(shù)據(jù)方面的精力,因而改善了他們的工作條件。
JISC以英國高等教育和研究機構(gòu)為例,指出研究數(shù)據(jù)的監(jiān)護與開放共享具有如下利益[4]: ①研究人員能夠更廣泛地獲得數(shù)據(jù),從而促進更多的跨部門的合作,研究人員在行業(yè)、政府和非政府組織內(nèi)有可能獲得大量的教育和培訓(xùn)機會。數(shù)據(jù)的開放共享有助于實現(xiàn)數(shù)據(jù)使用和重用,降低數(shù)據(jù)的收集和復(fù)制成本,分擔(dān)數(shù)據(jù)收集的直接和間接成本(如避免調(diào)查疲勞,從而提高響應(yīng)率等),創(chuàng)造出在數(shù)據(jù)收集時未曾預(yù)想到的新的利用方式,進行數(shù)據(jù)挖掘等。②在項目申請撥款和評估階段、出版和研究評估階段,更容易發(fā)現(xiàn)欺詐和抄襲,更容易進行評估和同行審查。因此將有機會創(chuàng)造更加完整和透明的科學(xué)記錄。③通過將研究人員、知識庫、資助者與有價值的資源相鏈接,從而有更多的機會提高研究的可見度。
科學(xué)研究系統(tǒng)中的各個利益相關(guān)者群體認識到走向開放數(shù)據(jù)的利益,認同將數(shù)據(jù)的開放共享置于戰(zhàn)略高度進行考慮??茖W(xué)表現(xiàn)為知識積累的過程,數(shù)據(jù)在促進早期工作中起著重要作用。開放獲取研究數(shù)據(jù),通過避免重復(fù)勞動,促進協(xié)作,有助于顯著加快這一科學(xué)過程,從整體上使科學(xué)成為更加透明的進程,實現(xiàn)推動公眾參與,激勵創(chuàng)新和改革公共服務(wù)的宗旨[5]。
1.2.2 基本情況
出版商作為利益相關(guān)者,越來越關(guān)注數(shù)據(jù)密集型研究,認同開放獲取研究數(shù)據(jù)的意義。很多出版商認同布魯塞爾宣言,即“所有的研究者應(yīng)能自由地獲取原始研究數(shù)據(jù)。出版商鼓勵公開公布原始研究數(shù)據(jù)結(jié)果,將相關(guān)的數(shù)據(jù)集及子數(shù)據(jù)集與論文共同提交給期刊,應(yīng)盡可能讓其他研究人員自由獲取”[6]。很多出版商的數(shù)據(jù)政策為強制性政策,要求作者將支持出版物的研究數(shù)據(jù)存儲在經(jīng)認證的知識庫中,實現(xiàn)開放獲取。研究表明,如果期刊具有強制性數(shù)據(jù)政策,并且有可獲取數(shù)據(jù)的聲明,那么在線找到該數(shù)據(jù)的可能性,幾乎是沒有類似政策的期刊的1 000倍[7]。
盡管目前出版商已開始重視出版物的開放獲取,將開放獲取作為一種出版的商業(yè)模式,不過出版商參與研究數(shù)據(jù)的出版,特別是開放獲取研究數(shù)據(jù),目前尚未形成規(guī)模。出版商關(guān)注研究數(shù)據(jù)及其開放,重要原因在于數(shù)據(jù)為出版商的主要產(chǎn)品即出版物增加了價值,數(shù)據(jù)有助于驗證研究成果,從而增強了所發(fā)表研究成果的可信性,而可信度對于研究具有重要意義[2]。此外,資助機構(gòu)的政策要求公開獲取研究數(shù)據(jù),實質(zhì)上向出版商施加了壓力,出版商需要參與到研究數(shù)據(jù)開放獲取中,幫助作者和研究機構(gòu)符合出資人的要求?,F(xiàn)在,領(lǐng)先發(fā)展的出版商開始與其他利益相關(guān)方合作,試圖挖掘研究數(shù)據(jù)的潛能,形成以數(shù)據(jù)為基礎(chǔ)的新產(chǎn)品和服務(wù),對研究數(shù)據(jù)進行同行評議,開展提高數(shù)據(jù)質(zhì)量的其他服務(wù)。
2 出版商主要數(shù)據(jù)管理政策
本研究根據(jù)STM的年度報告[8],確定出以下出版商為主要分析對象(見表1)。這十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究將開放獲取出版商,科學(xué)公共圖書館(PLoS)、生物醫(yī)學(xué)中心(BioMed Central)的數(shù)據(jù)開放政策考慮在內(nèi)。
2.1 出版商數(shù)據(jù)政策現(xiàn)狀
2.1.1 將開放獲取作為默認情況
出版商將數(shù)據(jù)的開放獲取作為訂立政策的基礎(chǔ),如PLOS研究數(shù)據(jù)開放獲取強制性政策[9],指出除了極少數(shù)例外情況,支持PLOS出版物的所有研究數(shù)據(jù)都必須開放獲取。作者在向PLOS提交稿件時,要同時提交數(shù)據(jù)可用性聲明,在聲明中表明遵守PLOS的政策規(guī)定,在手稿成功提交后,數(shù)據(jù)作為最終手稿的部分內(nèi)容。PLOS要求作者將數(shù)據(jù)存儲于推薦的經(jīng)認證的數(shù)據(jù)中心或知識庫。小數(shù)據(jù)集可與稿件一并上傳。PLOS的編輯和投稿指南,向研究人員提供指導(dǎo),協(xié)助研究人員遵守期刊開放數(shù)據(jù)政策。在限制數(shù)據(jù)獲取的情況下,PLOS有權(quán)修正說明,聯(lián)系作者的機構(gòu)或資助者,甚至撤銷出版。
2.1.2 新的出版形式的出現(xiàn)
出版界越來越關(guān)注開放數(shù)據(jù),產(chǎn)生了一種新型出版產(chǎn)品,即數(shù)據(jù)期刊。數(shù)據(jù)期刊的出現(xiàn),與數(shù)據(jù)可以單獨緊密相關(guān)。數(shù)據(jù)的單獨可以確保數(shù)據(jù)作為科學(xué)記錄的基本組成部分,以可理解的形式向科學(xué)界提供。數(shù)據(jù)期刊是同行評議的開放獲取平臺,用于、分享和傳播各學(xué)科的數(shù)據(jù)。發(fā)表的數(shù)據(jù)論文包含數(shù)據(jù)集的具體相關(guān)信息,如收集、處理方式等。發(fā)表的數(shù)據(jù)論文與認可的知識庫互相關(guān)聯(lián),數(shù)據(jù)論文引用存儲于知識庫或數(shù)據(jù)中心中的數(shù)據(jù)集。正如澳大利亞國家數(shù)據(jù)服務(wù)中心(ANDS)在其數(shù)據(jù)期刊指南中所指出的,“從根本上說,數(shù)據(jù)期刊尋求促進科學(xué)認證和再利用,提高科學(xué)方法和結(jié)果的透明度,支持良好的數(shù)據(jù)管理方法,并為數(shù)據(jù)集提供一個可訪問的、永久的、可解析的路徑”。ANDS指出,數(shù)據(jù)論文的出版過程包括對數(shù)據(jù)集的同行評議,最大限度地提高了數(shù)據(jù)再利用的機會,并為研究人員提供了學(xué)術(shù)認可的可能性[10]。
2.1.3 同行評審
對研究數(shù)據(jù)與數(shù)據(jù)出版物開放獲取的關(guān)注,彰顯了研究數(shù)據(jù)的科學(xué)質(zhì)量及研究數(shù)據(jù)同行評審的重要意義。在此背景下,一些出版商將同行評議的范圍擴大到包括數(shù)據(jù)在內(nèi)的同行評審。M. S. Mayernik等2014年進行了有關(guān)“數(shù)據(jù)同行評審”的研究,提出因為出版物或資源類型有所不同,進行同行評審的方式也必須有所變化。研究者對幾種類型的評審資源進行了區(qū)分,包括在傳統(tǒng)科學(xué)論文中分析的數(shù)據(jù),在傳統(tǒng)科學(xué)期刊上的數(shù)據(jù)文章,以及通過數(shù)據(jù)期刊的開放獲取知識庫與數(shù)據(jù)集。M. S. Mayernik等針對數(shù)據(jù)的同行評審、數(shù)據(jù)的質(zhì)量保證過程確定了一些共同因素,包括:可通過數(shù)據(jù)中心或知識庫獲取數(shù)據(jù)集;數(shù)據(jù)集有足夠的信息以備評審;期刊有明確的方針指明審核的要點,指導(dǎo)評審者進行數(shù)據(jù)審查等[11]。
開放考古學(xué)雜志(JOAD[12-13])對所有提交的數(shù)據(jù)論文采用同行評審程序,評審內(nèi)容包括論文的內(nèi)容與存儲的數(shù)據(jù)。論文的內(nèi)容指與數(shù)據(jù)集的建立和重用相關(guān)的信息,以及對數(shù)據(jù)集的描述。存儲的數(shù)據(jù)指以可持續(xù)性模式提交到存儲庫的數(shù)據(jù),包括其許可方式。
2.1.4 數(shù)據(jù)引用
除對數(shù)據(jù)進行同行評審?fù)猓霭嫔踢€逐步引入數(shù)據(jù)引用政策,以促進研究數(shù)據(jù)的標準化使用。研究數(shù)據(jù)對研究過程具有重要價值與意義,為擴大高質(zhì)量研究數(shù)據(jù)的傳播,形成數(shù)據(jù)利用的規(guī)范方式,F(xiàn)ORCE11[14]制定了數(shù)據(jù)引用的主要原則。FORCE11的引用原則的前提是數(shù)據(jù)引用需要實現(xiàn)人類和機器均可讀。該數(shù)據(jù)引用原則可能并不全面,主要目的是鼓勵各學(xué)科制定體現(xiàn)自身特點的引用方式。
FORCE11原則包括:說明數(shù)據(jù)引用的重要性;通過數(shù)據(jù)引用促進學(xué)術(shù)信用;數(shù)據(jù)引用要實現(xiàn)機器可操作性,包括全球永久唯一標識符;數(shù)據(jù)引用要促進對數(shù)據(jù)本身的獲?。粩?shù)據(jù)引用應(yīng)該具有持久性;便于識別,易于獲取,可以驗證;具有互操作、靈活性等特點。
2.1.5 內(nèi)容發(fā)現(xiàn)和鏈接服務(wù)
出版商逐漸把發(fā)展方向轉(zhuǎn)移到內(nèi)容發(fā)現(xiàn)和鏈接服務(wù),專注于文本與數(shù)據(jù)挖掘(TDM)工具,以便能開發(fā)內(nèi)容,進而提供相關(guān)服務(wù)。出版商越來越關(guān)注數(shù)據(jù)挖掘是研究人員利用大型數(shù)據(jù)庫的內(nèi)容、數(shù)據(jù)和出版物的需求的直接結(jié)果。一份文本和數(shù)據(jù)挖掘?qū)<倚〗M的報告指出,TDM是一種重要技術(shù),可用于從指數(shù)級增長的數(shù)字數(shù)據(jù)中,分析和提取新的見解和知識[15]。該報告的結(jié)論是,因為研究人員的技能和技術(shù)不斷提升,所研究的數(shù)據(jù)集的復(fù)雜性、多樣性及規(guī)模不斷擴大,因此TDM有可能會更加重要。但對于利用文本與數(shù)據(jù)挖掘工具是否應(yīng)有所限制,目前仍有爭議。
2.2 期刊數(shù)據(jù)政策問題
2.2.1 數(shù)據(jù)格式與文件大小的差異
期刊要包括支持文章結(jié)果的所有數(shù)據(jù),往往是很難實現(xiàn)的。研究的方法不同,產(chǎn)生的數(shù)據(jù)也大不相同,數(shù)據(jù)的格式和文件大小差異巨大。定性研究生成的數(shù)據(jù),多以文本形式存在,例如實地觀察筆記,或采訪或報道的文字記錄等。定量研究生成的數(shù)據(jù),多以電子表格的形式保存。一項研究可能產(chǎn)生多種類型的數(shù)據(jù),而論文可能包括附加文本、數(shù)值數(shù)據(jù)集和數(shù)字圖像,這些都可能增加論文的大小。因此出版商表現(xiàn)出對集成到每篇論文中的數(shù)據(jù)集大小的關(guān)注。某些出版商開始嘗試出版在線期刊文章,以包括多種數(shù)據(jù),例如愛思唯爾的有關(guān)未來的文章的探索[16]。然而,并不是每一種期刊都有包括各種數(shù)據(jù)的能力。這就要求期刊的辦刊方針應(yīng)清楚說明,作為論文組成部分的數(shù)據(jù),在何種程度上可以包括在論文中。
2.2.2 機構(gòu)知識庫的成本
為解決出版商服務(wù)器超載的問題,將期刊文章的重要數(shù)據(jù)鏈接到一個特定的機構(gòu)知識庫,可能是一個合理的選擇,但這將相關(guān)的長期運營成本轉(zhuǎn)嫁到了機構(gòu)中。但資助者目前的基金中并不包括這部分資金,而機構(gòu)可能也并不愿意在當(dāng)前的管理費用中增加這種支出。這就使得在機構(gòu)知識庫中存儲科學(xué)數(shù)據(jù)的可持續(xù)性有待探討。
2.2.3 研究人員對數(shù)據(jù)開放的認識
許多研究人員并不知道相關(guān)的知識庫,為此期刊數(shù)據(jù)政策應(yīng)說明,數(shù)據(jù)是否應(yīng)該在認可的知識庫中存儲,是否要使用永久統(tǒng)一資源定位符(URL),是否要采用某種形式的數(shù)據(jù)引用。數(shù)據(jù)的時間也是一個需要關(guān)注的問題,研究人員并不關(guān)心在出版過程中的什么時候數(shù)據(jù)可被公開訪問,而是關(guān)心在研究過程中何時數(shù)據(jù)應(yīng)被公開訪問。研究論文并不是在研究結(jié)果全部產(chǎn)生后才會形成,而是在研究過程中逐步產(chǎn)生的。在的同時,是否適合研究數(shù)據(jù)取決于多種因素,諸如某些形式的數(shù)據(jù)有敏感性,要保護受試者等因素。
3 構(gòu)建期刊研究數(shù)據(jù)策略模型框架
3.1 出版商期刊政策的基本要求
有效的政策制定過程必然需要將注意力集中于數(shù)據(jù)共享過程中各利益相關(guān)方的意見,而目前的數(shù)字基礎(chǔ)設(shè)施在不斷變化,出版商、知識庫和系統(tǒng)之間,并沒有強有力的措施鼓勵共享數(shù)據(jù)。共同點包括:①出版商共享數(shù)據(jù)的方式差異很大;②在出版過程中,出版商對所接受的數(shù)據(jù)類型、數(shù)據(jù)應(yīng)存儲的地點、應(yīng)存儲的時間等說明,模糊不清;③研究人員普遍贊成共享數(shù)據(jù),但研究人員不知道該如何克服共享障礙;④研究人員認為出版商和期刊有關(guān)數(shù)據(jù)格式和存放地點等清晰的政策,將有益于研究;⑤出版商也認為在數(shù)據(jù)的關(guān)聯(lián)與嵌入方面存在障礙。
科學(xué)數(shù)據(jù)共享的許多問題,能夠在出版過程中通過期刊強有力而明確的政策加以解決。因此,本研究的目標是確定能推薦給期刊使用的政策模型。研究收集到的期刊政策信息,對材料進行分析后,歸納出目前主要的政策要求,如表2所示:
3.2 框架模型
基于以上所列出的觀察,形成基本的期刊研究數(shù)據(jù)政策的模型框架。由資助者和研究機構(gòu)作為一方,與出版商的另一方進行合作,發(fā)展數(shù)據(jù)政策。表3為所構(gòu)建的期刊研究數(shù)據(jù)策略模型框架。
3.3 實施方式
3.3.1 逐步制定出版物的支持性數(shù)據(jù)的強制性開放共享政策
出版商應(yīng)該支持期刊編輯制定研究數(shù)據(jù)的強制性政策,從而提高研究過程透明度,擴展研究數(shù)據(jù)的潛力。數(shù)據(jù)的編輯政策應(yīng)解決諸如文檔、元數(shù)據(jù)、數(shù)據(jù)出版格式、許可、引用等問題。編輯政策要求作者在文章提交過程和同行評議過程中,提交數(shù)據(jù)的可用性描述。對提交的文章不符合規(guī)定的情況,政策應(yīng)提出對應(yīng)的措施,如撤銷發(fā)表的文章。
3.3.2 與認證知識庫和數(shù)據(jù)中心協(xié)作,簡化數(shù)據(jù)提交流程
出版商可按照相關(guān)標準考查知識庫與數(shù)據(jù)中心的可信度,與符合數(shù)據(jù)認證標準的數(shù)據(jù)中心與知識庫協(xié)作。類似的知識庫或數(shù)據(jù)中心可以是主題明確的學(xué)科知識庫,也可以是機構(gòu)知識庫或綜合知識庫。二者的合作應(yīng)該會產(chǎn)生積極影響,為研究人員和研究機構(gòu)提供高品質(zhì)的產(chǎn)品和服務(wù),服務(wù)具有可操作性、技術(shù)上無縫的特點,從而實現(xiàn)以開放格式傳播和保存高質(zhì)量的學(xué)術(shù)產(chǎn)品和研究數(shù)據(jù)。對于沒有公認的數(shù)據(jù)中心或知識庫的學(xué)科,出版商對研究人員提供指導(dǎo)和幫助,提供適合存儲與獲取的機構(gòu)知識庫建議,或提供商業(yè)數(shù)據(jù)服務(wù)。在這方面,出版商的角色應(yīng)該是更多地促使學(xué)術(shù)團體建立資源庫評估準則,從而幫助研究人員選擇合適的存儲庫。當(dāng)學(xué)術(shù)界建立起知識庫的認可標準,出版商就可以通過期刊政策執(zhí)行這些標準。
3.3.3 數(shù)據(jù)作為一流學(xué)術(shù)成果,接受同行評議
出版商的主要職責(zé)之一是確保出版物的高質(zhì)量,而研究數(shù)據(jù)同行評審制度的建立,有助于提升出版產(chǎn)品的品質(zhì)。同行評審過程,應(yīng)詳細說明評審的標準,要評估研究數(shù)據(jù)的技術(shù)與質(zhì)量問題,技術(shù)方面如考量數(shù)據(jù)集的完整性和一致性,收集數(shù)據(jù)的標準,使用的軟件等;研究數(shù)據(jù)的科學(xué)質(zhì)量則由研究團體通過出版前與出版后的同行評審進行評估。同行評審流程中,出版商也應(yīng)該探索對評審者的激勵方式,包括支付酬金,邀請編寫特稿,加入編輯委員會,甚至聘用一些專家進行內(nèi)容評審。
3.3.4 發(fā)展有關(guān)研究數(shù)據(jù)引用的策略
研究數(shù)據(jù)通過傳統(tǒng)的出版過程傳播,為實現(xiàn)數(shù)據(jù)的長期可重用,需建立并使用數(shù)據(jù)的引用標準。在這方面,出版商應(yīng)要求出版物及相關(guān)的數(shù)據(jù)可引用,并為數(shù)據(jù)的引用提供明確指導(dǎo)。在說明數(shù)據(jù)引用時,出版商可參照一些已有的實踐,如Force11[14]的原則,參與DataCite[17],加入到研究界和編輯討論的過程中。數(shù)據(jù)引用應(yīng)包括DOI,以及使用許可信息,如創(chuàng)作共用許可,數(shù)據(jù)的引用方式最好是機器可操作的,可讓用戶知道可以如何處理研究數(shù)據(jù)。
3.3.5 建立許可政策鼓勵進行文本數(shù)據(jù)挖掘
出版商的編輯政策應(yīng)以清晰的方式,說明研究數(shù)據(jù)的與獲取方式,如默認或建議開放獲取等??紤]到文本數(shù)據(jù)挖掘工具可帶來顯著經(jīng)濟效益,鼓勵出版商調(diào)整策略,允許研究人員在研究中使用這種技術(shù)。
關(guān)鍵詞:
房地產(chǎn)批量評估,標準價調(diào)整法,多元線性回歸模型,數(shù)據(jù)挖掘
根據(jù)房地產(chǎn)批量評估技術(shù)中人工參與程度的多少,現(xiàn)行批量評估技術(shù)方法可分為:以人工為主、以計算機技術(shù)為主和以人工與計算機技術(shù)相結(jié)合三類。本文將對此進行討論,對如何選用房地產(chǎn)批量評估技術(shù)方法進行研究。
1以人工為主的技術(shù)方法之標準價調(diào)整法
1.1標準價調(diào)整法的概念標準價調(diào)整法,作為市場比較法派生出來的一種方法,類似于城市動拆遷評估中的基準價格修正法和香港的指標估價法,但又有其自身的特點。標準價調(diào)整法可定義為:一種批量估價方法,在一定區(qū)域范圍內(nèi)進行估價分區(qū),在每個估價分區(qū)內(nèi)設(shè)定標準房地產(chǎn)并求其價值,利用房地產(chǎn)價格調(diào)整系數(shù)將標準房地產(chǎn)價格調(diào)整為各宗房地產(chǎn)的價值。標準價調(diào)整法適用于估價對象物業(yè)屬性和估價特性較為近似的物業(yè),尤其適用于小范圍且價格影響因素少的樓棟批量評估。
1.2標準價調(diào)整法在不同物業(yè)類型中的應(yīng)用標準價調(diào)整法的實施涉及到:估價分區(qū)的劃分、標準房的設(shè)定、價格修正系數(shù)的設(shè)定以及標準房價格的評估。無論應(yīng)用于哪種物業(yè)類型,這四個步驟必不可少,差異在于各步驟的具體實施方法不盡相同。在住宅物業(yè)的評估中,往往以小區(qū)作為估價分區(qū)的劃分,在一個小區(qū)內(nèi)根據(jù)一定規(guī)則設(shè)定一個標準房,再由有經(jīng)驗的估價師根據(jù)實地調(diào)研情況設(shè)置標準房與其他房屋之間的價格差異系數(shù)。最后仍由估價師定期對標準房進行估價,并通過已設(shè)定的系數(shù)求得所有物業(yè)的價格。在辦公物業(yè)的評估中,差異在于分區(qū)是以樓棟或項目來劃分,后續(xù)步驟和住宅一致。在集中型商業(yè)物業(yè)或工業(yè)物業(yè)中,都可以借鑒上述方法來進行操作。但在沿街零售型物業(yè)中,由于沿街零售性物業(yè)分布廣泛,沒有明顯的集中趨勢,并且價格影響因素的差異較大,導(dǎo)致標準價調(diào)整法的應(yīng)用也與其他物業(yè)類型有較大不同,主要表現(xiàn)在估價分區(qū)的劃分和價格修正系數(shù)的設(shè)定這兩個環(huán)節(jié)?,F(xiàn)有的技術(shù)方案一般采集兩級調(diào)整的方案。按商圈(或類似因素)將城市區(qū)域劃分成諸多估價分區(qū),在每個分區(qū)中設(shè)定一個標準商鋪,稱為區(qū)域基準商鋪。之后在分區(qū)內(nèi)再進行一次估價分區(qū)的劃分,這一劃分以路段為分區(qū),在每個路段中設(shè)定一個標準商鋪,稱為路段基準商鋪。估價人員經(jīng)過現(xiàn)場調(diào)研后,需設(shè)置兩級修正系數(shù),即區(qū)域基準商鋪與路段基準商鋪的價格調(diào)整系數(shù),以及路段基準商鋪與路段內(nèi)其他商鋪的價格修正系數(shù)。最后經(jīng)估價師定期對區(qū)域基準商鋪進行估價,并通過兩級系數(shù)的修正求得所有商鋪的價格。
1.3標準價調(diào)整法的優(yōu)點①在規(guī)模較小的城市中,可以實現(xiàn)絕大部分物業(yè)的批量評估需求,具有較強的實用性。②可以達到較高的批量評估覆蓋率。③估價準確性較好,并具有較好的質(zhì)量可控性。④除建設(shè)初期投入的人員成本和時間成本較大,后續(xù)維護的成本適中。
1.4標準價調(diào)整法的缺點①由于人工作業(yè)的工作量太大,不適用大、中型城市。②對估價人員的經(jīng)驗要求較高,尤其是系數(shù)設(shè)置與標準房的價格評估等環(huán)節(jié)對質(zhì)量的要求很高。團隊運作時,需要具備較高的質(zhì)量管理能力。③不同物業(yè)間的系數(shù)關(guān)系可能受到市場、規(guī)劃等因素的影響而改變,需要定期進行監(jiān)控和維護,有一定的難度或容易疏忽和遺漏。
2以人工為主的技術(shù)方法之多元線性回歸模型
2.1多元線性回歸模型簡述多元回歸分析是目前在國外批量評估中占主流的校準技術(shù),包括線性回歸分析和非線性回歸分析。其基本原理是:在大量樣本的基礎(chǔ)上,通過對變量、誤差的假定,依靠最小二乘法來擬合因變量與自變量關(guān)系,從而建立數(shù)學(xué)模型。多元回歸是統(tǒng)計學(xué)方法,運用時要和經(jīng)濟學(xué)理論結(jié)合,實踐中對多元回歸模型的應(yīng)用是基于特征價格理論。國內(nèi)關(guān)于運用特征價格理論來進行房地產(chǎn)價格批量評估也有較多的研究和學(xué)術(shù)論文,但絕大多數(shù)還處于理論研究階段。
2.2多元回歸分析的主要步驟多元回歸既可以用來預(yù)測售價,也可以用來預(yù)測租金,甚至可以用來統(tǒng)計其他中間參數(shù)。在步驟上不同類型的物業(yè)沒有明顯區(qū)別,只是在變量的選擇與量化上有所不同。為便于表述,下面以預(yù)測辦公物業(yè)價格為例來進行闡述。①選取樣本:為了訓(xùn)練預(yù)測辦公物業(yè)價格的模型方程,在目標范圍內(nèi)選取一定數(shù)量的樣本,調(diào)研其價格信息和基礎(chǔ)信息。這里的重點是樣本對總體的代表性以及樣本數(shù)據(jù)采集的準確性。②構(gòu)建辦公物業(yè)價格影響因素體系:通過調(diào)研分析以及房產(chǎn)專家意見調(diào)查,歸納出可能影響辦公物業(yè)價格的特征變量,并進行賦值量化。③模型擬合:觀察、分析特征變量的變動規(guī)律,采用統(tǒng)計分析軟件進行分析,對模型和特征變量賦值不斷地嘗試和修正,找出合理的價格和各特征變量之間的定量關(guān)系。④模型檢驗:最終得到的模型是否成功,取決于經(jīng)濟意義檢驗、統(tǒng)計檢驗、計量經(jīng)濟學(xué)檢驗以及模型預(yù)測檢驗。其中統(tǒng)計檢驗包括了擬合優(yōu)度檢驗和顯著性檢驗;計量經(jīng)濟學(xué)檢驗包括多重共線性檢驗及異方差檢驗等。但凡通過上述所有的檢驗,即可認為模型已成功建立。⑤模型應(yīng)用:對辦公物業(yè)的特征變量進行賦值,代入最終的模型進行自動計算,即可評估辦公物業(yè)的價格。
2.3多元線性回歸模型的優(yōu)點①多元回歸方法所涉及的工作量主要在于特征變量的數(shù)量以及特征變量的賦值容易程度,受城市規(guī)模的影響較小,因此可以適用于大中型及以上城市。②多元回歸方法通過擬合因變量與自變量關(guān)系從而建立數(shù)學(xué)模型,這個過程與何種物業(yè)類型無關(guān),因此理論上多元回歸方法適合各類型物業(yè)的批量評估建模。③通過“調(diào)整R方”和“標準誤差”兩項指標,基本可以判斷和掌握模型價格估計的準確度,并且可以對模型進行持續(xù)改進,從而保證批量評估的準確性。④在市場穩(wěn)定時期,由于自變量與因變量的關(guān)系也較為穩(wěn)定,因此模型更新維護的成本較低,從而價格更新的成本也較低。
2.4多元線性回歸模型的缺點①在不同區(qū)域或不同市場,價格的影響因素不盡相同,建立的回歸模型也不相同。因此對每個城市每個物業(yè)類型的市場需要分別建立回歸模型。②多元回歸的建模研究過程中,在理論假設(shè)、建模方法、數(shù)據(jù)采集等各環(huán)節(jié)中,需要綜合的知識、經(jīng)驗和技能要求。除了房地產(chǎn)估價師所需具備的估價理論知識、實務(wù)經(jīng)驗、調(diào)研及價格判斷能力外,還需要統(tǒng)計學(xué)、經(jīng)濟學(xué)等多學(xué)科知識。對人員和團隊的綜合能力要求很高,而這往往是傳統(tǒng)估價機構(gòu)所欠缺的。③對樣本數(shù)據(jù)的準確性要求較高。如果沒有準確的樣本數(shù)據(jù),建立科學(xué)的經(jīng)濟學(xué)模型則為空中樓閣。而要獲得準確的樣本數(shù)據(jù),長久以來一直是一個難題,其中有人為的因素(如交易避稅),也有客觀的因素(如商業(yè)物業(yè)的交易活躍度低)。④在市場波動大的時候,原有模型可能失效或者預(yù)測能力大幅下降,而模型的迭代或維護周期較長,可能無法及時調(diào)整。
3以計算機技術(shù)為主的技術(shù)方法
房地產(chǎn)批量評估領(lǐng)域中以計算機技術(shù)為主的技術(shù)方法主要是基于大數(shù)據(jù)的數(shù)據(jù)挖掘。這一技術(shù)的應(yīng)用最早開始于房地產(chǎn)互聯(lián)網(wǎng)企業(yè),如搜房、安居客等房地產(chǎn)房源網(wǎng)站,后來逐步被引入到房地產(chǎn)批量評估的技術(shù)或產(chǎn)品研發(fā)中來。
3.1數(shù)據(jù)挖掘的方法和原理首先,數(shù)據(jù)挖掘的前提需要有大量的數(shù)據(jù)可供挖掘。隨著互聯(lián)網(wǎng)在各行各業(yè)的不斷滲透,房地產(chǎn)中介行業(yè)中出現(xiàn)了大量房源網(wǎng)站,并逐步成為了房地產(chǎn)經(jīng)紀人房源招攬客戶的主要渠道。一個房源網(wǎng)站中可以搜索的房源數(shù)量多達數(shù)十萬甚至上百萬條,并且每天都有數(shù)萬條以上的數(shù)據(jù)更新。這樣的網(wǎng)站有好幾家,為房地產(chǎn)的數(shù)據(jù)挖掘提供了可行的前提。其次,結(jié)構(gòu)化的數(shù)據(jù)為數(shù)據(jù)的采集提供了便利。在房源網(wǎng)站中,房源已經(jīng)按小區(qū)進行了分類,經(jīng)紀人哪個小區(qū)的房源,則該房源將展現(xiàn)在該小區(qū)的搜索項下。至于面積、房型、價格、樓層以及裝修等參數(shù),也都以格式化的方式來展現(xiàn)。因此,利用互聯(lián)網(wǎng)爬蟲等抓取技術(shù),可以方便的將這些網(wǎng)站的房源抓取下來,并建立房源案例數(shù)據(jù)庫。最后,是數(shù)據(jù)挖掘工作。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。根據(jù)上述定義和描述可以發(fā)現(xiàn),數(shù)據(jù)挖掘的核心是算法,而這個算法在不同的批量評估系數(shù)或產(chǎn)品中都不相同,算法的優(yōu)劣也決定了不同系統(tǒng)或產(chǎn)品的優(yōu)劣。
3.2數(shù)據(jù)挖掘方法的優(yōu)點①高效無疑是數(shù)據(jù)挖掘方法的最大優(yōu)點。一旦完成對算法的研究,價格估算的工作都可以交由計算機來完成。②對整體市場價格運行的反映具有較高的準確度。
3.3數(shù)據(jù)挖掘方法的缺點①對微觀市場價格運行的反映可能存在較大偏差。微觀市場中,例如一個住宅小區(qū),其掛牌房源的數(shù)量就很有限了,即使規(guī)模最大的小區(qū),也就是幾百的數(shù)量級。這樣大數(shù)據(jù)挖掘的數(shù)據(jù)數(shù)量前提已不滿足,從而影響了對微觀市場的價格估計。②批量評估的覆蓋面不完整?;ヂ?lián)網(wǎng)數(shù)據(jù)雖然總量巨大,但并非面面俱到。以住宅小區(qū)為例,一些體量較小的小區(qū),或者一些遠郊區(qū)域,可能無法在互聯(lián)網(wǎng)上被搜索到。因此,基于互聯(lián)網(wǎng)數(shù)據(jù)挖掘的批量評估勢必在覆蓋面上存在缺陷。
4以人工與計算機技術(shù)相結(jié)合的技術(shù)方法
房地產(chǎn)批量評估,尤其是涉稅的批量評估對評估系統(tǒng)的要求主要有:全面覆蓋所有物業(yè)、估價結(jié)果準確以及系統(tǒng)維護成本適中。根據(jù)前文對各方法的論述,單一方法很難實現(xiàn)上述要求。如標準價調(diào)整法若在大型或超大型城市中應(yīng)用,將面臨很高的運營成本;多元回歸建模的更新維護周期較長,當(dāng)市場出現(xiàn)快速波動時可能無法及時調(diào)整;基于大數(shù)據(jù)的數(shù)據(jù)挖掘在估價精度與覆蓋面上都有所欠缺??傊?,無論從技術(shù)上論證還是從實施效果來看,多種方法的有效結(jié)合是較為理想的,也是房地產(chǎn)批量評估技術(shù)的發(fā)展趨勢。實踐中各方法的結(jié)合已有普遍應(yīng)用,并且各有巧妙,方法不盡相同。下面就幾種簡單的組合方式進行討論。
4.1標準價調(diào)整法與大數(shù)據(jù)挖掘技術(shù)的組合大數(shù)據(jù)挖掘可以滿足一些活躍小區(qū)的價格估算,因為活躍小區(qū)的掛牌房源較多,能滿足算法所要求的數(shù)據(jù)量前提,而不活躍的小區(qū)則無法為算法提供足夠的“原材料”,因此不適用數(shù)據(jù)挖掘的方法。這時就可以運用標準價調(diào)整法來彌補。按照標準價調(diào)整法的原理,在不活躍小區(qū)的臨近或相似區(qū)域內(nèi)設(shè)置一個標準房,經(jīng)人工調(diào)研后設(shè)置標準房與不活躍小區(qū)價格的調(diào)整系數(shù)。這樣在算法得出活躍小區(qū)價格的同時,可以利用預(yù)先設(shè)置好的系數(shù)一并計算不活躍小區(qū)的價格。此外,在算法可以計算的活躍小區(qū)的價格中,也有可能存在價格偏差。這時也可以應(yīng)用標準價調(diào)整法的思路,設(shè)置活躍小區(qū)間的價格調(diào)整系數(shù),來檢驗算法所得結(jié)果的合理性。這一組合的應(yīng)用前提主要是看大數(shù)據(jù)挖掘的應(yīng)用前提是否存在,即是否存在大量數(shù)據(jù)可供挖掘,因此適合房地產(chǎn)市場規(guī)模較大,“互聯(lián)網(wǎng)+”比較發(fā)達的城市和地區(qū)。此外,在結(jié)合了大數(shù)據(jù)挖掘技術(shù)后,標準價調(diào)整法可以應(yīng)用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回歸模型與大數(shù)據(jù)挖掘技術(shù)的組合除了對人員的能力要求以及對樣本數(shù)據(jù)的質(zhì)量要求較高以外,多元回歸模型最大的弱點在于迭代問題。市場不斷變化,模型不可能一成不變,當(dāng)市場發(fā)生變化并導(dǎo)致變量之間的關(guān)系也發(fā)生改變時,原有模型的價格預(yù)計精度必然下降,此時必須對模型進行重新構(gòu)建。問題在于市場價格變化未必會導(dǎo)致變量間的關(guān)系也發(fā)生變化(或變化很?。?,或者當(dāng)變量間關(guān)系發(fā)生變化時,人員主觀上可能無法及時發(fā)現(xiàn)。當(dāng)主觀能夠感受到變量間的關(guān)系出現(xiàn)變化時,往往已經(jīng)有了很大的變化。此時再進行模型的迭代就已近晚了,之前的價格估算可能已經(jīng)出現(xiàn)了錯誤。大數(shù)據(jù)挖掘技術(shù)可以很好地彌補上述的缺陷。大數(shù)據(jù)挖掘不僅可以直接計算某些具體變量,任何數(shù)據(jù)內(nèi)在的規(guī)律和關(guān)聯(lián)都可能應(yīng)用大數(shù)據(jù)挖掘的方式進行探索和發(fā)現(xiàn),并且能對極為細小的數(shù)值波動進行反應(yīng)。利用數(shù)據(jù)挖掘的這一特性,可以建立對變量的波動監(jiān)控,當(dāng)波動超過一定的預(yù)設(shè)閥值即可啟動模型的迭代更新。這一組合的應(yīng)用前提同樣取決于大數(shù)據(jù)挖掘的應(yīng)用前提,除了城市規(guī)模等情況限制外,如商業(yè)物業(yè)、工業(yè)廠房等物業(yè)市場也不適用。
4.3標準價調(diào)整法與多元回歸模型的組合標準價調(diào)整法往往適用于特性相近的物業(yè),如在一個小區(qū)中設(shè)定一個標準房,再設(shè)定標準房與其他房屋的價格修正系數(shù)。在價格更新時,求取標準房價格后,即可得到小區(qū)內(nèi)所有房屋的價格。但當(dāng)城市規(guī)模很大時,也就是有很多小區(qū)時,必須要求取所有小區(qū)的標準房價格,如僅以人工來評估得出的話,成本非常高。此時在求取小區(qū)標準房價格方面,采用多元回歸模型的方法可以極大地減少人工和時間成本。由于標準價調(diào)整法和多元回歸模型都屬于以人工為主的技術(shù)方法,因此理論上的應(yīng)用幾乎不受限制。在結(jié)合多元回歸模型后,標準價調(diào)整法也可擴展應(yīng)用到大中及以上城市。從上述三個組合中可以看到,原單一技術(shù)的某些弊端可以被克服,整體技術(shù)方案的適用范圍和效果可獲得較大提升和改進。實際研究和應(yīng)用中可能有更多種的技術(shù)組合,且并不限于本文論述的主流技術(shù)方法。多種技術(shù)組合應(yīng)用是房地產(chǎn)批量評估技術(shù)探索和創(chuàng)新的主要方向。
5房地產(chǎn)批量評估技術(shù)的選用
無論是單一技術(shù)還是多種技術(shù)方法的結(jié)合應(yīng)用,房地產(chǎn)批量評估技術(shù)的選用依據(jù)主要是數(shù)據(jù)狀況、結(jié)果的質(zhì)量狀況以及運行成本。數(shù)據(jù)狀況主要指數(shù)據(jù)的數(shù)量和質(zhì)量。就技術(shù)方案來說,側(cè)重點有所不同。例如在多元回歸模型中,對于樣本案例的參數(shù)質(zhì)量要求是所有技術(shù)方案中最高的;而大數(shù)據(jù)挖掘技術(shù)則對數(shù)據(jù)的數(shù)量要求最高?,F(xiàn)實中不太會碰到數(shù)量又多質(zhì)量又好的數(shù)據(jù)狀況,因此在技術(shù)選用時首先需要考慮是否可以穩(wěn)定獲得所需要的數(shù)據(jù)。至于結(jié)果的質(zhì)量狀況和運行成本,很難設(shè)定一個標準線。只能根據(jù)不同的需求目的來設(shè)定質(zhì)量目標,以及根據(jù)組織的投入產(chǎn)出效益來選擇可行的技術(shù)方案。以上海城市房地產(chǎn)估價有限公司開發(fā)的VISS系統(tǒng)的運行情況來看,其在住宅物業(yè)批量評估方案中采用了標準價調(diào)整法與大數(shù)據(jù)挖掘相結(jié)合的方法,使其系統(tǒng)的評估精度基本控制在正負6%的誤差范圍,極端誤差范圍為正負10%。對于上海12000多個住宅小區(qū),其價格更新周期為每月,其數(shù)據(jù)維護人員僅8-10人,每次價格更新的工作周期僅為兩周。在其新研發(fā)的辦公物業(yè)批量評估方案中,更是結(jié)合了標準價調(diào)整法、多元回歸模型以及大數(shù)據(jù)挖掘三種方法,使其系統(tǒng)的評估精度可以控制在正負10%的誤差范圍,極端誤差范圍為正負15%。對于上海3000多棟寫字樓物業(yè),可以實現(xiàn)3個月的價格更新周期,而數(shù)據(jù)維護人員僅3人。因此,在選用何種技術(shù)方案時,主要有四個評價因素。一是技術(shù)方案所需的數(shù)據(jù)是否可以穩(wěn)定獲得;二是批量評估的價格精度是否滿足目標需求;三是批量評估的物業(yè)覆蓋面是否完整;四是批量評估的運行維護成本企業(yè)(或組織)是否可以承受。以此為標準,運用多方法結(jié)合的思路進行技術(shù)的研發(fā)和創(chuàng)新才是房地產(chǎn)批量評估技術(shù)發(fā)展的正確道路。
采用計算機科學(xué)技術(shù)、現(xiàn)代信息技術(shù)和新的數(shù)學(xué)理論和工具處理復(fù)雜的信息,從各類文本、數(shù)據(jù)、表格、圖像、視頻等浩瀚的數(shù)據(jù)海洋中挖掘規(guī)律,發(fā)現(xiàn)有用的潛在知識,指導(dǎo)人們進行科學(xué)分類、預(yù)測、決策,是多年來美國及國際計算機、信息科學(xué)和數(shù)學(xué)家一直在探索的研究領(lǐng)域。知識獲取、知識表示和智能化的人機交互,甚至實現(xiàn)計算機可視化信息處理,建立新穎的知識庫,從而獲得領(lǐng)域信息和知識分析結(jié)果,將有助于商業(yè)活動、生物信息處理、蛋白質(zhì)結(jié)構(gòu)分析、科技研究動態(tài)分析,有助于科學(xué)家在復(fù)雜的科研信息中開辟新的未知領(lǐng)域,提供快速獨立科學(xué)判斷的客觀依據(jù),探討和預(yù)測學(xué)科知識的發(fā)展前沿,準確把握學(xué)科研究方向,從事科學(xué)創(chuàng)新和研究。
多年來,我一直在智能信息處理這一研究領(lǐng)域進行探索。這次聯(lián)系到美國德雷克塞爾大學(xué)信息科學(xué)技術(shù)學(xué)院Tony• H教授,在他的指導(dǎo)下進行數(shù)據(jù)挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授現(xiàn)擔(dān)任國際學(xué)報《Data Mining and Bioinformatics》和《Granular Computing》等的主編和國際粒計算會議的程序委員會主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等內(nèi)容,是近年來在世界智能信息分析中最具特色和影響力的研究領(lǐng)域。從2000年至今,他在這一研究領(lǐng)域中發(fā)表的研究論文達60多篇,出版的研究專著為3部。在為期一年的時間里,我與Tony•H進行了很好的合作研究,采用新的研究方法,對前沿領(lǐng)域進行了有益的探索研究,并接受了Tony•H等教授們的研究思想、研究方法、教學(xué)思想和教學(xué)方法的熏陶,對相關(guān)課程的教學(xué)方法、教學(xué)手段、教學(xué)組織方式進行了深入的交流和探討。此外,我還以志愿者的身份參加了在美國舉辦的兩個大型的全球性國際會議:美國工業(yè)數(shù)學(xué)聯(lián)合會舉辦的2006年國際知識發(fā)現(xiàn)與數(shù)據(jù)挖掘會議(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘會議(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
這次訪問研究使我開闊了眼界,接觸到很多當(dāng)今信息科學(xué)研究領(lǐng)域中最先進的思想和方法。對Rough Set Theory、Data mining、Bioinformatics等前沿性探索和預(yù)測的科學(xué)研究也有了更深入的認識。同時,能夠有機會和這一研究領(lǐng)域的世界知名專家和教授進行面對面的學(xué)術(shù)交流與探討,參加各種類型的學(xué)術(shù)研討會,我覺得受益匪淺。我所感受的學(xué)術(shù)氛圍、學(xué)到的教學(xué)思想和教學(xué)方法是一筆寶貴的精神財富,我會將他們直接應(yīng)用到自己的教學(xué)和科研中。下面就我在訪美期間印象深刻的幾件事談?wù)勼w會,以期對我們的工作有所啟示。
2優(yōu)秀的學(xué)習(xí)環(huán)境
2.1優(yōu)美的校園環(huán)境
我所訪問的德雷克塞爾大學(xué)地處美國費城的市中心西部,緊鄰世界著名的賓法尼亞大學(xué)(世界上第一臺電子計算機ENIAC在這里誕生,現(xiàn)在這里還保留有部分元件的展覽)。雖然離市中心較近,校園也沒有圍墻與外界明顯隔開,由跨南北東西幾條街和大道的建筑組成,但校區(qū)及周邊環(huán)境寂靜優(yōu)雅。校園中央有一座代表性的龍雕塑,路邊插的許多旗桿上掛著印有龍的圖案和Dragon字樣的杏黃校旗,幾只松鼠在校園內(nèi)的樹上自由地跳躍活動,小道邊或樹下都設(shè)有長凳,供教職工或?qū)W生休息、討論。
教學(xué)樓、實驗樓、辦公樓、圖書館、體育館內(nèi)中央空調(diào)處于恒溫狀態(tài),非常適合工作學(xué)習(xí)。每棟樓的大廳或較寬的走道邊的墻壁上都貼有各種名言及名畫,營造著好的學(xué)習(xí)環(huán)境,渲染著極其重要的文化氛圍。大廳內(nèi)布置有椅子和圓桌,在上課、實驗或面談之前,教師或?qū)W生可在此休息等待,這一點的確做到了以人為本,給我留下了十分深刻的印象。
體育館內(nèi)各種體育設(shè)施齊全,如健身、跑步、球類等,全年對學(xué)生免費開放。游泳也只需支付少量的費用(3個月只需25美元),全天多時段使用。
9月迎接新生、校際間的籃球比賽等活動舉辦得井井有條,充滿生機。
2.2完備的信息化建設(shè)
首先,信息化建設(shè)表現(xiàn)在數(shù)字資源的建設(shè)上。圖書館大廳內(nèi)設(shè)有很多計算機,學(xué)生可在此上網(wǎng)瀏覽,查閱資料。書架周邊靠墻處設(shè)有自習(xí)的桌椅,供有網(wǎng)絡(luò)插口,學(xué)生可鏈接自己的筆記本電腦。圖書館資料豐富,如果在本館找不到相關(guān)資料,也可請圖書管理員在館際間查找,將返回的電子文檔通過郵件發(fā)送到學(xué)生校園網(wǎng)內(nèi)的電子郵箱中,十分方便。
校園無線網(wǎng)覆蓋了整個校園,教室周圍也預(yù)設(shè)了網(wǎng)線插口,在教室內(nèi)上課或自習(xí)的學(xué)生均可免費無線或有線上網(wǎng)。在校的本、碩、博學(xué)生都有自己的校內(nèi)學(xué)號,憑該學(xué)號可直接在自己的實驗室登陸校園網(wǎng)的電子圖書館,查到僅在校園網(wǎng)上提供的論文資料。學(xué)生還可從校園網(wǎng)中心服務(wù)器上下載以學(xué)校或機構(gòu)名義購買的正版軟件,這一點國內(nèi)很多高校還沒能做到。
其次,信息化建設(shè)也體現(xiàn)在師生信息素養(yǎng)的建設(shè)上。無論在信息意識、信息知識、信息能力,還是在信息道德上,師生們都顯現(xiàn)出十分成熟的高水平。良好的信息化數(shù)字資源建設(shè)為師生的教學(xué)科研提供了良好的保障,師生們利用簡單的搜索機制或便捷的館際服務(wù)就可查到需要的資源。雖然本校師生可從校園網(wǎng)上下載正版軟件,但每個人都遵守不宜外拷的基本原則,這也體現(xiàn)了良好的信息素養(yǎng)。
3教師教學(xué)與學(xué)生學(xué)習(xí)
3.1教師教學(xué)情況
美國高校一般一年分為4個學(xué)期,每個學(xué)期大約3個月。按照校方的要求,每個教師至少3個學(xué)期要有教學(xué)任務(wù),而且必須在每個學(xué)期完成平均3門課程的教學(xué),個別教師甚至在一個學(xué)期要承擔(dān)4門課程的教學(xué)任務(wù)。一門課的教學(xué)約32學(xué)時,這樣,每個教師每學(xué)期(一學(xué)期不到3個月)約完成72~96學(xué)時的教學(xué)工作量。除非有科研課題,可以用科研任務(wù)充抵教學(xué)工作量,否則,教學(xué)任務(wù)就是相當(dāng)飽滿的。除了承擔(dān)教學(xué)工作外,每個教師還要承擔(dān)科研、指導(dǎo)碩士及博士生進行研究的工作。年輕教師除了要完成教學(xué)任務(wù),還要進一步深造,提高自己的學(xué)位和水平。教師的教學(xué)情況由學(xué)生來評價,學(xué)生填寫調(diào)查表格,收齊后交由學(xué)院教學(xué)秘書統(tǒng)計,最后由學(xué)院將統(tǒng)計結(jié)果通報給教師本人,類似國內(nèi)高校的學(xué)生評教。所以教師同樣很有壓力,他們對教學(xué)一絲不茍、敬業(yè),并非普通人所想象的美國教師工資高、工作輕松。
在課下,教師必須將所授課程的內(nèi)容介紹、大綱、演示文檔資料、習(xí)題等組織好,全部掛在校園網(wǎng)的個人主頁上,以便學(xué)生隨時瀏覽。備課、批改作業(yè)、設(shè)計實驗題目等各個環(huán)節(jié),教師都要十分認真地對待,每周有一次約定學(xué)生到辦公室進行問題討論或答疑,保證教學(xué)任務(wù)圓滿完成。教師對實驗項目的設(shè)計循循善誘,既不是全盤托出,也不是僅給一個題目,讓學(xué)生冥思苦想地琢磨。除了將學(xué)生建立成團隊,教師還布置與課程相關(guān)的大量文獻和資料閱讀,并要求學(xué)生寫出讀書報告。對于課程結(jié)束或評定成績用的大作業(yè),甚至要求每個學(xué)生制作成演示文稿,并加以匯報、討論。我看到一位叫愛德華(中譯名)的老師,他承擔(dān)了數(shù)據(jù)庫、軟件工程等多門課程的教學(xué)任務(wù),每天都在辦公室工作到很晚,有時甚至在教學(xué)樓大廳的休閑式自習(xí)間伏案研究。
在課上,每門課程開始的第一節(jié)課,教師就將學(xué)生分組,形成一個一個團隊。在布置學(xué)習(xí)和研討課題后,教師要求學(xué)生先獨立思考,不明白的東西可在團隊內(nèi)討論,有問題還可及時問老師。也就是說,每門課都在培養(yǎng)學(xué)生的團隊協(xié)作精神。教師在課堂上的演示文稿經(jīng)過精心準備,圖文并茂,層次分明,令人賞心悅目,但他們也不完全拘泥于演示稿,也在黑(或白)板上演繹關(guān)鍵的內(nèi)容,突出重點,使學(xué)生感到他們備課充分,對教學(xué)內(nèi)容十分精通。
3.2學(xué)生學(xué)習(xí)情況
在美國讀書的學(xué)生,普遍感到課外閱讀任務(wù)較重。學(xué)生不光要學(xué)好課內(nèi)的基本教學(xué)內(nèi)容,還要閱讀文獻,查找與主題相關(guān)的資料,并加以整理、歸納、匯總。這培養(yǎng)了學(xué)生自主學(xué)習(xí)的意識,清除他們完全靠老師課堂講授的依賴心理。
課堂上,學(xué)生們會踴躍發(fā)言,認真記筆記,回答老師的提問,在老師的引導(dǎo)下完成課堂練習(xí)。下課后,學(xué)生到圖書館查閱資料或自習(xí),也會在網(wǎng)上下載老師在主頁上布置的作業(yè),按時完成后及時提交給老師批改。如在課程結(jié)束時,教師會給學(xué)生布置大作業(yè),學(xué)生要在一定時間內(nèi)當(dāng)面交給老師,并接受面試提問,作為考查依據(jù)的一部分。在接到作業(yè)任務(wù)后,學(xué)生要認真對待,完成后連帶其他作業(yè)一起交給老師。老師根據(jù)學(xué)生的總體完成情況給出五級分制的成績。
我曾遇到一位碩士生,她就接到這樣一個大作業(yè)。老師給的任務(wù)是一個較大的程序,要求她調(diào)試運行通過。經(jīng)過一周的調(diào)試,程序始終沒能運行成功。在快要到期時,她正好碰到我,聽說我是從事這方面教學(xué)工作的,就向我請教。我很想了解美國教師采用什么樣的教學(xué)方法,出什么樣的題目讓學(xué)生做,于是答應(yīng)幫他。我仔細閱讀分析和反復(fù)測試網(wǎng)上下載的源代碼,終于找出了問題所在。原來老師在程序中故意預(yù)設(shè)了兩個問題,這是學(xué)生在學(xué)習(xí)此類程序設(shè)計語言時容易忽略或犯錯的問題,程序在編譯中并不報錯,但就是運行結(jié)果不正確,得不到期望的結(jié)果,學(xué)生找不到出錯的地方,感到很困惑。經(jīng)過修改,程序很快調(diào)試運行通過,進一步優(yōu)化和調(diào)整后,她交給了老師。老師看了她的程序運行結(jié)果,并問了她的體會,得到非常滿意的回答后,表示十分高興。
其實,這就是教師在主導(dǎo)學(xué)生去主動學(xué)習(xí),自己找資料,自己研究問題,形象地講,就是“逼”學(xué)生好好學(xué)習(xí)。這樣可以解決學(xué)生遇到較難問題時無從下手的迷惑,循循善誘他們找到解決問題的方法,避免了“越俎代庖”。
4 碩士生和博士生的培養(yǎng)過程
在碩、博研究生的指導(dǎo)過程中,如何對學(xué)生加以良好的指導(dǎo),始終是困擾國內(nèi)外導(dǎo)師們的問題,至今仍無絕對規(guī)范。
從導(dǎo)師與學(xué)生一見面,指導(dǎo)工作就已開始。導(dǎo)師一般提供很多必要的幫助,如幫助開設(shè)相互聯(lián)系的校園郵箱,確定聯(lián)系方式和時間,根據(jù)學(xué)生的知識結(jié)構(gòu)制定研究方向等。作為一項基本約定,指導(dǎo)教師每周要有一個下午與學(xué)生見面,由學(xué)生匯報學(xué)習(xí)和研究情況,導(dǎo)師當(dāng)面給出指導(dǎo)意見。導(dǎo)師有時還會幫助學(xué)生查找并提供最相關(guān)的研究論文或資料,必要時將研究論文的電子稿發(fā)送給學(xué)生,甚至將論文復(fù)印件放在學(xué)生的信箱中――這絕對有別于國內(nèi)有的指導(dǎo)老師因兼職過多或擔(dān)任其他職務(wù),指導(dǎo)缺乏或持久不到位現(xiàn)象。這種指導(dǎo)方式加強了導(dǎo)師與學(xué)生的交流,也便于將學(xué)生引導(dǎo)到相關(guān)研究領(lǐng)域的最前沿,而導(dǎo)師也始終站在研究的最高點。而通過不斷的交流和指導(dǎo),學(xué)生能很快系統(tǒng)地了解相關(guān)領(lǐng)域的研究進展,較早找到問題的抓手,有興趣地開展有意義的研究,往往容易產(chǎn)生創(chuàng)新型成果,包括理論和應(yīng)用性實驗成果等,并能。
當(dāng)學(xué)生或?qū)熣J識到某個研究點的價值所在時,就會著力加以深入研究。如導(dǎo)師要求學(xué)生認真閱讀研究后再來參加討論,甚至有時要求學(xué)生將討論內(nèi)容制成演示文檔講解,這樣他們對重要的概念和研究結(jié)果的掌握就會更加透徹,文獻跟蹤程度和研究思路水平就會得到提升。這種有意識的訓(xùn)練大大強于“散放式”的指導(dǎo)方式。
5良好的學(xué)術(shù)氛圍
學(xué)科建設(shè)和課程教學(xué)離不開學(xué)術(shù)研究。在德雷克塞爾大學(xué),給人留下深刻印象的就是每個教授(正教授、副教授和助理教授)都將自己的研究方向和最新論文或成果以一幅畫的形式貼在工作室的外墻上,上面有個人簡介、主要方法和結(jié)果說明。這樣就打出了自己的招牌,便于他人了解自己。此外,每個教授甚至普通教師都在校園網(wǎng)上建有自己的主頁,對自己的教學(xué)科研工作進行介紹,并將研究論文、著作等目錄列在其中,便于與他人交流或溝通。教師也經(jīng)常根據(jù)教學(xué)內(nèi)容聯(lián)系國際國內(nèi)的專家做學(xué)術(shù)報告,始終用新知識武裝學(xué)生的頭腦。
重視營造活躍的學(xué)術(shù)氛圍,并使學(xué)術(shù)交流制度化、經(jīng)?;?是我在美做訪問學(xué)者期間感受最深的一點。每個系或?qū)W院基本上每周都舉辦1~2次學(xué)術(shù)研討會,主講者有來自世界各地的專家教授,也有某個研究領(lǐng)域資深的校內(nèi)教師。每次學(xué)術(shù)研討會的時間大都定在中午12:30,12:00就開始提供免費的午餐。這樣既充分利用了時間,又解決了聽報告者的午飯問題,也通過免費午餐吸引了不少聽眾,特別是一些來自第三世界國家的“窮”留學(xué)生們。通過網(wǎng)上邀請,大多數(shù)感興趣的學(xué)生甚至老師都會來參加研討會,在這里了解一些最新的研究進展和報告人的研究思路,并能與主講人交流自己的研究體會,視野隨之開闊,思想也隨之富有。有時,一些大的跨國公司或政府部門(如安全部門)的技術(shù)專家也被邀請來做專題報告,這樣學(xué)術(shù)交流的氛圍就比較活躍,研究工作也不會是一潭死水。
6結(jié)語
在美國德雷克塞爾大學(xué)訪問進修一年,我目睹了該大學(xué)在環(huán)境建設(shè)、教學(xué)科研等方面的好的做法,開闊了視野?;貒?我給我的學(xué)生們講解我的所見所聞,也給他們留下了深刻印象。這次進修不僅使我在業(yè)務(wù)上得到進一步修煉,也獲得了不少“精神財富”,如下所示:
(1) 抓實抓好教學(xué)工作的每個環(huán)節(jié),是高校教師的永恒主題。任何一個環(huán)節(jié),如教學(xué)方法、教學(xué)手段、實驗項目設(shè)計、主導(dǎo)學(xué)生學(xué)習(xí)、提出學(xué)習(xí)要求、組織討論答疑、批改作業(yè)等方面的提高,都會大大提高教學(xué)質(zhì)量和教學(xué)效率,取得事半功倍的效果。
(2) 指導(dǎo)學(xué)生方向和過程并重,確保處于研究前沿。指導(dǎo)學(xué)生,特別是碩、博士生的導(dǎo)師,不僅在一開始就要幫助學(xué)生確定研究方向,而且要定期開展學(xué)習(xí)檢查和交流活動,必要時還要為學(xué)生提供前沿性的研究論文或資料,以便將他們早日引導(dǎo)到國際國內(nèi)的前沿陣地,保持在高新水平上從事研究工作,取得創(chuàng)新性的研究成果。
(3) 創(chuàng)造活躍的學(xué)術(shù)氛圍和良好的學(xué)習(xí)環(huán)境,是高校各級領(lǐng)導(dǎo)及教師的基本責(zé)任。只有將教師和學(xué)生置于始終向前的滾滾波濤中,教學(xué)和研究才會具有不可估量的創(chuàng)造力,才會在科學(xué)的道路上獲得可持續(xù)發(fā)展。
【中圖分類號】G40-057【文獻標識碼】A【論文編號】1009-8097(2015) 06-0089-07【DOI】10.3969/j.issn.1009-8097.2015.06.014
引言
2011年以來,在美國頂尖大學(xué)中迅速發(fā)展起來并迅速影響世界的MOOC(大規(guī)模開放在線課程)模式無疑給“在線學(xué)習(xí)”這一學(xué)習(xí)形式樹立了成功應(yīng)用的典范,該模式證明了只有當(dāng)大學(xué)的課程、課堂教學(xué)、學(xué)生學(xué)習(xí)進程、學(xué)生體驗、師生互動過程等被完整、系統(tǒng)地在線實現(xiàn)…,特別是當(dāng)輔導(dǎo)教師的存在以及相關(guān)系統(tǒng)指導(dǎo)活動實現(xiàn)時,在線學(xué)習(xí)才是有效的。這從一個側(cè)面說明,在線學(xué)習(xí)并不是純粹的學(xué)生自主學(xué)習(xí),還需要充分發(fā)揮輔導(dǎo)教師的主導(dǎo)作用。
在線學(xué)習(xí)模式下,師生活動在時空上相對分離,盡管有同步教學(xué)活動發(fā)生,但更多時候是異步教學(xué)活動,因為異步教學(xué)更有助于滿足學(xué)習(xí)者的個性化學(xué)習(xí)需要。不同于課堂面授教學(xué),輔導(dǎo)教師難以把握一門在線課程學(xué)習(xí)者學(xué)習(xí)開展情況的全貌。但是,通過在線學(xué)習(xí)平臺對學(xué)習(xí)過程的記錄,輔導(dǎo)教師了解課程的教學(xué)過程是可能的,而且基于學(xué)習(xí)過程記錄開展在線教學(xué)的反思以不斷改進在線教學(xué)這一做法也是必要的。一文獻探討
“教學(xué)反思”,顧名思義,反思對象就是教學(xué)過程,反思的基礎(chǔ)是對教學(xué)過程的忠實記錄。波斯納(Poser)將教師的成長發(fā)展與其對自己經(jīng)驗的反思結(jié)合起來,提出了一個教師成長的公式:經(jīng)驗+反思=成長。由此可見反思對教師成長以及專業(yè)發(fā)展的重要性。
教學(xué)反思的方法是多樣的。王映學(xué)、趙興奎指出教學(xué)反思的途徑主要有錄像反思、日記反思、從學(xué)習(xí)者角度反思、與同事及專家的交流中反思以及通過向?qū)W生征詢意見反思。張大均將教師成長的途徑從觀摩教學(xué)、微格教學(xué)、教學(xué)決策訓(xùn)練和教學(xué)反思幾個方面來說明。俞國良等則將教師的反思訓(xùn)練列為錄像反思法、對話反思法和教學(xué)反思法。從上述方法中可以看到,教學(xué)反思的基礎(chǔ)是對教學(xué)過程的忠實記錄。在“日記反思法”中,第一步就是對教學(xué)中包含問題的教學(xué)事件進行詳細、忠實的描述。在“從學(xué)習(xí)者角度反思”中,第一步就是“簡要記下學(xué)習(xí)發(fā)生的時間、場合、涉及的學(xué)習(xí)內(nèi)容和培訓(xùn)(講授或主持)人員”。在微格教學(xué)法中,則通過錄像設(shè)備記錄教學(xué)全過程。
在信息化網(wǎng)絡(luò)時代,教師可以利用現(xiàn)代教育技術(shù)手段來實現(xiàn)教學(xué)過程的忠實記錄,進行有效的教學(xué)反思,從而更好地促進自身的專業(yè)發(fā)展。各種新的網(wǎng)絡(luò)技術(shù)工具給我們的生活帶來了新的便利,同時也為教師提供了新的教學(xué)反思工具。近年來興起的學(xué)習(xí)分析技術(shù)可以成為教師開展在線教學(xué)反思的有力工具。學(xué)習(xí)分析技術(shù)是對學(xué)生生成的海量數(shù)據(jù)進行解釋和分析,以評估學(xué)生的學(xué)術(shù)進展,預(yù)測未來的表現(xiàn),并發(fā)現(xiàn)潛在的問題。對教師而言,學(xué)習(xí)分析技術(shù)可用來開展更為深入的教學(xué)分析,以便教師在數(shù)據(jù)分析的基礎(chǔ)上為學(xué)生提供更有針對性的教學(xué)干預(yù)。在線學(xué)習(xí)中,在線學(xué)習(xí)平臺詳細記錄了師生行為,猶如課堂教學(xué)錄像。借助學(xué)習(xí)分析技術(shù),分析師生行為記錄數(shù)據(jù),可以再現(xiàn)在線學(xué)習(xí)過程,使教師能夠把握在線教學(xué)過程全貌,并了解每個教學(xué)環(huán)節(jié)、重要教學(xué)活動以及每個學(xué)生的種種細節(jié),使原本模糊的印象數(shù)字化、清晰化,輔助教師反思其在教學(xué)設(shè)計、資源制作、學(xué)習(xí)引導(dǎo)、學(xué)習(xí)評價等方面的可取之處與不足之處。
因此,本文選取基于Moodle平臺的在線課程為樣本,應(yīng)用學(xué)習(xí)分析技術(shù),具體包括話語分析、社會網(wǎng)絡(luò)分析等分析技術(shù),統(tǒng)計分析與可視化、聚類、預(yù)測、關(guān)系挖掘、文本挖掘等數(shù)據(jù)挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分詞系統(tǒng)等工具,從一位輔導(dǎo)教師的視角,開展基于學(xué)習(xí)過程記錄的在線教學(xué)反思研究,探索一種全新的教學(xué)反思形式。
二 研究樣本
本文選取國家開放大學(xué)主辦的網(wǎng)絡(luò)教育從業(yè)人員培訓(xùn)班為研究對象。該培訓(xùn)班依托Moodle平臺開設(shè)(網(wǎng)址:http://),有“學(xué)生支持服務(wù)”、“在線學(xué)習(xí)輔導(dǎo)”和“在線課程設(shè)計”三門課,每門課的培訓(xùn)時間為6周,學(xué)生通過Moodle平臺開展在線學(xué)習(xí),輔導(dǎo)教師提供全程的在線輔導(dǎo)。本文具體選擇“在線學(xué)習(xí)輔導(dǎo)”課程第五期培訓(xùn)班作為研究樣本。
三 數(shù)據(jù)分析與培訓(xùn)反思
1 重溫整個教學(xué)過程――師生群體平臺訪問行為分析
通過對平臺模塊訪問、模塊訪問序列以及師生活動時間分布情況的分析,重新回顧教學(xué)過程,并對一些突出的數(shù)據(jù)表現(xiàn)加以解讀,使原本時空分離的師生活動再度整合,還原輔導(dǎo)教師的教學(xué)過程與學(xué)生學(xué)習(xí)過程的原貌。
(1)平臺模塊訪問總體情況
表l是該期培訓(xùn)過程中,師生訪問Moodle平臺各模塊的頻次統(tǒng)計結(jié)果。
從統(tǒng)計結(jié)果可知,師生最常訪問的模塊是“forum”,占總活動頻次的近50%,說明課堂討論是最主要的學(xué)習(xí)活動,也是這門基于討論的探究式課程學(xué)習(xí)的突出特點。其次就是“wiki”、“resource”和“assignment”三類行為。這三類行為的頻次和比例較為平均,是位列“Forum”之后的重要學(xué)習(xí)活動。在討論的基礎(chǔ)上,課程設(shè)計中的“wiki”其實是為了給學(xué)生協(xié)作式小組學(xué)習(xí)的機會,是除“forum”外學(xué)生之間重要的交互空間?!皉esource”(瀏覽資源)是學(xué)習(xí)內(nèi)容重要的組成部分,在此基礎(chǔ)上參加討論和wiki協(xié)作學(xué)習(xí),最終的學(xué)習(xí)成果以“assignment”(小論文、大論文)的形式呈現(xiàn)。這幾個模塊的頻次和比例分配較為合理,較好地還原了教學(xué)過程。
(2)平臺模塊訪問序列分析
我們已經(jīng)了解了不同模塊的訪問頻次,下面我們再來了解一些師生訪問平臺模塊的路徑。
這里采用Microsoft順序分析和聚類分析算法,數(shù)據(jù)來源則是用戶每天瀏覽課程頁面產(chǎn)生的過程數(shù)據(jù)。筆者選取5個頻繁訪問模塊包括forum、wiki、assignment,resource和user(course除外,因為在該模塊主要發(fā)生登錄行為,并沒有實際的學(xué)習(xí)行為)的數(shù)據(jù)來分析模塊訪問序列,得到如圖l所示結(jié)果。由圖l可知,從user、resource、assignment、wiki四個模塊跳轉(zhuǎn)到forum的條件概率均比較高(分別為0.40、0.32、0.26、0.16),可見forum是一個活動中心模塊,也是一個重要的活動中介模塊,諸如resource、assignment、wiki等活動可以從中再次啟動。而在由forum跳轉(zhuǎn)到其他模塊的情形中,forumresource的轉(zhuǎn)換組合的發(fā)生概率是最高的,達到0.06。在發(fā)帖參與討論的過程中,發(fā)現(xiàn)問題、深入思考再繼續(xù)學(xué)習(xí)相關(guān)資源,這符合學(xué)習(xí)常規(guī),也形成了討論帶動資源的學(xué)習(xí)兩者之間的良性互動,從而實現(xiàn)深度學(xué)習(xí)和反思。另外,resource模塊對其他模塊的支撐作用還表現(xiàn)為assignmentresource,這一條件概率達到0.13,即學(xué)生在做作業(yè)的過程中要求助于資源模塊,這也是符合學(xué)習(xí)常規(guī)的。
(3)不同時期各模塊訪問特點
接下來結(jié)合時間維度,了解不同時期平臺各模塊訪問特點,以了解不同時期師生關(guān)注重點的變化。計算出本期培訓(xùn)不同周此平臺模塊訪問頻次分布情況,并繪制師生在主要學(xué)習(xí)模塊的活動頻次占比隨時間分布的折線圖,得到如圖2所示結(jié)果。
從圖2可以看出,除高頻訪問模塊forum外,在正式學(xué)習(xí)開始前兩周及第1周,學(xué)生的訪問重點user模塊和resource模塊反映出學(xué)生在熟悉人和內(nèi)容。這啟示我們,在網(wǎng)絡(luò)課程開始之前,輔導(dǎo)教師可能需要提前兩到三周就介入課程的學(xué)習(xí),實時跟蹤學(xué)習(xí)進程,為他們提供相應(yīng)的服務(wù)來進行預(yù)熱,這對于后面課程學(xué)習(xí)的順利發(fā)展和學(xué)生積極性的保持都很有幫助。進入第2周,開始主要的學(xué)習(xí)活動,主要模塊則是wiki以及forum。到第3周,wiki活動達到頂峰一一第3周出現(xiàn)本課程第一次wiki協(xié)作式小組學(xué)習(xí)活動,所以這時達到頂峰是正常的;另外,這些學(xué)生從沒有接觸過基于wiki的小組寫作式學(xué)習(xí),所以他們有很強的好奇心和強烈的興趣參與。到第4周,assignment活動達到頂峰。這實際上是學(xué)生提交的第3周布置的assignment(小論文),這是本課程第一次提交assignment;課程結(jié)束后的三周,assignment模塊的活動逐漸增強,伴隨著resource模塊活動的增強,forum活動相對減弱,進入做作業(yè)(撰寫大論文)的狀態(tài)。
2 聚焦重點教學(xué)活動一一師生論壇交互分析
師生在論壇的討論發(fā)言是本課程的一項重點教學(xué)活動。通過這一活動,相關(guān)教學(xué)信息得以傳遞,各種其他教學(xué)活動得以依次展開,課程知識也在這里不斷呈現(xiàn),支持服務(wù)也在這里相繼給出。
(1)師生交互的數(shù)量與內(nèi)容
該課程討論活動在6個學(xué)習(xí)單元分散展開,本期培訓(xùn)班發(fā)帖數(shù)量累計743個,如表2所示。由表2可知,輔導(dǎo)教師的發(fā)帖量基本呈緩慢下降的趨勢。從該趨勢我們可以看到,在第1周“學(xué)習(xí)指南”和第2周“第一單元:什么是在線輔導(dǎo)?”兩周的教學(xué)中,由于是在線教學(xué)的開始階段,輔導(dǎo)教師需要更多地引導(dǎo)學(xué)生進行討論,投入相對更多的時間。從第3周開始,數(shù)據(jù)顯示,輔導(dǎo)教師的發(fā)帖量開始有所減少,從將近50%的比例下降到40%左右。這是因為,經(jīng)過前兩周的學(xué)習(xí),由于輔導(dǎo)教師的有效引導(dǎo),學(xué)生保持了較高的積極性,效果明顯。從第3周開始,輔導(dǎo)教師有意減少了發(fā)帖的量,注意留給學(xué)生更多的時間思考并參與討論,這時候?qū)W生明顯上升到了討論的主角這一角色,這說明輔導(dǎo)教師對于討論的把握和控制比較成功。
(2)師生交互發(fā)帖的內(nèi)容
作者采用傅騫、魏順平等研發(fā)的術(shù)語提取算法從所發(fā)帖子中提取了約240個術(shù)語,如表3所示。這些術(shù)語的出現(xiàn)頻次為4909次(其中輔導(dǎo)教師使用976次,約占20%);在481個帖子中出現(xiàn)(其中教師帖為204個),占帖子總數(shù)的65%。從另外一個角度說,有1/3左右的帖子沒有出現(xiàn)任何術(shù)語。由此可見,論壇的主要功能是開展課程知識討論,次要功能則是激發(fā)并維持學(xué)生的學(xué)習(xí)動機,引導(dǎo)、鼓勵學(xué)生不斷參加學(xué)習(xí)。
在前10位術(shù)語中,“輔導(dǎo)”出現(xiàn)了3次,“在線(遠程)”出現(xiàn)了4次,這比較好地體現(xiàn)了本課程的特點,即在線學(xué)習(xí)輔導(dǎo)。而排在前兩位的是“輔導(dǎo)教師”和“電大”,這更能說明這次培訓(xùn)的內(nèi)容和對象的特點。無一例外,本次培訓(xùn)的對象全部來自電大系統(tǒng),所以他們對本系統(tǒng)是最關(guān)注的,另外他們對如何做好“輔導(dǎo)教師”也是最關(guān)心的,所以他們選擇了這門課。從這些術(shù)語可以看出,本期的討論比較成功,課程的設(shè)計也比較合理,能夠滿足學(xué)生的需求。
接著,作者對各單元使用的普通詞匯(包括動詞和名詞等實詞,不含虛詞,不含術(shù)語)使用頻次進行統(tǒng)計,以體現(xiàn)輔導(dǎo)教師的語言藝術(shù)和輔導(dǎo)特色。其中使用頻次排名前十的普通詞匯分別是“同學(xué)、加油、學(xué)生、謝謝、可以、學(xué)習(xí)、問題、課程、研究、討論”?!凹佑汀焙汀爸x謝”這兩個詞的大量使用反映了輔導(dǎo)教師為學(xué)生提供的情感支持。輔導(dǎo)教師時時刻刻不忘鼓勵、支持任何一位學(xué)生的發(fā)言和進步,處處對他們的討論表示感謝,無論發(fā)言是否精彩,無論對他們的觀點是否贊同,都通過“加油”和“謝謝”表示感謝。
(3)師生交互的動態(tài)過程與靜態(tài)結(jié)構(gòu)
我們從師生交互發(fā)帖時間分布以及師生交互網(wǎng)絡(luò)分析來了解師生交互的動態(tài)過程與靜態(tài)結(jié)構(gòu)。本培訓(xùn)課程設(shè)有6個單元外加大論文指導(dǎo)環(huán)節(jié)(實際上是7個單元),計劃教學(xué)時間是6周,一個單元用時一周。理想情況下,學(xué)生應(yīng)該在規(guī)定的學(xué)習(xí)時間內(nèi)完成相應(yīng)單元的活動,但事實并非如此。以每個單元的“話題討論”為例,某個單元的話題往往要持續(xù)3周才會真正結(jié)束。各單元討論活動隨時間分布情況如表4所示。
表4中帶*號的數(shù)字部分是在單元規(guī)定學(xué)習(xí)時間內(nèi)的發(fā)帖數(shù)量,但是每個單元在規(guī)定學(xué)習(xí)時間后,在隨后的2至3周還陸續(xù)有帖子發(fā)出來。于是從第3單元開始,將會有3個單元的活動疊加在一起。出現(xiàn)這種疊加現(xiàn)象,可能較大程度上是由工學(xué)矛盾造成的。學(xué)生不能及時完成本周的學(xué)習(xí)活動,所以會往后拖延。其實,從學(xué)生的角度是可以理解的,這也要求我們的在線教學(xué)要有一定的靈活性。同時,也恰恰是在第3周開始出現(xiàn)第一個assgignment(小論文),學(xué)生的負擔(dān)開始加重。正是當(dāng)“新債舊債”交織在一起的時候,出現(xiàn)了連鎖式疊加的現(xiàn)象。當(dāng)然,這種現(xiàn)象也會無形中增加輔導(dǎo)教師的負擔(dān)。
根據(jù)輔導(dǎo)教師和學(xué)生發(fā)帖、回帖的關(guān)系,借助UCINET社會網(wǎng)絡(luò)分析工具,可繪制師生交互網(wǎng)絡(luò)圖,如圖3所示。從圖3可以看出,所有24個成員(包括輔導(dǎo)教師,如圖中編號為68的正方形節(jié)點)均在一個網(wǎng)絡(luò)中,不存在孤立的成員。
中圖分類號:R058 文獻標志碼:A 文章編號:1673-8454(2016)03-0094-03
一、引言
伴隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)資源的承載形式、數(shù)量與類型都發(fā)生了巨大的變化,大數(shù)據(jù)同過去的海量數(shù)據(jù)有所不同,其基本特征可以用4個V來概括(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低、速度快。大數(shù)據(jù)技術(shù)是從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術(shù),解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)?!按髷?shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析處理系統(tǒng)。大數(shù)據(jù)最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,是決定最終信息是否有價值的決定性因素?;诖髷?shù)據(jù)的特點,大數(shù)據(jù)分析存在的方法理論通常包括如下幾個方面,如圖1所示。大數(shù)據(jù)時代獲取價值信息的難度增大,因此,對圖書館館員的專業(yè)級信息素質(zhì)提出了更高的要求,館員需要學(xué)習(xí)和掌握數(shù)據(jù)采集、資源組織、統(tǒng)計分析和數(shù)據(jù)挖掘等多種大數(shù)據(jù)知識與技術(shù),以便能為讀者提供高質(zhì)量的信息服務(wù)和知識服務(wù)。信息素質(zhì)(Information Literacy),是指明確信息需求、選擇信息源、檢索信息、分析信息、綜合信息、評估信息、利用信息的能力。信息素質(zhì)的內(nèi)涵包括4個方面――信息意識、信息能力、信息道德和終身學(xué)習(xí)的能力。信息素質(zhì)是1974年由美國信息工業(yè)協(xié)會的會長Paul Zurkowski首先提出的,發(fā)展到今天,最為廣泛性的解釋是作為具有信息素質(zhì)的人,必須具有一種能夠充分認識到何時需要信息,并且有能力有效地發(fā)現(xiàn)、檢索、評價和利用所需要的信息,解決當(dāng)前存在問題的能力。
二、平臺架構(gòu)方案
本平臺基于B/S模型,采用+SQL Server +IIS技術(shù)方案,充分結(jié)合主流的多層平臺架構(gòu)技術(shù),具備分布式、并發(fā)事務(wù)處理等能力,平臺架構(gòu)模型如圖2所示,客戶端使用瀏覽器形式,因而不需要安裝特殊的客戶端軟件,使平臺在易用性、管理及運行等方面變得更為簡單、便捷,同時,平臺亦具有良好的可靠性、適應(yīng)性和可移植性等特點。
三、平臺功能模塊構(gòu)成
本平臺主要包括課程管理、測試管理、在線討論與留言管理、專家講座和用戶管理等5個主功能模塊,其中各功能模塊又下設(shè)多個子功能模塊,平臺功能結(jié)構(gòu)如圖3所示:
(1)課程管理模塊:是平臺的核心功能模塊,包括課程管理、課件及資源下載、數(shù)據(jù)挖掘技術(shù)與工具、案例分析管理、多媒體視頻管理和常用術(shù)語等6個子功能。課程管理模塊使館員在有限的時間內(nèi),能自主地學(xué)習(xí)信息素質(zhì)的基本知識,學(xué)會信息技術(shù),提高信息服務(wù)能力。
課程管理模塊主要完成課程的展示、上傳、下載、修改、視頻在線實時點播和點擊量統(tǒng)計等任務(wù)。信息素質(zhì)課程包括:數(shù)據(jù)采集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計分析(差異分析、相關(guān)分析、T檢驗、偏相關(guān)分析、距離分析、回歸分析、曲線估計、因子分析、聚類分析、快速聚類法與聚類法、判別分析、多元對應(yīng)分析或叫“最優(yōu)尺度分析”、Bootstrap技術(shù)等)、數(shù)據(jù)挖掘(分類Classification、估計Estimation、預(yù)測Prediction、相關(guān)性分組或關(guān)聯(lián)規(guī)則Affinity Grouping or Association Rules、聚類Clustering、描述和可視化Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text、圖形圖像、視頻、音頻等)、模型預(yù)測、結(jié)果呈現(xiàn)(云計算、標簽云、關(guān)系圖)等類型。
課件及資源下載功能主要完成課程課件、教材、參考文獻和教學(xué)大綱等資源的顯示、上傳、下載等操作,模塊中集成了大量的培訓(xùn)課程課件、數(shù)據(jù)庫的培訓(xùn)課件以及第三方的培訓(xùn)課件。
檢索知識與檢索技巧模塊主要包括檢索技術(shù)等相關(guān)文章的展示、上傳、下載和更新等任務(wù)。
案例分析管理主要完成典型案例的顯示、增加、修改、刪除和查詢等操作。
多媒體視頻管理包括教學(xué)視頻和專家講座視頻兩部分,平臺所支持的培訓(xùn)視頻格式為.avi、.mp4、.flv和.rm等。
常用術(shù)語模塊包括各種信息知識和技術(shù)概念、重要人物、專有名詞、組織機構(gòu)名稱縮寫以及英文對照等信息,館員可以利用術(shù)語表更順暢地進行學(xué)習(xí)。
(2)測試管理模塊:包括仿真練習(xí)和在線自我測試2個功能,用于館員對所學(xué)的信息知識和技術(shù)等進行課程復(fù)習(xí)、內(nèi)容鞏固、知識擴展及自我測試;有助于館員了解自己信息素質(zhì)的實際水平,并有針對性地專門強化某方面能力。
(3)留言、咨詢管理模塊:該模塊開拓了館員與教師之間進行交流的虛擬空間,通過該功能雙方可以通過同步或異步交流方式,實現(xiàn)信息交換和信息共享,是館員完成自主學(xué)習(xí)不可或缺的環(huán)節(jié)。
(4)專家講座模塊:模塊完成講座視頻的上傳、下載和播放等功能,講座主要包括數(shù)據(jù)庫的使用、檢索挖掘工具使用,專家講座有利于館員增加對熱點知識、前沿知識、處理技術(shù)及技巧的學(xué)習(xí)與掌握。
(5)用戶管理模塊:主要完成用戶的登錄管理、新用戶的注冊和密碼找回等功能。平臺中的用戶被分為館員、教師、專家和系統(tǒng)管理員四種類型,每種類型的用戶都具有不同的權(quán)限,查看、管理不同的功能模塊及其子模塊。平臺中的密碼均以密文形式保存,加強了平臺的安全性保障。
四、平臺核心模塊的實現(xiàn)
圖書館館員信息素質(zhì)教育服務(wù)平臺的前臺主界面,如圖4所示,后臺管理界面如圖5所示。
課程管理模塊的實現(xiàn):主要實現(xiàn)了課程和相關(guān)視頻的查看、上傳、下載、課程評價和點擊量統(tǒng)計等功能。這部分內(nèi)容是經(jīng)過精心設(shè)計、安排的,不但包括管理學(xué)的內(nèi)容,例如管理學(xué)的經(jīng)典案例分析、決策、預(yù)算、控制等課程內(nèi)容,還包括信息檢索、重組、評價與利用等內(nèi)容,主要培訓(xùn)課程包括信息素質(zhì)概論、信息檢索、數(shù)據(jù)挖掘、信息資源和信息評價與利用、大數(shù)據(jù)技術(shù)等,還包括如何查找期刊的影響因子,如何查找哪些期刊被SCI收錄,科技文獻類型有哪些、如何識別,如何查找哪些期刊被EI收錄,如何查找論文被引用的情況,如何查找各學(xué)科核心機構(gòu)、科學(xué)家和研究熱點,如何查找全球?qū)W者信息,如何定期獲取所需某種期刊的目次信息,如何利用網(wǎng)絡(luò)學(xué)術(shù)交流平臺等檢索技術(shù)。前臺課程信息展示列表如圖6所示。
留言、咨詢管理功能模塊的實現(xiàn):該功能是平臺的主要功能之一,實現(xiàn)了教師或?qū)<遗c館員之間的答疑、討論等任務(wù),通過該功能教師與館員能夠進行一對一的溝通與交流,同時該模塊還具有歷史記錄的增加、刪除、修改和查詢等操作功能。留言管理功能的留言板窗口如圖7所示:
五、平臺應(yīng)用分析
信息素質(zhì)教育服務(wù)平臺已成功進行相關(guān)系統(tǒng)測試,已與部署完成,運行狀況穩(wěn)定,平臺性能表現(xiàn)良好。平臺的構(gòu)建與應(yīng)用給圖書館館員在信息服務(wù)工作中帶來了如下幾方面的益處:
(1)平臺的應(yīng)用使圖書館館員學(xué)會了在大數(shù)據(jù)時代如何獲得各種各樣的信息源、如何有效地管理各種信息。
(2)平臺的應(yīng)用使館員掌握了信息檢索的技巧與策略、信息倫理與科學(xué)道德等知識。
(3)平臺的應(yīng)用提升了館員對信息的整體認知,拓寬了館員學(xué)習(xí)信息知識和技術(shù)的渠道,是集中信息素質(zhì)教育培訓(xùn)的有力補充。
(4)平臺的應(yīng)用節(jié)省了館員學(xué)習(xí)的成本,突破了集中培訓(xùn)的地域空間與時間上的限制,館員可以通過手機、電腦等終端設(shè)備進行自主學(xué)習(xí),有效地提升了館員的信息素質(zhì)。
(5)平臺的應(yīng)用也方便了培訓(xùn)課程、講座等信息的管理、查詢、統(tǒng)計和分析等工作。
六、結(jié)束語
圖書館館員信息素質(zhì)教育服務(wù)平臺是集信息檢索知識及技巧、文獻寫作、信息能力自測、信息交流答疑于一體的信息服務(wù)空間。通過系統(tǒng)化的教學(xué)指導(dǎo)、大量的案例及講座視頻等讓館員學(xué)會專業(yè)級的信息檢索、采集、預(yù)處理,統(tǒng)計和分析、數(shù)據(jù)挖掘等大數(shù)據(jù)技術(shù),以提高自身的信息素質(zhì)、提升信息服務(wù)能力與水平。
參考文獻:
[1]黃麗霞,蔣永福,傅榮賢.基于新建構(gòu)主義的高校信息素質(zhì)教育模式研究[J].圖書情報工作,2014(7):35-39.
[2]崔雷,劉偉,閆雷,張晗,侯躍芳,黃瑩娜,張浩.文獻數(shù)據(jù)庫中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā)[J].現(xiàn)代圖書情報技術(shù),2008(8):70-75.
[3]梁作明,張悅?cè)?大數(shù)據(jù)背景下高校圖書館的應(yīng)對策略[J].中國管理信息化,2014(23):108-109.