時(shí)間:2022-09-19 12:49:44
序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過(guò)程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)探討論文范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來(lái)更深刻的閱讀感受。
[2] (美)MICHAEL MILLER云計(jì)算(史美林?譯)[M].北京:機(jī)械工業(yè)出版社,2009年4月.
[3] 王鵬.云計(jì)算的關(guān)鍵技術(shù)與應(yīng)用實(shí)例[M].北京:人民郵電出版社,2009年12月.
[4] Luiz AndréBarroso, Jeffrey Dean, Urs H-lzle.
入分析,提出了具體算法。
網(wǎng)絡(luò)數(shù)據(jù)挖掘又稱(chēng)Web數(shù)據(jù)挖掘,是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用,從與網(wǎng)絡(luò)相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網(wǎng)站的數(shù)據(jù)中發(fā)掘關(guān)系和規(guī)則。其挖掘?qū)ο笫谴罅俊愘|(zhì)、分布的Web文檔,可以對(duì)數(shù)據(jù)庫(kù)、Web服務(wù)器上的日志、讀者信息等數(shù)據(jù)展開(kāi)挖掘工作。同時(shí),由于Web在邏輯上是一個(gè)由文檔節(jié)點(diǎn)和超鏈接構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于Web結(jié)構(gòu)的,或者是關(guān)于用戶(hù)行為模式的1。通過(guò)網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)γ總€(gè)用戶(hù)的訪問(wèn)行為、頻度、和內(nèi)容等進(jìn)行分析,能提取出每個(gè)用戶(hù)的特征,給每個(gè)用戶(hù)個(gè)性化的界面,提供個(gè)性化的Web信息服務(wù)。
本文以中國(guó)知網(wǎng)(CNKI)總庫(kù)為統(tǒng)計(jì)源,以主題“We數(shù)據(jù)挖掘”、“網(wǎng)絡(luò)數(shù)據(jù)挖掘”搜索到國(guó)內(nèi)近六年的論文數(shù)量,從中可以看出相關(guān)領(lǐng)域的研究從2007年開(kāi)始呈逐年上升趨勢(shì),2009年達(dá)到峰值后,逐年有所下降。具體數(shù)據(jù)如表2所示:
根據(jù)對(duì)這些文章內(nèi)容的分析,研究網(wǎng)絡(luò)數(shù)據(jù)挖掘算法及其實(shí)現(xiàn)的占大多數(shù),國(guó)內(nèi)關(guān)于網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書(shū)館的應(yīng)用研究不多,大多是作為電子商務(wù)中數(shù)據(jù)挖掘研究的一部分。網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書(shū)館中的應(yīng)用主要表現(xiàn)在以下幾個(gè)方面:
(1)圖書(shū)推薦系統(tǒng)。這類(lèi)系統(tǒng)主要通過(guò)日志挖掘讀者的借閱習(xí)慣,推測(cè)讀者的閱讀需求,從而為不同興趣的讀者提供相應(yīng)的推薦內(nèi)容。這種個(gè)性化推薦系統(tǒng)能夠較好地把握讀者需求,通過(guò)聚類(lèi)和關(guān)聯(lián)規(guī)則為讀者推薦借閱過(guò)的相似圖書(shū)或可能需要的其他文獻(xiàn)。但它的缺點(diǎn)在于,推薦的相似圖書(shū),讀者已經(jīng)借閱過(guò),再借閱的幾率不大。因此,這個(gè)研究的重點(diǎn)和難點(diǎn)在使用的挖掘算法上2。
(2)網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)。現(xiàn)代圖書(shū)館越來(lái)越重視讀者的學(xué)習(xí)需求,從而推出各種學(xué)習(xí)服務(wù)3。這類(lèi)應(yīng)用主要是針對(duì)網(wǎng)絡(luò)學(xué)習(xí)中的學(xué)習(xí)資源的挖掘。因?yàn)樵趫D書(shū)館提供的虛擬學(xué)習(xí)平臺(tái)中,資源是龐大的,而讀者的精力有限,同時(shí)每個(gè)人的興趣不同,需要對(duì)不同的讀者組織不同的教育資源。而網(wǎng)絡(luò)數(shù)據(jù)挖掘在其中所起的重要作用就是對(duì)讀者的借閱和瀏覽行為進(jìn)行挖掘分析,根據(jù)分析結(jié)果為讀者匹配學(xué)習(xí)資源。
(3)文獻(xiàn)檢索系統(tǒng)。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)也常見(jiàn)于文獻(xiàn)檢索系統(tǒng)的應(yīng)用中,圖書(shū)館資源包含大量的文本、期刊、視頻等。讀者常常需要通過(guò)檢索才能獲取自己想要的信息,使用網(wǎng)絡(luò)數(shù)據(jù)挖掘也是為讀者提供高效獲取信息的方式。
由以上分析看出,網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書(shū)館中應(yīng)用的主要目的就是為讀者找到所需資源,滿足讀者的個(gè)性化需求。下面我們就針對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化推薦中的應(yīng)用進(jìn)行探討。
1、 圖書(shū)館個(gè)性化推薦常用分析方法
1.1聚類(lèi)算法
通常說(shuō)來(lái),許多圖書(shū)館的讀者建模方法是基于統(tǒng)計(jì)的,即對(duì)所有讀者的統(tǒng)計(jì)數(shù)據(jù)(比如基于平均值)進(jìn)行分析。這樣的后果是對(duì)讀者的個(gè)性化行為視而不見(jiàn),影響了讀者專(zhuān)業(yè)性和個(gè)性化需求,忽略了隱含的讀者信息的價(jià)值。而讀者聚類(lèi)建模,則是把一類(lèi)讀者聚集起來(lái),分析他們的特性并對(duì)這類(lèi)讀者建模,在建模質(zhì)量相同或接近的條件下,聚類(lèi)建模所需的數(shù)據(jù)量將遠(yuǎn)遠(yuǎn)低于對(duì)單個(gè)讀者建模的數(shù)據(jù)量,因?yàn)榉诸?lèi)中的每個(gè)讀者(知識(shí)背景和生活閱歷貢獻(xiàn)具有很大的相似度)都貢獻(xiàn)了其數(shù)據(jù)。常用聚類(lèi)算法如表3。
1.2 社會(huì)網(wǎng)絡(luò)分析
社會(huì)網(wǎng)絡(luò)分析已經(jīng)有相當(dāng)長(zhǎng)的一段歷史了,近60年來(lái),相關(guān)研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說(shuō)提出來(lái)的HITS算法開(kāi)創(chuàng)了將社會(huì)網(wǎng)絡(luò)研究應(yīng)用在Web范疇的先河。這兩種算法都來(lái)源于社會(huì)網(wǎng)絡(luò)分析,都利用了網(wǎng)頁(yè)的超鏈接結(jié)構(gòu)并依據(jù)網(wǎng)頁(yè)的“威望”或者“權(quán)威”級(jí)別來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行分級(jí)排序。這在搜索引擎中得到了廣泛的運(yùn)用。圖書(shū)館也同樣存在著這樣的社會(huì)網(wǎng)絡(luò)關(guān)系,這種關(guān)系主要通過(guò)讀者瀏覽和獲取文獻(xiàn)行為體現(xiàn)。這種關(guān)系和活動(dòng)可以用網(wǎng)絡(luò)或圖來(lái)表示,其中,每一個(gè)頂點(diǎn)(結(jié)點(diǎn))用來(lái)表示一個(gè)讀者,而一條邊的連接用來(lái)表示兩個(gè)讀者之間的關(guān)系。利用網(wǎng)絡(luò)圖我們可以研究該網(wǎng)絡(luò)的結(jié)構(gòu)特征,以及每個(gè)讀者威望性、中心性等屬性。同時(shí)從中我們也可以找到各種類(lèi)型的子圖,即社區(qū)。
2、 基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的圖書(shū)館個(gè)性化推薦分析
2.1基于K-means聚類(lèi)推薦分析
圖書(shū)館讀者聚類(lèi)可以通過(guò)兩種方式進(jìn)行聚類(lèi),建立二維推薦模型,即:查詢(xún)聚類(lèi)和借閱聚類(lèi)。在此,只要實(shí)現(xiàn)查詢(xún)信息和借閱信息的高效率、高準(zhǔn)確率的自動(dòng)分類(lèi),然后根據(jù)讀者興趣模型匹配,就可以完成其推薦過(guò)程。自動(dòng)分類(lèi)信息可以采用K-均值聚類(lèi)算法實(shí)現(xiàn),并根據(jù)圖書(shū)館相關(guān)信息結(jié)構(gòu)的特點(diǎn),對(duì)算法本身加以改進(jìn)。具體流程如圖1。
2.2 基于PageRank社會(huì)網(wǎng)絡(luò)分析
在圖書(shū)館借閱場(chǎng)景下,讀者瀏覽和借閱行為反應(yīng)了讀者的需求。PageRank算法關(guān)鍵在于測(cè)度每個(gè)對(duì)象的隨機(jī)訪問(wèn)概率。我們假定讀者借閱史就是讀者推薦書(shū)目單,反應(yīng)了讀者對(duì)于圖書(shū)的認(rèn)可程度。在此,我們可以把訪問(wèn)概率轉(zhuǎn)化為讀者推薦書(shū)目單的緊密程度,因此,問(wèn)題轉(zhuǎn)化為求讀者推薦書(shū)目單的緊密程度,然后通過(guò)PageRank算法,求出讀者推薦書(shū)目單的權(quán)威度排名,進(jìn)而推薦給興趣模型相似的讀者。
我們用dist(j, t)表示兩個(gè)讀者推薦書(shū)目單關(guān)系程度,使用其文本相似度 來(lái)度量,進(jìn)而產(chǎn)生新的PageRank2算法。對(duì)于每個(gè)讀者推薦書(shū)目單,其重要度PR2(i)可定義為:
其中DIS(j,i)定義為:
在實(shí)際應(yīng)用中,由于某些讀者推薦書(shū)目單可能與其他讀者推薦書(shū)目單 值為0,故將公式2調(diào)整為:
其中a為衰減系數(shù),設(shè)定為0和1之間,其本質(zhì)是為了消除孤立讀者,給每個(gè)讀者增加一條指向所有其它讀者的鏈接,并且給予每個(gè)鏈接一個(gè)由參數(shù)a控制的轉(zhuǎn)移概率,在這里我們沿用PageRank中的取值a=0.8570。
3、 結(jié)語(yǔ)
本文主要探討了網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書(shū)館中的應(yīng)用問(wèn)題,并對(duì)于社會(huì)網(wǎng)絡(luò)分析的應(yīng)用進(jìn)行了較為深入的分析,提出了具體算法。網(wǎng)絡(luò)數(shù)據(jù)挖掘廣泛應(yīng)用于互聯(lián)網(wǎng)。隨著數(shù)字圖書(shū)館的不斷興起,其在圖書(shū)館領(lǐng)域的應(yīng)用將更加廣泛4。但是,圖書(shū)館相對(duì)封閉的信息環(huán)境制約著網(wǎng)絡(luò)數(shù)據(jù)挖掘的應(yīng)用。相信隨著Web2.0和讀者個(gè)性化需求不斷得到重視5,數(shù)字圖書(shū)館技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)挖掘?qū)?huì)發(fā)揮更加重要的作用。
參考文獻(xiàn)
[1] 馬費(fèi)成,王曉光.信息資源管理研究及國(guó)際前沿[J].情報(bào)學(xué)研究進(jìn)展.武漢大學(xué)出版社,2007.
[2] 劉曉忠.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館建設(shè)中的應(yīng)用[J].硅谷,2012(6).
【中圖分類(lèi)號(hào)】G420 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009―8097(2009)06―0104―03
數(shù)據(jù)挖掘技術(shù)可以從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程。通過(guò)這種技術(shù)把獲取的信息和知識(shí)提供給決策支持系統(tǒng)。這種技術(shù)已廣泛地用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等[1,2,3] ,隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘在網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究也逐漸深入[4,5,6] 。網(wǎng)絡(luò)教學(xué)成為一種新型教學(xué)手段,理論上學(xué)習(xí)者可以在任何時(shí)間、任何地點(diǎn)以任何形式、從任何章節(jié)開(kāi)始學(xué)習(xí)任何內(nèi)容,實(shí)現(xiàn)個(gè)性化學(xué)習(xí)。但在網(wǎng)絡(luò)教學(xué)實(shí)施過(guò)程中,教學(xué)內(nèi)容和組織活動(dòng)卻不能隨著學(xué)生的學(xué)習(xí)狀況發(fā)生動(dòng)態(tài)變化,導(dǎo)致了教與學(xué)脫離的現(xiàn)象,教學(xué)效果達(dá)不到預(yù)期效果。因此可以利用該技術(shù)對(duì)收集到的與學(xué)生學(xué)習(xí)相關(guān)的歷史數(shù)據(jù)進(jìn)行分析,從而可以為教師深入理解學(xué)生的實(shí)際學(xué)習(xí)情況,制定相關(guān)的教學(xué)目標(biāo)供 其學(xué)習(xí)提供有力的決策支持,是提升教學(xué)效果的有力手段。
一 擬解決的關(guān)鍵問(wèn)題
本文探討 在現(xiàn)有的網(wǎng)絡(luò)教學(xué)平臺(tái)基礎(chǔ)上,以在教學(xué)信息數(shù)據(jù)庫(kù)中采集到的學(xué)生學(xué)習(xí)記錄為樣本,應(yīng)用數(shù)據(jù)挖掘技術(shù),挖掘有用的規(guī)則,探討學(xué)生的學(xué)習(xí)習(xí)慣, 學(xué)習(xí)興趣和學(xué)習(xí)成績(jī)間的關(guān)系,從而及時(shí)了解學(xué)生對(duì)每一章節(jié)知識(shí)的掌握程度并根據(jù)每個(gè)學(xué)生的情況制定下一章節(jié)的教學(xué)目標(biāo),為其提供不同的教學(xué)內(nèi)容,從而使教學(xué)更適合學(xué)生
個(gè)性的發(fā)展,實(shí)現(xiàn)網(wǎng)絡(luò)分層教學(xué),最終實(shí)現(xiàn)教學(xué)過(guò)程的動(dòng)態(tài)調(diào)節(jié)。
二 數(shù)據(jù)預(yù)處理
由于人為的原因、設(shè)備的故障及數(shù)據(jù)傳輸中的錯(cuò)誤,導(dǎo)致現(xiàn)實(shí)世界的數(shù)據(jù)含有臟的、不完整的和不一致的數(shù)據(jù)。數(shù)據(jù)預(yù)處理技術(shù)可以檢測(cè)數(shù)據(jù)異常,調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),從而改進(jìn)數(shù)據(jù)的質(zhì)量,提高其后挖掘過(guò)程的精度和性能。
本文數(shù)據(jù)源于《數(shù)據(jù)結(jié)構(gòu)》網(wǎng)絡(luò)教學(xué)課程,48節(jié)理論課,24節(jié)實(shí)驗(yàn),4.5個(gè)學(xué)分。學(xué)生111人,其中06級(jí)信息與計(jì)算科學(xué)專(zhuān)業(yè)班合計(jì)64人,07級(jí)地理信息系統(tǒng)專(zhuān)業(yè)一個(gè)班計(jì)47人。針對(duì)1節(jié)提出的問(wèn)題,本文通過(guò)對(duì)網(wǎng)絡(luò)教學(xué)平臺(tái)教學(xué)信息數(shù)據(jù)庫(kù)中的學(xué)生信息表、學(xué)生學(xué)習(xí)進(jìn)度表、測(cè)試信息表等進(jìn)行數(shù)據(jù)挖掘,說(shuō)明其在網(wǎng)絡(luò)教學(xué)中的應(yīng)用。各表結(jié)構(gòu)如表1至表3所示(本文中學(xué)生信息經(jīng)過(guò)掩飾處理)。
其中內(nèi)容是指客觀性考題,如單項(xiàng)選擇題等。主觀性考題,如算法設(shè)計(jì)之類(lèi)考題可以以教師組織的BBS討論為依據(jù)評(píng)分,在此以有效討論次數(shù)(有實(shí)質(zhì)性的討論內(nèi)容)計(jì)算。
首先去除數(shù)據(jù)表中的冗余信息,如學(xué)生信息表中除學(xué)號(hào)信息以外的各分項(xiàng)信息,每一章節(jié)學(xué)習(xí)進(jìn)度表中的節(jié)、日期信息,每章測(cè)試信息表中的題號(hào)、內(nèi)容、答案等信息;對(duì)某些匯總數(shù)據(jù)項(xiàng)進(jìn)行離散化處理,如將測(cè)試信息表中得分匯總后分為(0,59),(60,85),(85,100)等 3個(gè)組并概化為不及格,合格和優(yōu)秀三個(gè)層次;學(xué)習(xí)時(shí)間匯總后分為(0,2),(2,4),(4,6),(6,)等 四個(gè)組,單位:小時(shí);學(xué)習(xí)次數(shù)匯總后分為(0,3),(3,6),(6,)等 三個(gè)組,BBS討論匯總后分為(0,3),(3,6),(6,)并 概化為積極,參與和不積極三個(gè)層次[7];同時(shí)下一章節(jié)的教學(xué)目標(biāo)制定為三個(gè)層次,內(nèi)容呈現(xiàn)分別表示為A類(lèi)、B類(lèi)、C類(lèi)三個(gè)層次的內(nèi)容,提供給學(xué)生學(xué)習(xí)。然后檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理。經(jīng)過(guò)數(shù)據(jù)預(yù)處理工作,得到一張描述學(xué)生學(xué)習(xí)過(guò)程信息的數(shù)據(jù)表格,表4是我們整理出的某一章節(jié)的學(xué)生學(xué)習(xí)情況數(shù)據(jù)。
三 數(shù)據(jù)挖掘過(guò)程
主要是利用關(guān)聯(lián)分析、序列模式分析、分類(lèi)分析和聚類(lèi)分析等分析方法對(duì)數(shù)據(jù)庫(kù)中的潛在規(guī)則進(jìn)行挖掘。針對(duì)1節(jié)中提出的問(wèn)題,根據(jù)國(guó)內(nèi)外對(duì)各類(lèi)模式挖掘算法的研究[8,9],本文采用FP-Tree關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘和用于 分類(lèi)模型判定樹(shù)歸納算法進(jìn)行數(shù)據(jù)挖掘。
1 關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,通過(guò)這種挖掘技術(shù)對(duì)表4進(jìn)行挖掘,可以發(fā)現(xiàn)學(xué)生的學(xué)習(xí)時(shí)間、學(xué)習(xí)次數(shù)及網(wǎng)絡(luò)課堂討論和學(xué)習(xí)效果之間的關(guān)系,使教師了解學(xué)生的網(wǎng)上學(xué)習(xí)行為和目標(biāo)掌握程度,幫助教師調(diào)整教學(xué)計(jì)劃,如設(shè)計(jì)有意義的討論課題提升學(xué)生的學(xué)習(xí)興趣,從而間接增加學(xué)生的學(xué)習(xí)時(shí)間和學(xué)習(xí)次數(shù)。
首先給出關(guān)聯(lián)規(guī)則的形式化描述:設(shè) 是m個(gè)項(xiàng)的集合,D是數(shù)據(jù)庫(kù)事務(wù)的集合,每個(gè)事務(wù)有一個(gè)標(biāo)識(shí)符。關(guān)聯(lián)規(guī)則就是形如 的蘊(yùn)含式,其中 ,并且 。規(guī)則的支持度記為 ,是事務(wù)D中包含的 事務(wù)數(shù)與所有事務(wù)數(shù)之比,置信度記為 ,是指包含的 事務(wù)數(shù)與包含的 事務(wù)數(shù)之比。
給定事務(wù)數(shù)據(jù)庫(kù)D挖掘關(guān)聯(lián)規(guī)則問(wèn)題就是產(chǎn)生支持度、置信度分別大于用戶(hù)給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。
表5是使用FP-Tree算法對(duì)學(xué)生學(xué)習(xí)情況表進(jìn)行挖掘得到的一系列關(guān)聯(lián)規(guī)則(因篇幅限制,本文僅列出部分內(nèi)容)。
從上表可以看出,學(xué)習(xí)時(shí)間在6小時(shí)以上并且成績(jī)?yōu)閮?yōu)秀的同學(xué)占全班的20.51%,學(xué)習(xí)時(shí)間6小時(shí)以上的同學(xué)中有34.78%的學(xué)生成績(jī)?yōu)閮?yōu)秀。學(xué)習(xí)時(shí)間在2小時(shí)以下的并且成績(jī)不及格的同學(xué)占全班的7.69%,學(xué)習(xí)時(shí)間2小時(shí)以下的同學(xué)中有75%的學(xué)生成績(jī)不及格。學(xué)習(xí)時(shí)間在6小時(shí)以上,學(xué)習(xí)次數(shù)多于6次且成績(jī)?yōu)閮?yōu)秀的學(xué)生占全班的7.69%,這部分同學(xué)中有75%也積極參與BBS討論,而學(xué)習(xí)時(shí)間少于2小時(shí),次數(shù)少于3次,基本不參與討論的同學(xué),不及格率為100%,這部分同學(xué)占全班的7.69%。比例明顯偏高,需要調(diào)整教學(xué)的內(nèi)容和設(shè)計(jì)討論問(wèn)題以提高學(xué)生的興趣。從表中還可以看出,學(xué)習(xí)次數(shù)多于6次的學(xué)生中有92.31%的學(xué)生其學(xué)習(xí)時(shí)間一般也會(huì)超過(guò)6小時(shí),這部分學(xué)生占全班的61.54%,通過(guò)關(guān)聯(lián)規(guī)則的挖掘,可以掌握學(xué)生網(wǎng)上學(xué)習(xí)行為,從而為教師的教學(xué)策略調(diào)整提供依據(jù),可以更好地進(jìn)行學(xué)生的培養(yǎng)。
2 分類(lèi)模型挖掘
著名的心理學(xué)家、教育學(xué)家布盧姆提出的掌握學(xué)習(xí)理論認(rèn)為:“只要在提供恰當(dāng)?shù)牟牧虾瓦M(jìn)行教學(xué)的同時(shí)給每個(gè)學(xué)生提供適度的幫助和充分的時(shí)間,幾乎所有的學(xué)生都能完成學(xué)習(xí)任務(wù)或達(dá)到規(guī)定的學(xué)習(xí)目標(biāo)”。
通過(guò)構(gòu)造判定樹(shù)可以建立學(xué)生分層教學(xué)模型,并依據(jù)判定樹(shù)為學(xué)生提供不同層次的教學(xué)內(nèi)容而 實(shí)現(xiàn)對(duì)學(xué)生的網(wǎng)絡(luò)分層教學(xué)。分類(lèi)模型判定樹(shù)歸納算法主要表述為計(jì)算每個(gè)屬性的信息增益,將具有最高信息增益的屬性選作 給定樣本集合的測(cè)試屬性,創(chuàng)建樹(shù)的結(jié)點(diǎn),并以該屬性標(biāo)記,對(duì)屬性的每個(gè)值創(chuàng)建分支,并據(jù)此劃分樣本。由于樣本數(shù)據(jù)中存在噪聲或孤立點(diǎn),通過(guò)樹(shù)剪枝去除不合理的分支,以提高在未知數(shù)據(jù)上分類(lèi)的準(zhǔn)確性。據(jù)此算法構(gòu)造的判定樹(shù)如圖1所示。
判定樹(shù)的第一層條件為每一章節(jié)的單元測(cè)試成績(jī),分別表示為優(yōu)秀、合格和不及格。不及格的同學(xué)下一章節(jié)進(jìn)入C類(lèi)教學(xué)目標(biāo)學(xué)習(xí),優(yōu)秀的同學(xué)則進(jìn)入A類(lèi)教學(xué)目標(biāo)學(xué)習(xí),合格的同學(xué)則根據(jù)學(xué)習(xí)的次數(shù)決定下一章節(jié)的教學(xué)目標(biāo)。學(xué)習(xí)次數(shù)為0~2次的同學(xué)進(jìn)入B類(lèi)教學(xué)目標(biāo)學(xué)習(xí),3~5次的同學(xué)則需要根據(jù)學(xué)習(xí)時(shí)間判定,根據(jù)判定樹(shù)可知,所有同學(xué)進(jìn)入B類(lèi)教學(xué)目標(biāo)學(xué)習(xí),這和我們?nèi)粘5呐袛噙壿嬒喾驗(yàn)閷W(xué)習(xí)次數(shù)較多,學(xué)習(xí)時(shí)間較長(zhǎng),但成績(jī)卻是合格的同學(xué)很有可能是因?yàn)榉椒ú划?dāng)?shù)仍驅(qū)е陆邮苤R(shí)能力較差,進(jìn)入A類(lèi)目標(biāo)學(xué)習(xí)顯然是不合理的。當(dāng)學(xué)習(xí)次數(shù)大于6次時(shí),可以根據(jù)學(xué)生參與BBS討論的次數(shù)決定學(xué)生的下一章節(jié)的學(xué)習(xí)目標(biāo),討論次數(shù)0~2次的同學(xué)其學(xué)習(xí)目標(biāo)定為B類(lèi),3次以上的同學(xué)其學(xué)習(xí)目標(biāo)則定為A類(lèi),這類(lèi)學(xué)生表現(xiàn)出對(duì)知識(shí)的渴求,興趣較濃,理解知識(shí)的能力相對(duì)較強(qiáng)。
本文為全文原貌 未安裝PDF瀏覽器用戶(hù)請(qǐng)先下載安裝 原版全文
根據(jù)判定樹(shù),可以根據(jù)學(xué)生學(xué)習(xí)本章節(jié)的實(shí)際情況對(duì)學(xué)生學(xué)習(xí)下一章節(jié)內(nèi)容的效果進(jìn)行預(yù)測(cè),據(jù)此對(duì)學(xué)生進(jìn)行分類(lèi),提供不同的教學(xué)內(nèi)容供其學(xué)習(xí),以提高整體教學(xué)質(zhì)量。
參考文獻(xiàn)
[1] 湯小文,蔡慶生. 數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].計(jì)算機(jī)工程,2004,30(6):36-37,41.
[2] 楊引霞,謝康林,朱揚(yáng)勇等.電子商務(wù)網(wǎng)站推薦系統(tǒng)中關(guān)聯(lián)規(guī)則推薦模型的實(shí)現(xiàn)[J].計(jì)算機(jī)工程, 2004, 30(19):57-59.
[3] 印鑒,陳憶群,張鋼.基于數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析挖掘系統(tǒng)[J].計(jì)算機(jī)工程,2004,30(19):49-51.
[4] 楊清蓮,周慶敏,常志玲.Web挖掘技術(shù)及其在網(wǎng)絡(luò)教學(xué)評(píng)價(jià)中的應(yīng)用[J].南京工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2005, 27(5):100-103.
[5] 劉革平,黃智興,邱玉輝.基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)過(guò)程評(píng)價(jià)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電化教育研究,2005,(7):67-69.
[6] 孫瑩,程華,萬(wàn)浩.基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)者網(wǎng)上學(xué)習(xí)行為研究[J].中國(guó)遠(yuǎn)程教育,2008,(5):44-47.
[7] 龔志武.關(guān)于成人學(xué)生網(wǎng)上學(xué)習(xí)行為影響因素的實(shí)證研究[J].中國(guó)電化教育,2004,(8):32-34.
[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.
[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).
Application of Data Mining in Network Teaching
SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1
(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)
中圖分類(lèi)號(hào): G250.2 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2012)06-0001-08
1 引言
當(dāng)數(shù)據(jù)和黃金一樣,成為一種新的經(jīng)濟(jì)資產(chǎn)[1],當(dāng)科研處于以數(shù)據(jù)為基礎(chǔ)進(jìn)行科學(xué)發(fā)現(xiàn)的第四范式[2],當(dāng)數(shù)據(jù)開(kāi)始變革教育[3],這些無(wú)不宣告著我們已經(jīng)進(jìn)入了大數(shù)據(jù)(big data)時(shí)代。不同的學(xué)科領(lǐng)域,正在不同的層面上廣泛地關(guān)注著大數(shù)據(jù)對(duì)自己的研究和實(shí)踐帶來(lái)的深刻影響,情報(bào)研究領(lǐng)域也不例外。
大數(shù)據(jù),顧名思義是大規(guī)模的數(shù)據(jù)集,但它又不僅僅是一個(gè)簡(jiǎn)單的數(shù)量的概念,IBM公司指出,大數(shù)據(jù)的特點(diǎn)是4個(gè)V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實(shí)),它提供了在新的和正在出現(xiàn)的數(shù)據(jù)和內(nèi)容中洞悉事物的機(jī)會(huì),使業(yè)務(wù)更加靈活,并回答以往沒(méi)有考慮到的問(wèn)題[4]。Gartner公司的報(bào)告也提出,大數(shù)據(jù)是大容量、高速和多樣化的信息資產(chǎn),它們需要新的處理方式,以提高決策能力、洞察力和流程優(yōu)化[5]。
由此可見(jiàn),大數(shù)據(jù)強(qiáng)調(diào)的不單純只是數(shù)據(jù)量多少的問(wèn)題,其背后隱藏了更為復(fù)雜和深刻的理念,這些理念包括:①將對(duì)數(shù)據(jù)和信息的分析提升到了前所未有的高度。這里的分析不是一般的統(tǒng)計(jì)計(jì)算,而是深層的挖掘。大數(shù)據(jù)時(shí)代,如何充分利用好積累的數(shù)據(jù)和信息,以創(chuàng)造出更多的價(jià)值,已經(jīng)成為企業(yè)管理者、政府機(jī)構(gòu)以及科研工作者首要關(guān)注的問(wèn)題?!皹I(yè)務(wù)就是數(shù)據(jù)”、“數(shù)據(jù)就是業(yè)務(wù)”、“從大數(shù)據(jù)中發(fā)掘大洞察”等意味著對(duì)數(shù)據(jù)分析提出了新的、更高的要求??梢赃@么說(shuō),大數(shù)據(jù)時(shí)代就是數(shù)據(jù)分析的時(shí)代。②多種數(shù)據(jù)的整合和融合利用。大數(shù)據(jù)時(shí)代,數(shù)據(jù)的多樣性是一種真實(shí)的存在,數(shù)據(jù)既包括結(jié)構(gòu)化的數(shù)據(jù),也包括非結(jié)構(gòu)化的數(shù)據(jù),表現(xiàn)方式可以是數(shù)據(jù)庫(kù)、數(shù)據(jù)表格、文本、傳感數(shù)據(jù)、音頻、視頻等多種形式。同一個(gè)事實(shí)或規(guī)律可以同時(shí)隱藏在不同的數(shù)據(jù)形式中,也可能是每一種數(shù)據(jù)形式分別支持了同一個(gè)事實(shí)或規(guī)律的某一個(gè)或幾個(gè)側(cè)面,這既為數(shù)據(jù)和信息分析的結(jié)論的交叉驗(yàn)證提供了契機(jī),也要求分析者在分析研究過(guò)程中有意識(shí)地融集各種類(lèi)型的數(shù)據(jù),從多種信息源中發(fā)現(xiàn)潛在知識(shí)。只有如此,才能真正地提高數(shù)據(jù)分析的科學(xué)性和準(zhǔn)確性。③更加廣泛地應(yīng)用新技術(shù)和適用技術(shù)。數(shù)據(jù)量大(Volume)、類(lèi)型多樣(Variety)、增長(zhǎng)速度快(Velocity)是大數(shù)據(jù)的突出特點(diǎn),這必然會(huì)帶來(lái)數(shù)據(jù)獲取、整合、存儲(chǔ)、分析等方面的新發(fā)展,產(chǎn)生相應(yīng)的新技術(shù)或者將已有的技術(shù)創(chuàng)新地應(yīng)用于大數(shù)據(jù)的管理與分析。同時(shí),大數(shù)據(jù)的這些特點(diǎn)也決定了傳統(tǒng)的、以人工分析為主的工作模式將遇到瓶頸,計(jì)算機(jī)輔助分析或基于計(jì)算機(jī)的智能化分析,將成為大數(shù)據(jù)時(shí)代數(shù)據(jù)與信息分析的主流模式。
對(duì)于在數(shù)據(jù)分析領(lǐng)域扮演重要角色的情報(bào)研究工作而言,大數(shù)據(jù)的理念和技術(shù)既帶來(lái)了機(jī)遇,也帶來(lái)了挑戰(zhàn)。一方面,在大數(shù)據(jù)時(shí)代,情報(bào)研究工作正在得到空前的重視,大數(shù)據(jù)為情報(bào)研究的新發(fā)展提供了機(jī)會(huì),從更為廣闊的視野來(lái)看待情報(bào)研究的定位,研究新技術(shù)新方法,解決新問(wèn)題,將極大地促進(jìn)情報(bào)研究理論與實(shí)踐前進(jìn)的步伐。另一方面,大數(shù)據(jù)時(shí)代本身也要求各行各業(yè)重視情報(bào)研究工作,這就必然使得眾多學(xué)科有意識(shí)地涉足到以往作為專(zhuān)門(mén)領(lǐng)域的情報(bào)研究之中,并將其作為本學(xué)科的重要組成部分加以建設(shè)。文獻(xiàn)分析(本質(zhì)是文本分析)不再為情報(bào)研究所獨(dú)占,以往情報(bào)研究領(lǐng)域積累的相關(guān)理論和方法很有可能優(yōu)勢(shì)不再。因此,如何把握住自身的優(yōu)勢(shì),并抓住機(jī)會(huì)有所拓展,是情報(bào)學(xué)在大數(shù)據(jù)時(shí)代需要思考的問(wèn)題。
2 大數(shù)據(jù)環(huán)境下情報(bào)研究的發(fā)展趨勢(shì)
大數(shù)據(jù)帶來(lái)的新觀念,正在引報(bào)研究的新發(fā)展,而且,研究人員也在不斷地從情報(bào)研究的實(shí)踐中總結(jié)經(jīng)驗(yàn)教訓(xùn),引導(dǎo)情報(bào)研究的未來(lái)走向。英國(guó)萊斯特大學(xué)的Mark Phythian教授在2008年10月作 了題為“情報(bào)分析的今天和明天”的報(bào)告[6],指出:①獲知情境是至關(guān)重要的。忽略戰(zhàn)略環(huán)境、領(lǐng)導(dǎo)風(fēng)格和心理因素等更為廣泛的問(wèn)題,將導(dǎo)致情報(bào)研究的失誤;②要加強(qiáng)信息之間的關(guān)聯(lián)。美國(guó)政府部門(mén)內(nèi)部的信息共享障礙,致使分析人員無(wú)法獲取充足的信息來(lái)支持分析活動(dòng),導(dǎo)致情報(bào)研究中的預(yù)測(cè)失敗;③要汲取更多外界的專(zhuān)業(yè)知識(shí)。這一舉措雖然不能保證分析的成功性,但將是競(jìng)爭(zhēng)分析的重要信息來(lái)源。
綜合大數(shù)據(jù)背景的要求和以往情報(bào)研究的經(jīng)驗(yàn)教訓(xùn),結(jié)合國(guó)內(nèi)外同行的研究成果,本文將情報(bào)研究的發(fā)展趨勢(shì)總結(jié)為以下五個(gè)方面:?jiǎn)我活I(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究;綜合利用多種數(shù)據(jù)源;注重新型信息資源的分析;強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性;情報(bào)研究的智能化。
2.1 單一領(lǐng)域情報(bào)研究轉(zhuǎn)向全領(lǐng)域情報(bào)研究
隨著學(xué)科的深入交叉融合及社會(huì)發(fā)展、經(jīng)濟(jì)發(fā)展與科技發(fā)展一體化程度的增強(qiáng),情報(bào)研究正從單一領(lǐng)域分析向全領(lǐng)域分析的方向發(fā)展。
首先,表現(xiàn)在各領(lǐng)域中的情報(bào)研究從視角、方法上的相互借鑒。從方法上看,社交網(wǎng)絡(luò)分析方法、空間信息分析等其他學(xué)科的分析方法,廣泛應(yīng)用于軍事情報(bào)、科技情報(bào)等領(lǐng)域,心理學(xué)等領(lǐng)域的理論也用于情報(bào)分析的認(rèn)知過(guò)程,以指導(dǎo)情報(bào)分析及其工具的研發(fā)。同時(shí),情報(bào)學(xué)中的引文分析等文獻(xiàn)計(jì)量方法也被借鑒用于網(wǎng)站影響力評(píng)估。從技術(shù)上看,可視化、數(shù)據(jù)挖掘等計(jì)算機(jī)領(lǐng)域的技術(shù),為情報(bào)研究提供了有力的技術(shù)視角,情報(bào)研究獲得的知識(shí)反過(guò)來(lái)又給予其他技術(shù)領(lǐng)域的發(fā)展以引導(dǎo)。可見(jiàn),無(wú)論從思想上、方法上、技術(shù)上,各領(lǐng)域之間的交叉點(diǎn)越來(lái)越多,雖然這種相互借鑒早就存在,但現(xiàn)在意識(shí)更強(qiáng)、手段更為綜合。
其次是分析內(nèi)容的擴(kuò)展,這也是最為重要和顯著的變化。在情報(bào)研究過(guò)程中,不僅僅局限于就本領(lǐng)域問(wèn)題的分析而分析,而將所分析的內(nèi)容置于一個(gè)更大的情景下做通盤(pán)考慮,從而得出更為嚴(yán)謹(jǐn)?shù)慕Y(jié)論。聯(lián)合國(guó)的創(chuàng)新倡議項(xiàng)目Global Pulse在其白皮書(shū)“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關(guān)鍵,基于沒(méi)有代表性樣本而獲得的結(jié)論是缺乏外部合法性的,即不能反映真實(shí)的世界。在情報(bào)研究領(lǐng)域,一些數(shù)據(jù)往往因?yàn)橐恍┎豢煽沽Φ脑蚨煌暾?,如早期的科技?shù)據(jù),可能由于國(guó)際形勢(shì)等外部因素,導(dǎo)致一些國(guó)家的科技信息無(wú)法獲取,基于這樣缺失的分析樣本來(lái)評(píng)估該國(guó)的科技影響力,如果僅就數(shù)據(jù)論數(shù)據(jù),無(wú)疑是會(huì)得“正確”的錯(cuò)誤結(jié)論,這時(shí)應(yīng)針對(duì)這樣的異常情況,將研究問(wèn)題放置在當(dāng)時(shí)的時(shí)代背景下,揭示背后的原因,從其他方面收集信息來(lái)補(bǔ)充,才能得出符合實(shí)際的結(jié)論。也就是說(shuō),必須要考察不同時(shí)間戳下的相關(guān)信息,再對(duì)分析內(nèi)容加以擴(kuò)充,這實(shí)質(zhì)是一種基于時(shí)間軸的擴(kuò)展。另外,將內(nèi)容擴(kuò)展至本領(lǐng)域的上下游則是一種更為重要的擴(kuò)展。例如,考察某項(xiàng)技術(shù)的發(fā)展前景,如果僅就該技術(shù)本身來(lái)討論,可能會(huì)得出正面的結(jié)論,但如果結(jié)合特定地區(qū)人們對(duì)該技術(shù)的態(tài)度、當(dāng)?shù)氐募夹g(shù)水平、物理?xiàng)l件、發(fā)展定位等,卻可能會(huì)得出相反的結(jié)論。這就說(shuō)明,在很多領(lǐng)域中,環(huán)境不同,發(fā)展程度不同,要解決的問(wèn)題也就不同。一些地區(qū)當(dāng)前關(guān)注的問(wèn)題不一定就是其他地區(qū)要關(guān)注的問(wèn)題,某些欠發(fā)達(dá)地區(qū)當(dāng)前不一定就必須照搬另一些所謂發(fā)達(dá)地區(qū)的當(dāng)前做法。這需要通盤(pán)考察,分析相關(guān)思想、觀點(diǎn)和方法產(chǎn)生的土壤、使用的條件,結(jié)合當(dāng)前環(huán)境再做出判斷,否則可能會(huì)對(duì)決策者產(chǎn)生誤導(dǎo)。
2.2 綜合利用多種數(shù)據(jù)源
綜合利用多種信息源已經(jīng)成為情報(bào)研究的另一大發(fā)展趨勢(shì)。Thomas Fingar[8]從軍事情報(bào)角度指出,軍事情報(bào)界需要綜合利用人際情報(bào)、信號(hào)情報(bào)、圖像情報(bào)和外部情報(bào),進(jìn)行全資源分析(all-source analysis),即利用多種不同的信息資源來(lái)評(píng)估、揭示、解釋事物的發(fā)展、發(fā)現(xiàn)新知識(shí)或解決政策難題??萍记閳?bào)界也是如此,如利用科技論文和專(zhuān)利,發(fā)現(xiàn)科技之間的轉(zhuǎn)換關(guān)系、預(yù)測(cè)技術(shù)發(fā)展方向,綜合利用政府統(tǒng)計(jì)數(shù)據(jù)、高校網(wǎng)站、期刊、報(bào)紙、圖書(shū)等來(lái)評(píng)估大學(xué)等科研機(jī)構(gòu)??梢?jiàn),綜合利用多種信息源是從問(wèn)題出發(fā),系統(tǒng)化地整合所有相關(guān)信息資源來(lái)支持情報(bào)研究,信息源可以是學(xué)術(shù)論文、專(zhuān)利等不同類(lèi)型的文獻(xiàn)集合、文本和數(shù)據(jù)的集合也可以是正式出版物與非正式出版物的集合等。
這一發(fā)展趨勢(shì)是由幾大因素決定的。一是情報(bào)研究問(wèn)題的復(fù)雜性。在大數(shù)據(jù)背景下,情報(bào)不再局限在科技部門(mén),而成為全社會(huì)的普遍知識(shí)。公眾對(duì)情報(bào)的需求使得情報(bào)研究問(wèn)題更為綜合,涉及要素更為多元,同時(shí)也更為細(xì)化。這導(dǎo)致單一數(shù)據(jù)源不能滿足分析的要求,需要不同類(lèi)型的信息源相互補(bǔ)充。例如要分析科技之間的轉(zhuǎn)換關(guān)系,就避免不了涉及科技論文和專(zhuān)利這兩種類(lèi)型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問(wèn)題,如專(zhuān)利、研究出版物、技術(shù)報(bào)告等,可以較為直觀地反映研究者對(duì)某科技問(wèn)題的理解與描述,而評(píng)論文章、科技新聞、市場(chǎng)調(diào)查等,可以反映出社會(huì)對(duì)該科技的觀點(diǎn)、認(rèn)知情況[9]。因此,各類(lèi)信息自身的特性就說(shuō)明他們之間可以、也需要相互補(bǔ)充。此外,從現(xiàn)實(shí)角度來(lái)看,通常會(huì)遇到某些信息無(wú)法獲取的情況,這就需要?jiǎng)e的信息加以替代,這就從實(shí)踐角度說(shuō)明了綜合利用多種信息源的必要性。三是分析結(jié)果的重要性。以評(píng)估大學(xué)為例,評(píng)估的結(jié)果會(huì)引導(dǎo)各學(xué)校在比較中發(fā)現(xiàn)自身優(yōu)勢(shì)和差距,指導(dǎo)未來(lái)發(fā)展定位,同時(shí)也為廣大學(xué)生報(bào)考提供參考??梢?jiàn),研究結(jié)果對(duì)社會(huì)的影響是廣泛而深遠(yuǎn)的,要做到分析結(jié)果的可靠性、科學(xué)性,必然先要從源頭上,即分析數(shù)據(jù)上加以豐富完善。
綜合利用多種信息源也意味著諸多挑戰(zhàn)。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類(lèi)型中是如何表現(xiàn)的,不同信息源相互之間的關(guān)系是怎樣的。其次,針對(duì)待分析的問(wèn)題,要選擇適合的信息,并不是信息越多越好,類(lèi)型越全越好,尤其是當(dāng)問(wèn)題含糊不清時(shí),可能需要不斷地調(diào)整信息源。再次,情報(bào)研究人員要能有效地綜合、組織、解釋不同信息源分析出的結(jié)果,特別是當(dāng)結(jié)論有所沖突的時(shí)候,識(shí)別不當(dāng)結(jié)果、保證分析結(jié)果的正確性是很重要的。
2.3 注重新型信息資源的分析
隨著網(wǎng)絡(luò)應(yīng)用的深入,出現(xiàn)了許多新型的媒體形式。Andreas M. Kaplan等人將構(gòu)建于Web2.0技術(shù)和思想基礎(chǔ)上,允許用戶(hù)創(chuàng)建交換信息內(nèi)容的基于網(wǎng)絡(luò)的應(yīng)用定義為社會(huì)化媒體(Social Media),包括合作項(xiàng)目(如維基百科)、博客、內(nèi)容社區(qū)(如YouTube)、社交網(wǎng)站、虛擬游戲世界和虛擬社會(huì)世界(如第二人生)等六種類(lèi)型[10]。這類(lèi)媒體形式依托于Web2.0等網(wǎng)絡(luò)技術(shù),以用戶(hù)為中心來(lái)組織、傳播信息,信息可以是用戶(hù)創(chuàng)造性的言論或觀點(diǎn),可以是圍繞自己喜好收集的信息資源集合等。由于社會(huì)化媒體的易用性、快速性和易獲取性等特點(diǎn),它們正迅速地改變著社會(huì)的公共話語(yǔ)環(huán)境,并引導(dǎo)著技術(shù)、娛樂(lè)、政治等諸多主題的發(fā)展[11]。這些通過(guò)龐大的用戶(hù)社區(qū)來(lái)傳播的高度多樣化的信息及其網(wǎng)絡(luò)結(jié)構(gòu),為洞悉公眾對(duì)某一主題的觀點(diǎn)、研究信息擴(kuò)散等社會(huì)現(xiàn)象[12]、預(yù)測(cè)未來(lái)發(fā)展方向[11]等提供了機(jī)會(huì),有助于發(fā)現(xiàn)有共同興趣的社群、領(lǐng)域?qū)<?、熱點(diǎn)話題[13]等,帶來(lái)了網(wǎng)絡(luò)輿情分析等研究?jī)?nèi)容。此外,這類(lèi)信息結(jié)合其他類(lèi)型的數(shù)據(jù),產(chǎn)生了新的情報(bào)研究領(lǐng)域。例如,智能手機(jī)的普及和GPS的廣泛應(yīng)用,使得可以從社交網(wǎng)絡(luò)和網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)傳感數(shù)據(jù)和設(shè)備傳感數(shù)據(jù)中獲取社會(huì)和社區(qū)情報(bào)(social and community intelligence,SCI),揭示人類(lèi)行為模式和社群動(dòng)態(tài)[14]。
此外,機(jī)構(gòu)知識(shí)庫(kù)等作為一種反映組織或群體知識(shí)成果的智力資源,也正引報(bào)界的重視。網(wǎng)絡(luò)信息聯(lián)盟的執(zhí)行董事Clifford A. Lynch[15]從大學(xué)的角度指出,成熟完整的機(jī)構(gòu)知識(shí)庫(kù)應(yīng)包含機(jī)構(gòu)和學(xué)生的智力成果(包括科研材料和教學(xué)材料)以及記錄機(jī)構(gòu)自身各項(xiàng)事件和正在進(jìn)行的科研活動(dòng)的文檔。這暗示著學(xué)術(shù)界從過(guò)去只關(guān)心科研成果正逐步轉(zhuǎn)向關(guān)注科研過(guò)程。從機(jī)構(gòu)知識(shí)庫(kù)中,可以發(fā)現(xiàn)隱藏其中的科研模式、揭示目前科研狀況的不足,引導(dǎo)機(jī)構(gòu)未來(lái)科研的發(fā)展走向等。但現(xiàn)有的機(jī)構(gòu)知識(shí)庫(kù)工具還缺乏幫助人們理解和分析這些資源的機(jī)制[16],在大數(shù)據(jù)環(huán)境下,加強(qiáng)這方面的研究也是必然趨勢(shì)??梢灶A(yù)見(jiàn),隨著科技的發(fā)展和應(yīng)用的深入,還會(huì)不斷的有新型資源出現(xiàn),并不斷促進(jìn)情報(bào)研究的發(fā)展。
2.4 強(qiáng)調(diào)情報(bào)研究的嚴(yán)謹(jǐn)性
情報(bào)研究活動(dòng)在宏觀層面上是一種意義構(gòu)建(sensemaking)[17],依賴(lài)于分析人員根據(jù)已有知識(shí)構(gòu)建認(rèn)知框架(frame),通過(guò)對(duì)認(rèn)知框架的不斷修正來(lái)達(dá)到理解的目的[18]。這意味著情報(bào)研究活動(dòng)本身帶有很大的不確定性,很多因素影響著情報(bào)研究的有效性。如何使情報(bào)研究工作更加嚴(yán)謹(jǐn),減少情報(bào)分析的不確定、提升情報(bào)成果的質(zhì)量,正成為學(xué)術(shù)界當(dāng)前普遍關(guān)注的問(wèn)題。情報(bào)研究嚴(yán)謹(jǐn)性(rigor)不等同于分析結(jié)果的正確性,它衡量的是情報(bào)研究的過(guò)程,是指在情報(bào)研究過(guò)程中“基于仔細(xì)考慮或調(diào)查,應(yīng)用精確和嚴(yán)格的標(biāo)準(zhǔn),從而更好地理解和得出結(jié)論”[19]。美國(guó)俄亥俄州立大學(xué)的Deniel Zelik[20][21]從評(píng)估角度,給出了8個(gè)指標(biāo)來(lái)衡量分析過(guò)程的嚴(yán)謹(jǐn)性:假設(shè)探索、信息檢索、信息驗(yàn)證、立場(chǎng)分析、敏感度分析、專(zhuān)家協(xié)作、信息融合和解釋評(píng)價(jià)。從這幾項(xiàng)指標(biāo)看,信息檢索和融合是從分析信息源上消除不全面性;假設(shè)探索是要使用多種視角來(lái)揭示數(shù)據(jù)和信息;信息驗(yàn)證側(cè)重于數(shù)據(jù)的溯源、佐證和交叉驗(yàn)證;立場(chǎng)分析強(qiáng)調(diào)分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專(zhuān)家協(xié)作是防止分析結(jié)果受分析人員自身的學(xué)科背景或經(jīng)驗(yàn)帶來(lái)的偏差;解釋評(píng)價(jià)是要正確對(duì)待分析結(jié)論。可見(jiàn),情報(bào)研究的嚴(yán)謹(jǐn)性意在消除人的主觀偏見(jiàn),用更為客觀的視角對(duì)待情報(bào)研究。如果說(shuō)之前的情報(bào)研究活動(dòng)依賴(lài)專(zhuān)家的個(gè)人判斷,帶有較為強(qiáng)烈的主觀色彩,那么走向嚴(yán)謹(jǐn)性的情報(bào)研究活動(dòng)正逐步轉(zhuǎn)變?yōu)橐婚T(mén)科學(xué)。
在大數(shù)據(jù)背景下,情報(bào)分析的嚴(yán)謹(jǐn)性,不僅體現(xiàn)在理念上,還暗含了對(duì)技術(shù)的要求。面對(duì)海量數(shù)據(jù),自動(dòng)化的技術(shù)手段必不可少。當(dāng)信息的檢索更多的是借助檢索系統(tǒng),而不是人工的收集,信息融合更多依賴(lài)數(shù)據(jù)倉(cāng)庫(kù)等技術(shù)手段,如何在這樣的分析環(huán)境中將情報(bào)研究的科學(xué)性落到實(shí)處,是需要關(guān)注的問(wèn)題??梢钥吹剑眉夹g(shù)本身已經(jīng)在一定程度上避免了人的主觀性,但面對(duì)同樣一個(gè)問(wèn)題,可以有不同的技術(shù)手段,也可能產(chǎn)生不同的結(jié)果,如何避免由技術(shù)產(chǎn)生的偏見(jiàn),也許通過(guò)多種技術(shù)手段或采用不同的算法,全方位地展示信息內(nèi)容及其之間的關(guān)系,從而避免產(chǎn)生信息的誤讀,是一個(gè)解決方案。可見(jiàn),在大數(shù)據(jù)時(shí)代,情報(bào)研究需要多種手段來(lái)加強(qiáng)其分析過(guò)程的科學(xué)性,而這又需要多種技術(shù)方法加以支持。
2.5 情報(bào)研究的智能化
大數(shù)據(jù)背景下的情報(bào)研究,對(duì)技術(shù)提出了更高的要求。正如美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)的報(bào)告[22]所說(shuō),美國(guó)在科學(xué)和工程領(lǐng)域的領(lǐng)先地位將越來(lái)越取決于利用數(shù)字化科學(xué)數(shù)據(jù)以及借助復(fù)雜的數(shù)據(jù)挖掘、集成、分析與可視化工具將其轉(zhuǎn)換為信息和知識(shí)的能力。對(duì)于情報(bào)研究來(lái)說(shuō),應(yīng)用智能化技術(shù)能自動(dòng)進(jìn)行高級(jí)、復(fù)雜的信息處理分析工作,在很大程度上把情報(bào)研究人員從繁瑣的體力勞動(dòng)中解放出來(lái),尤其在信息環(huán)境瞬息萬(wàn)變的今天,及時(shí)收集信息分析并反饋已經(jīng)變得非常重要,這都需要智能化技術(shù)加以支撐。從信息源來(lái)講,情報(bào)研究對(duì)象得以擴(kuò)展,其中可能包含微博等社會(huì)化媒體信息,可能包含圖片、新聞等,大量非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)的涌入,必然需要技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),以供后續(xù)分析。同時(shí),多元化的信息,需要根據(jù)分析需求加以融合,這可能需要語(yǔ)義層面上的技術(shù)支持。從分析需求來(lái)講,簡(jiǎn)單的統(tǒng)計(jì)分析已不能滿足現(xiàn)在社會(huì)的決策需求,需要從大量信息中發(fā)現(xiàn)潛在模式,指導(dǎo)未來(lái)的發(fā)展,這就涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)。此外,要尋求情報(bào)研究的客觀性,摒除過(guò)多的主觀意愿,也需要多種技術(shù)來(lái)支撐??梢?jiàn),這一發(fā)展趨勢(shì)是大數(shù)據(jù)時(shí)代下的必然。而各國(guó)在積極建設(shè)的數(shù)字化基礎(chǔ)設(shè)施,也在推動(dòng)著情報(bào)研究的智能化,如歐洲網(wǎng)格基礎(chǔ)設(shè)施(European Grid Infrastructure,EGI)[23]項(xiàng)目就致力于為歐洲各領(lǐng)域研究人員提供集成計(jì)算資源,從而推動(dòng)創(chuàng)新。
目前,對(duì)情報(bào)研究中的智能化技術(shù)沒(méi)有統(tǒng)一的界定,但概觀之,可以將情報(bào)研究智能化的本質(zhì)概括為定量化、可計(jì)算、可重復(fù)。定量化是針對(duì)過(guò)去情報(bào)研究更多的是依賴(lài)人的主觀判斷,即基于已有文字材料或數(shù)據(jù),根據(jù)研究人員的經(jīng)驗(yàn)等給出粗略的結(jié)論,如果說(shuō)這是一種定性化分析,現(xiàn)在更多地依賴(lài)通過(guò)計(jì)算機(jī)自動(dòng)化處理原始材料并獲得潛在數(shù)據(jù),并在此基礎(chǔ)上輔以人的判斷,可以說(shuō)是一種定量化的分析。可計(jì)算是指將各種信息資源轉(zhuǎn)化為計(jì)算機(jī)可理解、處理的形式,如從新聞、論文、專(zhuān)利等中,提取出科研組織、科研人員等實(shí)體,再基于這些結(jié)構(gòu)化的、富有語(yǔ)義的信息,采用統(tǒng)計(jì)、數(shù)據(jù)挖掘等方法加以計(jì)算,獲取隱含的知識(shí)??芍貜?fù)是指自動(dòng)化分析技術(shù)消除了許多主觀因素,從理論上講,如果分析數(shù)據(jù)等條件一致,分析結(jié)論也應(yīng)該是一致的,這也體現(xiàn)了智能化技術(shù)為情報(bào)研究帶來(lái)客觀性的一面。
3 情報(bào)研究中的技術(shù)問(wèn)題
情報(bào)研究的上述發(fā)展走向,決定了情報(bào)研究既不能仍然停留在定性分析上,也不能僅僅靠簡(jiǎn)單的統(tǒng)計(jì)替代情報(bào)研究中的計(jì)算技術(shù),由此對(duì)情報(bào)研究技術(shù)提出了新的要求。美國(guó)McKinsey Global Institute在2011年5月了研究報(bào)告“大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報(bào)告分六個(gè)部分,其中第二部分討論了大數(shù)據(jù)技術(shù),并圍繞大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)技術(shù)和可視化三方面進(jìn)行了闡述。在大數(shù)據(jù)分析技術(shù)中,列舉了26項(xiàng)適用于眾多行業(yè)的分析技術(shù),包括A/B測(cè)試、關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類(lèi)、聚類(lèi)分析、眾包(Crowdsourcing)、數(shù)據(jù)融合和數(shù)據(jù)集成、數(shù)據(jù)挖掘、集成學(xué)習(xí)、遺傳算法、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、神經(jīng)網(wǎng)絡(luò)、網(wǎng)絡(luò)分析、優(yōu)化、模式識(shí)別、預(yù)測(cè)建模、回歸、情感分析、信號(hào)處理、空間分析、統(tǒng)計(jì)、監(jiān)督學(xué)習(xí)、模擬、時(shí)間序列分析、無(wú)監(jiān)督學(xué)習(xí)和可視化。這些技術(shù)絕大部分是已有的技術(shù),也有部分是隨著互聯(lián)網(wǎng)的發(fā)展以及對(duì)大規(guī)模數(shù)據(jù)挖掘的需求,在原有技術(shù)的角度發(fā)展起來(lái)的,如眾包就是隨著Web2.0而產(chǎn)生的技術(shù)。
根據(jù)我們的理解,這些技術(shù)大致可以劃分為可視化分析、數(shù)據(jù)挖掘以及語(yǔ)義處理三大類(lèi)。這三大類(lèi)技術(shù)也是當(dāng)前情報(bào)分析領(lǐng)域應(yīng)予以關(guān)注和深入研究的技術(shù)。
3.1 可視化分析
可視化分析(Visual Analytics)是一門(mén)通過(guò)交互的可視化界面來(lái)便利分析推理的科學(xué)[25],是自動(dòng)分析技術(shù)與交互技術(shù)相結(jié)合的產(chǎn)物,目的是幫助用戶(hù)在大規(guī)模及復(fù)雜數(shù)據(jù)內(nèi)容的基礎(chǔ)上進(jìn)行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關(guān)注計(jì)算機(jī)自動(dòng)生成信息的交互式圖形表示,關(guān)注這些圖形表示的設(shè)計(jì)、開(kāi)發(fā)及其應(yīng)用[27],而可視化分析在此基礎(chǔ)上加入了知識(shí)發(fā)現(xiàn)過(guò)程,關(guān)注自動(dòng)分析方法及其選擇,以及如何將最佳的自動(dòng)分析算法與適當(dāng)?shù)目梢暬夹g(shù)相結(jié)合,以達(dá)到輔助決策的目的。
目前的情報(bào)分析系統(tǒng),雖然也提供了多種視圖來(lái)揭示信息,但更多的是一種分析結(jié)果的呈現(xiàn),系統(tǒng)內(nèi)部分析、處理的機(jī)制對(duì)分析人員來(lái)講是個(gè)黑匣子,分析人員無(wú)法了解分析方法、分析結(jié)果的局限性或者有效性,這無(wú)疑不符合情報(bào)研究嚴(yán)謹(jǐn)性這一發(fā)展要求。同時(shí),現(xiàn)有的分析工具需要分析人員輸入各種繁雜的參數(shù),又缺乏對(duì)情報(bào)分析認(rèn)知過(guò)程的支持,這就對(duì)使用人員的專(zhuān)業(yè)化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問(wèn)題,它整合了多個(gè)領(lǐng)域包括采用信息分析、地理空間分析、科學(xué)分析領(lǐng)域的分析方法,應(yīng)用數(shù)據(jù)管理和知識(shí)表示、統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)領(lǐng)域的成果進(jìn)行自動(dòng)分析,融入交互、認(rèn)知等人的因素來(lái)協(xié)調(diào)人與機(jī)器之間的溝通,從而更好地呈現(xiàn)、理解、傳播分析結(jié)果[28]。佐治亞理工學(xué)院的John Stasko等人應(yīng)用Pirolli 等人提出的情報(bào)分析概念模型[29],建立了一個(gè)名為Jigsaw(拼圖)的可視化分析系統(tǒng)[30],并將其應(yīng)用于學(xué)術(shù)研究領(lǐng)域(涉及期刊和會(huì)議論文)以及研究網(wǎng)絡(luò)文章(如網(wǎng)絡(luò)新聞報(bào)道或?qū)n}博客)領(lǐng)域,也說(shuō)明了將可視化分析技術(shù)應(yīng)用于情報(bào)研究的可行性。
將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,有眾多問(wèn)題要解決。首先,在情報(bào)研究工具中,是以自動(dòng)化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問(wèn)題分為三類(lèi),第一類(lèi)是在分析過(guò)程中可視化和自動(dòng)化方法可以緊密結(jié)合的問(wèn)題,第二類(lèi)是應(yīng)用自動(dòng)化分析潛力有限的問(wèn)題,第三類(lèi)是應(yīng)用可視化分析潛力有限的問(wèn)題。在研究這三類(lèi)問(wèn)題中交互程度對(duì)分析效率影響的基礎(chǔ)上,Daniel A. Keim等人指出,應(yīng)分析如何通過(guò)考慮用戶(hù)、任務(wù)和數(shù)據(jù)集特點(diǎn),來(lái)確定可視化和自動(dòng)分析方法的優(yōu)化組合,從而達(dá)到最佳的效果[31]??梢?jiàn),要將可視化分析技術(shù)應(yīng)用于情報(bào)研究領(lǐng)域,需要明確每類(lèi)問(wèn)題適用哪種組合方式。其次,情報(bào)研究領(lǐng)域適合使用哪些可視化交互手段?這可能包括原始分析數(shù)據(jù)、析取出的關(guān)系數(shù)據(jù)、深層挖掘的模式數(shù)據(jù)等的可視化手段,分析人員與系統(tǒng)交互的方式,分析過(guò)程的可視化展示等。第三,情報(bào)研究領(lǐng)域中的認(rèn)知過(guò)程是什么樣的,關(guān)注哪些問(wèn)題,涉及哪些實(shí)體,在大數(shù)據(jù)環(huán)境下面臨哪些認(rèn)知困難,需要在哪些環(huán)節(jié)加以支持,這些困難能否通過(guò)技術(shù)來(lái)解決。此外,從現(xiàn)有的可視化分析技術(shù)來(lái)看,主要是將各個(gè)相關(guān)領(lǐng)域的技術(shù)以?xún)?yōu)化的方式整合起來(lái),但在將來(lái)會(huì)產(chǎn)生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會(huì)對(duì)情報(bào)研究帶來(lái)怎樣的影響等等,都是在情報(bào)研究中引入可視化分析技術(shù)需要關(guān)注的。
3.2 數(shù)據(jù)挖掘
廣義的數(shù)據(jù)挖掘指整個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程,是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它涵蓋了數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)的任務(wù),從數(shù)據(jù)特征化與區(qū)分到關(guān)聯(lián)和相關(guān)性分析、分類(lèi)、回歸、聚類(lèi)、離群點(diǎn)分析、序列分析、趨勢(shì)和演變分析等,吸納了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、算法、高性能計(jì)算、可視化、數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)等領(lǐng)域的技術(shù),并可以用于任何類(lèi)型的數(shù)據(jù),包括數(shù)據(jù)庫(kù)數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)等基本形式,也包括數(shù)據(jù)流、序列數(shù)據(jù)、文本數(shù)據(jù)、Web數(shù)據(jù)、圖數(shù)據(jù)等其他類(lèi)型的數(shù)據(jù)[33]。
從數(shù)據(jù)挖掘的涵義看,它與情報(bào)研究有著天然的聯(lián)系;從數(shù)據(jù)挖掘的方法看,有其特定的含義和實(shí)現(xiàn)過(guò)程,可以有效地解決情報(bào)研究的問(wèn)題。例如,情報(bào)研究可以借鑒關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的成功案例——超市的“啤酒+尿布”,嘗試用關(guān)聯(lián)規(guī)劃來(lái)分析研究主題的相關(guān)性,從科技論文與專(zhuān)利的關(guān)聯(lián)中發(fā)現(xiàn)科技的轉(zhuǎn)換關(guān)系等等。但從目前的情報(bào)研究成果看,許多還僅僅停留在簡(jiǎn)單的頻率統(tǒng)計(jì)、共詞計(jì)算層次上,在知識(shí)發(fā)現(xiàn)的過(guò)程中,這些工作僅僅是數(shù)據(jù)挖掘的數(shù)據(jù)準(zhǔn)備,還有待于更為深入的發(fā)掘??梢?jiàn),數(shù)據(jù)挖掘能夠也應(yīng)該應(yīng)用于情報(bào)研究領(lǐng)域,這不僅是數(shù)據(jù)挖掘應(yīng)用擴(kuò)展的結(jié)果,也是情報(bào)研究自身發(fā)展的需求。此外,由于較少有專(zhuān)門(mén)針對(duì)情報(bào)研究領(lǐng)域研發(fā)的挖掘工具,現(xiàn)有情報(bào)分析通常借助于其他工具,不同工具的功能不同,這就導(dǎo)致常常同時(shí)使用好幾個(gè)分析工具,如在使用SPSS進(jìn)行聚類(lèi)分析的同時(shí),還使用Ucinet分析社會(huì)網(wǎng)絡(luò)。這帶來(lái)的問(wèn)題是,分析缺乏完整性,可能社會(huì)網(wǎng)絡(luò)和其他信息之間有關(guān)聯(lián),因?yàn)楣ぞ叩姆指钚?,就?dǎo)致潛在模式的丟失。由此,研發(fā)適用于情報(bào)研究的挖掘工具,是必要也是緊迫的,尤其是面對(duì)大數(shù)據(jù)的挑戰(zhàn),智能化地輔助分析人員,減少認(rèn)知壓力,是亟待解決的問(wèn)題。
要解決以上的問(wèn)題,首先需要研究情報(bào)分析任務(wù),分析哪些問(wèn)題是可以使用數(shù)據(jù)挖掘技術(shù)來(lái)支持的,這類(lèi)問(wèn)題有哪些共同點(diǎn)、特殊性,能否對(duì)未來(lái)可能的情報(bào)分析問(wèn)題進(jìn)行擴(kuò)展,哪些問(wèn)題不適用于數(shù)據(jù)挖掘技術(shù),原因是什么等。其次,對(duì)于某類(lèi)或某個(gè)分析問(wèn)題,使用哪種數(shù)據(jù)挖掘技術(shù)或幾種技術(shù)的組合才能有效地解決,涉及的算法是否需要針對(duì)該問(wèn)題進(jìn)行適應(yīng)性改造,如何評(píng)價(jià)挖掘的結(jié)果等。第三,數(shù)據(jù)挖掘出現(xiàn)了交互挖掘這一發(fā)展趨勢(shì),即構(gòu)建靈活的用戶(hù)界面和探索式挖掘環(huán)境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢(shì)會(huì)對(duì)情報(bào)研究帶來(lái)哪些影響,如何在這一背景下,探索情報(bào)研究工具的新發(fā)展,尋找情報(bào)分析的新模式,值得我們關(guān)注。
3.3 語(yǔ)義處理
語(yǔ)義是關(guān)于意義(meaning)的科學(xué),語(yǔ)義技術(shù)提供了機(jī)器可理解或是更好處理的數(shù)據(jù)描述、程序和基礎(chǔ)設(shè)施[34],整合了Web技術(shù)、人工智能、自然語(yǔ)言處理、信息抽取、數(shù)據(jù)庫(kù)技術(shù)、通信理論等技術(shù)方法,旨在讓計(jì)算機(jī)更好地支持處理、整合、重用結(jié)構(gòu)化和非結(jié)構(gòu)化信息[35]。核心語(yǔ)義技術(shù)包括語(yǔ)義標(biāo)注、知識(shí)抽取、檢索、建模、推理等[34]。語(yǔ)義技術(shù)可以為信息的深層挖掘打好基礎(chǔ),即通過(guò)對(duì)各類(lèi)信息的語(yǔ)義處理,在獲取的富有語(yǔ)義的結(jié)構(gòu)化數(shù)據(jù)上使用各種數(shù)據(jù)挖掘算法來(lái)發(fā)現(xiàn)其中的潛在模式。數(shù)據(jù)的語(yǔ)義性支持了機(jī)器學(xué)習(xí)等技術(shù)的內(nèi)在功能[36]。
從現(xiàn)有的情報(bào)研究實(shí)踐和工具看,語(yǔ)義支持的缺失是一個(gè)普遍問(wèn)題,這其中又可劃分為兩個(gè)層次。對(duì)于傳統(tǒng)的情報(bào)研究對(duì)象,如科技論文、專(zhuān)利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語(yǔ)義支持。例如,要分析論文的內(nèi)容主題時(shí),需要從摘要等自由文本中提取出主題信息,在數(shù)據(jù)處理時(shí),常常無(wú)法識(shí)別同義詞、近義詞等,需要人工干預(yù)。一些工具雖然在語(yǔ)義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類(lèi)結(jié)果上,缺乏有效的主題說(shuō)明,自動(dòng)形成的主題標(biāo)簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數(shù)據(jù)集環(huán)境下,還可以接受,當(dāng)面對(duì)大數(shù)據(jù)的沖擊,這種半自動(dòng)化的處理方法無(wú)疑是耗時(shí)又費(fèi)力的。此外,對(duì)于新型情報(bào)研究對(duì)象,如網(wǎng)絡(luò)新聞、博客等,已有如動(dòng)態(tài)監(jiān)測(cè)科研機(jī)構(gòu)等的系統(tǒng)工具,但總體來(lái)說(shuō)還處于起步狀態(tài),目前較多的還是依賴(lài)人工篩選出所需信息,并整理成結(jié)構(gòu)化的數(shù)據(jù),同樣也不利于大規(guī)模的數(shù)據(jù)分析。這些問(wèn)題的存在,使得消除語(yǔ)義鴻溝(semantic gap)[37],應(yīng)用語(yǔ)義技術(shù)成為廣泛需求及必然。
將語(yǔ)義技術(shù)應(yīng)用于情報(bào)分析,需要關(guān)注以下幾方面的內(nèi)容。首先,分析情報(bào)研究任務(wù)的特點(diǎn),了解它的語(yǔ)義需求,是否存在規(guī)律性的準(zhǔn)則以供指導(dǎo)分析工具的研發(fā),這既需要原則性和方向性的準(zhǔn)則,也需要為針對(duì)多維度劃分出的各類(lèi)任務(wù)給出詳細(xì)的規(guī)范,例如,對(duì)微博等社會(huì)化媒體,其中既存在高質(zhì)量的信息,也存在辱罵等低質(zhì)量的信息,區(qū)分這些信息并篩選出高質(zhì)量信息,就成為在分析社會(huì)化媒體中的語(yǔ)義任務(wù)之一。其次,語(yǔ)義資源建設(shè)問(wèn)題,即在情報(bào)分析領(lǐng)域中,要實(shí)現(xiàn)語(yǔ)義層面上的理解,是否需要建設(shè)語(yǔ)義資源,如果不需要,哪些技術(shù)手段可以代替,如果需要,哪種類(lèi)型的語(yǔ)義資源可以便捷、快速、高效地構(gòu)建,并且這種語(yǔ)義資源應(yīng)該如何構(gòu)建,如何使用才能有效地服務(wù)于情報(bào)研究工作。第三,信息抽取問(wèn)題??萍夹畔⑸婕氨姸鄬W(xué)科的專(zhuān)業(yè)術(shù)語(yǔ)、各種科研機(jī)構(gòu)、組織等,如何使用語(yǔ)義技術(shù)將這些信息準(zhǔn)確地提取出來(lái)并加以標(biāo)注,尤其是針對(duì)不同類(lèi)型的信息源,采用什么樣的抽取策略等。第四,信息整合問(wèn)題,即如何使用語(yǔ)義技術(shù),把不同來(lái)源的數(shù)據(jù)對(duì)象及其互動(dòng)關(guān)系進(jìn)行融合、重組,重新結(jié)合為一個(gè)新的具有更高效率和更好性能的具有語(yǔ)義關(guān)聯(lián)的有機(jī)整體,以便后續(xù)分析。
4 結(jié)語(yǔ)
正如本文引言中所談到的那樣,大數(shù)據(jù)的理念和技術(shù)為情報(bào)學(xué)領(lǐng)域中情報(bào)研究的理論和實(shí)踐帶來(lái)了機(jī)遇,也帶來(lái)了挑戰(zhàn)。機(jī)遇巨大,挑戰(zhàn)更大,需要我們對(duì)此有清醒的認(rèn)識(shí)。本文分析了大數(shù)據(jù)背景下情報(bào)研究的若干發(fā)展趨勢(shì),總結(jié)了情報(bào)研究中值得關(guān)注的技術(shù)問(wèn)題,以期能為促進(jìn)情報(bào)研究的理論和實(shí)踐的發(fā)展添磚加瓦。
參考文獻(xiàn):
[1]Big Data,Big Impact[EB/OL].[2012-09-06]..
[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,
2(4):387-403.
[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.
[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL].?。?012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.
[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL].?。?012
-09-16].http:///fil
es/Sandbox/victor/jigsaw-VAST07.pdf.
[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.
[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1)?。?7-60.
[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.
[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.
[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images
/studien/proceedings-common-value-management.pdf#page=19.
中圖分類(lèi)號(hào):G642 文獻(xiàn)標(biāo)志碼:B 文章編號(hào):1674-9324(2013)09-0253-03
一、引言
21世紀(jì)是國(guó)家全面推進(jìn)學(xué)生素質(zhì)培養(yǎng)的時(shí)期,計(jì)算機(jī)專(zhuān)業(yè)課既具有較強(qiáng)的理論性,又具有較深的實(shí)踐性。目前,計(jì)算機(jī)專(zhuān)業(yè)的教學(xué)過(guò)程中往往理論教育與實(shí)際脫節(jié),很多學(xué)生通過(guò)了專(zhuān)業(yè)理論課的考試,卻不能將理論付諸于實(shí)踐,學(xué)生對(duì)課程知識(shí)并沒(méi)有深刻的理解和消化,對(duì)課程理論的實(shí)際應(yīng)用沒(méi)有感觀上的體驗(yàn)。經(jīng)調(diào)查顯示,60%以上的學(xué)生認(rèn)為在校期間的計(jì)算機(jī)理論課的學(xué)習(xí)對(duì)就業(yè)和實(shí)際工作幫助不大,這給學(xué)生學(xué)習(xí)計(jì)算機(jī)理論的積極性帶來(lái)了消極的影響,更有很多學(xué)生熱衷于參加社會(huì)上的計(jì)算機(jī)培訓(xùn)機(jī)構(gòu),放棄在高校的課程學(xué)習(xí)。因此,在培養(yǎng)學(xué)生的理論創(chuàng)新能力的同時(shí),提高學(xué)生的動(dòng)手操作能力,加強(qiáng)學(xué)生理論聯(lián)系實(shí)際的能力是計(jì)算機(jī)教學(xué)十分緊迫和必要的任務(wù)。
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,在短短幾年內(nèi)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘就已經(jīng)成為IT信息領(lǐng)域廣泛應(yīng)用和熱點(diǎn)研究的領(lǐng)域。該領(lǐng)域主要是研究如何從浩如煙海的海量數(shù)據(jù)中有效地提取并挖掘知識(shí),對(duì)其進(jìn)行自動(dòng)分析和匯總,是計(jì)算機(jī)行業(yè)中最熱門(mén)、最有前景的領(lǐng)域之一[1]。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程也順應(yīng)計(jì)算機(jī)發(fā)展的需要,進(jìn)入到高校計(jì)算機(jī)教育的專(zhuān)業(yè)課課程列表中。
本論文在深入研究了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程的內(nèi)容和特點(diǎn)的基礎(chǔ)上,采用B/S(Browser/Server)架構(gòu),即瀏覽器/服務(wù)器架構(gòu),開(kāi)發(fā)了web課程教學(xué)實(shí)驗(yàn)平臺(tái)。
二、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W科教學(xué)現(xiàn)狀
隨著數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程在各大高校成功試教后,近年來(lái)各大高校都為計(jì)算機(jī)專(zhuān)業(yè)都設(shè)立了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程,時(shí)至今日,其課堂理論教學(xué)已經(jīng)比較成熟。然而,絕大多數(shù)學(xué)生在經(jīng)過(guò)該課程的學(xué)習(xí)后,普遍反映雖然基本了解了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘相關(guān)理論知識(shí),卻缺乏感性認(rèn)識(shí)和實(shí)踐應(yīng)用能力。這主要是因?yàn)樵撜n程的實(shí)驗(yàn)教學(xué)較難開(kāi)展,缺乏一個(gè)符合以下特點(diǎn)的教學(xué)實(shí)驗(yàn)平臺(tái)。
市場(chǎng)中通用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘軟件昂貴且難以使用,大量的專(zhuān)業(yè)術(shù)語(yǔ)、專(zhuān)業(yè)業(yè)務(wù)理論、數(shù)學(xué)知識(shí)和挖掘模型讓人無(wú)從下手。因此我們需要的僅僅是一個(gè)實(shí)驗(yàn)平臺(tái),并非大型企業(yè)應(yīng)用軟件,只要學(xué)生能通過(guò)它更簡(jiǎn)易地完成該課程的實(shí)驗(yàn)環(huán)節(jié)即可。
1.可視化、易操作??梢暬鸵撞僮骺梢蕴岣邔W(xué)生的學(xué)習(xí)興趣,讓學(xué)生更直觀的參與到教學(xué)活動(dòng)中來(lái),而不是苦惱于如何使用該平成實(shí)驗(yàn)。
2.交互性。一個(gè)好的教學(xué)平臺(tái)不僅是一個(gè)可以提供給學(xué)生傳授知識(shí)的平臺(tái),還應(yīng)該是一個(gè)可以和學(xué)生及老師有交互性的平臺(tái),并且使學(xué)生和學(xué)生有交互性,老師和學(xué)生有交互性[2]。
3.教學(xué)與實(shí)驗(yàn)相結(jié)合。我們需要不僅僅是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)軟件,而是綜合課程教學(xué)和課程實(shí)驗(yàn)的平臺(tái)。教學(xué)與實(shí)驗(yàn)相結(jié)合、理論與實(shí)踐并重,這才是計(jì)算機(jī)專(zhuān)業(yè)教育的核心。
4.擁有合理和充足的實(shí)驗(yàn)數(shù)據(jù)。對(duì)于一個(gè)實(shí)驗(yàn)平臺(tái)來(lái)說(shuō),數(shù)據(jù)的缺乏將使得實(shí)驗(yàn)無(wú)法進(jìn)行。尤其是對(duì)于數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘這個(gè)特殊的領(lǐng)域,數(shù)據(jù)不僅要足夠的多而且要合理,否則會(huì)嚴(yán)重影響實(shí)驗(yàn)結(jié)果和教學(xué)效果。
三、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W科教學(xué)實(shí)驗(yàn)平臺(tái)的構(gòu)建
為適應(yīng)教育發(fā)展需要,秉承深化教學(xué)改革的方針,改革數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程原有的普通教學(xué)模式,啟動(dòng)了“數(shù)據(jù)挖掘課程設(shè)計(jì)平臺(tái)建設(shè)”教學(xué)改革項(xiàng)目。該平臺(tái)依托我校電信學(xué)院985平臺(tái)的優(yōu)良硬件環(huán)境,由遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)服務(wù)器和終端PC機(jī)組成,其成本低廉、維護(hù)方便、部署容易。該實(shí)驗(yàn)平臺(tái)服務(wù)器直接部署于本校的學(xué)院985實(shí)驗(yàn)基地,具有操作穩(wěn)定性、魯棒性和容錯(cuò)性。通過(guò)該實(shí)驗(yàn)教學(xué)平臺(tái),學(xué)生對(duì)該課程的學(xué)習(xí)過(guò)程將不受場(chǎng)地限制,只要通過(guò)網(wǎng)絡(luò)就可以登錄該平臺(tái)。該平臺(tái)主要框架如圖1所示。
1.用戶(hù)管理模塊實(shí)現(xiàn)了對(duì)不同用戶(hù)的權(quán)限設(shè)置、登錄和注冊(cè)等功能,超級(jí)管理員可以為普通學(xué)生用戶(hù)分配權(quán)限。
2.實(shí)驗(yàn)平臺(tái)模塊給學(xué)生提供了算法模擬和試驗(yàn)的平臺(tái),主要分為以下兩個(gè)部分。
(1)數(shù)據(jù)倉(cāng)庫(kù)的維度建模設(shè)計(jì)模塊。雪花模型設(shè)計(jì)案例;星型模型設(shè)計(jì)案例;ETL抽取操作平臺(tái)。
(2)數(shù)據(jù)挖掘算法實(shí)驗(yàn)?zāi)K。數(shù)據(jù)預(yù)處理程序?qū)崿F(xiàn)算法平臺(tái);Apriori算法實(shí)驗(yàn)平臺(tái);ID3算法實(shí)驗(yàn)平臺(tái);BP算法實(shí)驗(yàn)平臺(tái);K-Mean和K-Medoid算法實(shí)驗(yàn)平臺(tái);C4.5算法和決策樹(shù)算法實(shí)驗(yàn)平臺(tái);KNN算法實(shí)驗(yàn)平臺(tái);貝葉斯算法實(shí)驗(yàn)平臺(tái)。
維度建模設(shè)計(jì)平臺(tái)和數(shù)據(jù)挖掘算法實(shí)驗(yàn)平臺(tái)模塊是該平臺(tái)的核心模塊。
3.實(shí)驗(yàn)課程模塊主要向?qū)W生介紹該實(shí)驗(yàn)課程的相關(guān)內(nèi)容、教學(xué)大綱和教學(xué)任務(wù),也包含數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的具體安裝和配置視頻演示。
4.作業(yè)提交模塊更是改變了傳統(tǒng)的提交紙質(zhì)作業(yè)的模式,讓學(xué)生將動(dòng)手完成的實(shí)驗(yàn)和相關(guān)作業(yè)通過(guò)該平臺(tái)提交,一個(gè)學(xué)生一個(gè)賬戶(hù),避免了作業(yè)抄襲和拷貝。學(xué)生提交的作業(yè)只要運(yùn)行正確,按題目要求編程,不論采用何種語(yǔ)言或者何種算法都是可以的,并沒(méi)有唯一性的標(biāo)準(zhǔn)答案。當(dāng)實(shí)驗(yàn)課程考核的時(shí)候,學(xué)生能夠通過(guò)作業(yè)提交系統(tǒng)向服務(wù)器提交指定課程內(nèi)容的作業(yè),供教師在線評(píng)閱和打分。
5.教學(xué)資源下載提供給學(xué)生自學(xué)的資料,給感興趣的學(xué)生提供了進(jìn)一步學(xué)習(xí)的捷徑。
6.當(dāng)有學(xué)生對(duì)實(shí)驗(yàn)環(huán)節(jié)和該課程有任何疑問(wèn),都可以登錄在線答疑系統(tǒng),給授課老師留言,這些信息都會(huì)以郵件的形式發(fā)送到授課老師的收件箱,從而實(shí)現(xiàn)即時(shí)的答復(fù),讓學(xué)生在第一時(shí)間接受老師的指導(dǎo)。當(dāng)有問(wèn)題重復(fù)出現(xiàn)三次以上,系統(tǒng)就會(huì)自動(dòng)識(shí)別,將問(wèn)題和答復(fù)展示在FAQ中,提供給更多的學(xué)生共享該問(wèn)題和該問(wèn)題的解答,避免重復(fù)提問(wèn),也給還未遇到該問(wèn)題的學(xué)生共享和學(xué)習(xí)。在線答疑給學(xué)生和教師提供了交互、交流和學(xué)習(xí)的平臺(tái)。
7.數(shù)據(jù)挖掘?qū)嶒?yàn)平臺(tái)的在線代碼編譯環(huán)境主要采用gcc編譯器,能夠?qū)W(xué)生提交的各種代碼進(jìn)行實(shí)時(shí)編譯,給用戶(hù)的感覺(jué)就像是在本地執(zhí)行一樣。它能夠支持的在線運(yùn)行編程語(yǔ)言包括java、C和C++等,給學(xué)生提供多樣化的語(yǔ)言實(shí)現(xiàn)方式,體現(xiàn)了非機(jī)械化的計(jì)算機(jī)應(yīng)試?yán)砟睢?/p>
四、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W科教學(xué)實(shí)驗(yàn)平臺(tái)的教學(xué)效果
在數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程中使用該教學(xué)實(shí)驗(yàn)平臺(tái),具有教育的先進(jìn)性和優(yōu)越性。
(一)建設(shè)了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程的實(shí)驗(yàn)教學(xué)體系
1.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘模型。本平臺(tái)可以培養(yǎng)學(xué)生自己動(dòng)手創(chuàng)建多維星型模型、多維雪花模型、緩慢變化維、ETL模型、數(shù)據(jù)立方體模型及其實(shí)例等,還可以增加學(xué)生對(duì)各類(lèi)重要挖掘算法的特點(diǎn)和應(yīng)用場(chǎng)景的理解,讓學(xué)生在實(shí)驗(yàn)平臺(tái)上體驗(yàn)基于數(shù)據(jù)倉(cāng)庫(kù)的主要數(shù)據(jù)挖掘算法。
2.模型評(píng)估。當(dāng)學(xué)生創(chuàng)建完畢自己的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘模型后,可以通過(guò)調(diào)整不同的參數(shù)值和更改數(shù)據(jù)集來(lái)檢驗(yàn)算法的輸出結(jié)果,并通過(guò)記錄在不同的應(yīng)用場(chǎng)景下的參數(shù)值和結(jié)果值得到最優(yōu)值。
3.優(yōu)化創(chuàng)建模型和算法的性能。學(xué)生通過(guò)使用計(jì)算機(jī)領(lǐng)域中的一些經(jīng)典優(yōu)化技術(shù),如創(chuàng)建位圖索引、哈希索引、S-tree索引等來(lái)優(yōu)化模型和算法的性能,并記錄和比較不同優(yōu)化技術(shù)對(duì)模型和算法的效率和響應(yīng)時(shí)間的影響。
4.定期對(duì)學(xué)生所學(xué)實(shí)驗(yàn)內(nèi)容進(jìn)行測(cè)試,根據(jù)學(xué)生的實(shí)驗(yàn)測(cè)試結(jié)果對(duì)平臺(tái)的遠(yuǎn)程實(shí)驗(yàn)操作功能進(jìn)行改進(jìn)和完善。
(二)部署和實(shí)施了基于網(wǎng)絡(luò)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程遠(yuǎn)程實(shí)驗(yàn)教學(xué)環(huán)境
本項(xiàng)目通過(guò)構(gòu)建基于網(wǎng)絡(luò)技術(shù)的遠(yuǎn)程實(shí)驗(yàn)教學(xué)平臺(tái),不僅給學(xué)生和教師提供這樣一個(gè)教學(xué)實(shí)驗(yàn)平臺(tái),而且還實(shí)現(xiàn)了實(shí)驗(yàn)教學(xué)的網(wǎng)上開(kāi)放式管理,改革原有相對(duì)封閉的實(shí)驗(yàn)教學(xué)模式為開(kāi)放的實(shí)驗(yàn)教學(xué)模式,構(gòu)建了一個(gè)符合實(shí)踐教學(xué)環(huán)節(jié)需求、虛擬和真實(shí)環(huán)境相結(jié)合、基于Web的多應(yīng)用場(chǎng)景的遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)。
(三)基于采樣評(píng)估證明了遠(yuǎn)程網(wǎng)絡(luò)實(shí)驗(yàn)教學(xué)的可行性和優(yōu)越性
根據(jù)采樣評(píng)估結(jié)果,該系統(tǒng)體現(xiàn)了遠(yuǎn)程網(wǎng)絡(luò)實(shí)驗(yàn)的可行性和優(yōu)越性。在該平臺(tái)真正投入使用之前,我們將一批學(xué)生分為兩個(gè)組進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程的學(xué)習(xí),A組學(xué)生使用現(xiàn)有的課程教學(xué)方法,而B(niǎo)組學(xué)生使用該平臺(tái)的遠(yuǎn)程實(shí)驗(yàn)教學(xué)環(huán)境。具體教學(xué)內(nèi)容為多維數(shù)據(jù)模型和數(shù)據(jù)立方體的概念以及k-means聚類(lèi)和Apriori關(guān)聯(lián)分析算法。兩組學(xué)生通過(guò)不同的教學(xué)方式學(xué)習(xí)后,對(duì)他們進(jìn)行了問(wèn)卷調(diào)查和統(tǒng)計(jì),結(jié)果如圖2所示。
從圖2的數(shù)據(jù)結(jié)果可以看到,無(wú)論是從學(xué)生興趣程度、作業(yè)完成度還是考試成績(jī)的角度對(duì)兩組學(xué)生的學(xué)習(xí)效果進(jìn)行評(píng)估,使用該數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程教學(xué)實(shí)驗(yàn)平臺(tái)的教學(xué)方式都具有明顯的優(yōu)勢(shì)。在實(shí)驗(yàn)過(guò)程中學(xué)生是主體,用所學(xué)知識(shí)發(fā)揮創(chuàng)造性思維進(jìn)行實(shí)踐。當(dāng)實(shí)驗(yàn)取得結(jié)果時(shí),不論結(jié)果成功與否,都能帶給學(xué)生一定的鼓勵(lì),從而在某種程度上激發(fā)學(xué)生的創(chuàng)造力和積極性,真正加速問(wèn)題解決和理論創(chuàng)新。因此,我們有理由相信該平臺(tái)的使用可以極大地提高學(xué)生的學(xué)習(xí)興趣,促進(jìn)教學(xué)目標(biāo)的實(shí)現(xiàn)。
五、結(jié)論
在計(jì)算機(jī)專(zhuān)業(yè)的教學(xué)中,如何提高學(xué)生的實(shí)踐能力和獨(dú)立解決問(wèn)題的能力是當(dāng)前高等教育發(fā)展的新形勢(shì)下所面臨的主要問(wèn)題。本文首先介紹了基于數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘課程的實(shí)驗(yàn)平臺(tái)的整體架構(gòu),展示了該平臺(tái)的優(yōu)點(diǎn),證明了該平臺(tái)可以將課堂學(xué)習(xí)和課后練習(xí)、理論教育與工程實(shí)踐有機(jī)結(jié)合,為實(shí)施更加行之有效的教學(xué)組織和教學(xué)管理模式提供了可能。只有教育者和學(xué)生充分認(rèn)識(shí)到計(jì)算機(jī)課程中實(shí)驗(yàn)環(huán)節(jié)的重要性,更有效地利用現(xiàn)有的社會(huì)資源和計(jì)算機(jī)技術(shù)為我們的教育服務(wù),專(zhuān)業(yè)學(xué)科教學(xué)模式和方法才能不斷推陳出新,不斷進(jìn)步和發(fā)展。
參考文獻(xiàn):
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
1 科學(xué)數(shù)據(jù)開(kāi)放共享中的出版商
1.1 科學(xué)數(shù)據(jù)開(kāi)放共享
在科學(xué)研究過(guò)程中,有不同的利益相關(guān)者參與其中。這些利益相關(guān)者類(lèi)別多樣,性質(zhì)各異,共同形成科學(xué)研究的生態(tài)系統(tǒng)。根據(jù)各利益相關(guān)者的職能,圍繞研究人員,將這一系統(tǒng)進(jìn)行分類(lèi)研究,確定出4個(gè)利益相關(guān)者群體,即資助者、數(shù)據(jù)管理者、研究機(jī)構(gòu)與出版商作為關(guān)鍵參與者,以促進(jìn)和實(shí)現(xiàn)科學(xué)研究數(shù)據(jù)的開(kāi)放共享。
在這一系統(tǒng)中,每類(lèi)利益相關(guān)者都有各自不同的職能、驅(qū)動(dòng)力及利益點(diǎn),但總體利益與動(dòng)機(jī)相同,即促進(jìn)科學(xué)的進(jìn)步。利益相關(guān)者的利益與行為動(dòng)機(jī)與各自職能連接在一起,形成了科學(xué)研究系統(tǒng)的邊界。該系統(tǒng)本質(zhì)上受到外部和內(nèi)部因素的雙重影響:外部因素可能表現(xiàn)為政治、社會(huì)、經(jīng)濟(jì)、科學(xué)和文化體系等;內(nèi)部因素包括政治意愿、經(jīng)濟(jì)及學(xué)術(shù)競(jìng)爭(zhēng)、技術(shù)基礎(chǔ)設(shè)施、法律、道德等因素。該系統(tǒng)的價(jià)值與動(dòng)機(jī)是外部和內(nèi)部因素共同作用的結(jié)果,其中外部因素控制資源輸入到該系統(tǒng)中,內(nèi)部因素控制這些資源的可用性和分配。如圖1所示:
在此科學(xué)開(kāi)放系統(tǒng)中,利益相關(guān)者群體職能眾多并偶有重疊,總體上各利益相關(guān)方對(duì)研究數(shù)據(jù)的開(kāi)放獲取的意義已達(dá)成共識(shí),但各利益相關(guān)方對(duì)實(shí)現(xiàn)開(kāi)放研究數(shù)據(jù)的方式的認(rèn)識(shí)并不一致。本研究主要探討在推動(dòng)科學(xué)數(shù)據(jù)開(kāi)放共享中,出版商數(shù)據(jù)政策的現(xiàn)狀、問(wèn)題,并構(gòu)建相應(yīng)模型,提出相應(yīng)建議。
1.2 出版商在科學(xué)數(shù)據(jù)開(kāi)放共享系統(tǒng)中的目標(biāo)
在促進(jìn)研究數(shù)據(jù)開(kāi)放共享方面,各利益相關(guān)方發(fā)揮不同的作用。出版商通過(guò)期刊向作者提供數(shù)據(jù)共享政策,在數(shù)據(jù)開(kāi)放中發(fā)揮著重要作用。研究出版商的數(shù)據(jù)政策,是因?yàn)檫@是在研究過(guò)程中將數(shù)據(jù)政策與研究人員密切關(guān)聯(lián)起來(lái)的點(diǎn),為研究成果,研究人員有動(dòng)力、有可能遵守?cái)?shù)據(jù)政策。同時(shí),研究發(fā)現(xiàn),雖然包括出資者和研究機(jī)構(gòu)都可能有適用于研究人員的政策,但遵守這些政策的研究人員的比例還很低。研究人員沒(méi)有遵守?cái)?shù)據(jù)政策的直接動(dòng)力;此外研究人員在需要進(jìn)行數(shù)據(jù)存檔時(shí),可能也沒(méi)有合適的機(jī)構(gòu)知識(shí)庫(kù)可以選擇。出版商提出的數(shù)據(jù)政策,是在研究人員完成研究過(guò)程后發(fā)表研究成果前,研究人員有可能、有動(dòng)力遵守出版商的數(shù)據(jù)政策。
1.2.1 科學(xué)數(shù)據(jù)開(kāi)放共享的價(jià)值
科學(xué)的思想與科學(xué)的證據(jù)互相佐證,研究數(shù)據(jù)和科學(xué)實(shí)踐之間的聯(lián)系是不言自明的,因此,推動(dòng)開(kāi)放獲取研究數(shù)據(jù),與促進(jìn)科學(xué)嚴(yán)謹(jǐn)?shù)哪繕?biāo)相一致。更大程度地共享與獲取數(shù)據(jù),能加強(qiáng)科學(xué)的基礎(chǔ)價(jià)值,即允許科學(xué)研究有效地自我校正,以便二次分析、檢驗(yàn)、質(zhì)疑或改進(jìn)原有成果[3]。此外,開(kāi)放獲取政策通過(guò)減少重復(fù)工作,最大限度地減少研究人員用在搜索信息和數(shù)據(jù)方面的精力,因而改善了他們的工作條件。
JISC以英國(guó)高等教育和研究機(jī)構(gòu)為例,指出研究數(shù)據(jù)的監(jiān)護(hù)與開(kāi)放共享具有如下利益[4]: ①研究人員能夠更廣泛地獲得數(shù)據(jù),從而促進(jìn)更多的跨部門(mén)的合作,研究人員在行業(yè)、政府和非政府組織內(nèi)有可能獲得大量的教育和培訓(xùn)機(jī)會(huì)。數(shù)據(jù)的開(kāi)放共享有助于實(shí)現(xiàn)數(shù)據(jù)使用和重用,降低數(shù)據(jù)的收集和復(fù)制成本,分擔(dān)數(shù)據(jù)收集的直接和間接成本(如避免調(diào)查疲勞,從而提高響應(yīng)率等),創(chuàng)造出在數(shù)據(jù)收集時(shí)未曾預(yù)想到的新的利用方式,進(jìn)行數(shù)據(jù)挖掘等。②在項(xiàng)目申請(qǐng)撥款和評(píng)估階段、出版和研究評(píng)估階段,更容易發(fā)現(xiàn)欺詐和抄襲,更容易進(jìn)行評(píng)估和同行審查。因此將有機(jī)會(huì)創(chuàng)造更加完整和透明的科學(xué)記錄。③通過(guò)將研究人員、知識(shí)庫(kù)、資助者與有價(jià)值的資源相鏈接,從而有更多的機(jī)會(huì)提高研究的可見(jiàn)度。
科學(xué)研究系統(tǒng)中的各個(gè)利益相關(guān)者群體認(rèn)識(shí)到走向開(kāi)放數(shù)據(jù)的利益,認(rèn)同將數(shù)據(jù)的開(kāi)放共享置于戰(zhàn)略高度進(jìn)行考慮。科學(xué)表現(xiàn)為知識(shí)積累的過(guò)程,數(shù)據(jù)在促進(jìn)早期工作中起著重要作用。開(kāi)放獲取研究數(shù)據(jù),通過(guò)避免重復(fù)勞動(dòng),促進(jìn)協(xié)作,有助于顯著加快這一科學(xué)過(guò)程,從整體上使科學(xué)成為更加透明的進(jìn)程,實(shí)現(xiàn)推動(dòng)公眾參與,激勵(lì)創(chuàng)新和改革公共服務(wù)的宗旨[5]。
1.2.2 基本情況
出版商作為利益相關(guān)者,越來(lái)越關(guān)注數(shù)據(jù)密集型研究,認(rèn)同開(kāi)放獲取研究數(shù)據(jù)的意義。很多出版商認(rèn)同布魯塞爾宣言,即“所有的研究者應(yīng)能自由地獲取原始研究數(shù)據(jù)。出版商鼓勵(lì)公開(kāi)公布原始研究數(shù)據(jù)結(jié)果,將相關(guān)的數(shù)據(jù)集及子數(shù)據(jù)集與論文共同提交給期刊,應(yīng)盡可能讓其他研究人員自由獲取”[6]。很多出版商的數(shù)據(jù)政策為強(qiáng)制性政策,要求作者將支持出版物的研究數(shù)據(jù)存儲(chǔ)在經(jīng)認(rèn)證的知識(shí)庫(kù)中,實(shí)現(xiàn)開(kāi)放獲取。研究表明,如果期刊具有強(qiáng)制性數(shù)據(jù)政策,并且有可獲取數(shù)據(jù)的聲明,那么在線找到該數(shù)據(jù)的可能性,幾乎是沒(méi)有類(lèi)似政策的期刊的1 000倍[7]。
盡管目前出版商已開(kāi)始重視出版物的開(kāi)放獲取,將開(kāi)放獲取作為一種出版的商業(yè)模式,不過(guò)出版商參與研究數(shù)據(jù)的出版,特別是開(kāi)放獲取研究數(shù)據(jù),目前尚未形成規(guī)模。出版商關(guān)注研究數(shù)據(jù)及其開(kāi)放,重要原因在于數(shù)據(jù)為出版商的主要產(chǎn)品即出版物增加了價(jià)值,數(shù)據(jù)有助于驗(yàn)證研究成果,從而增強(qiáng)了所發(fā)表研究成果的可信性,而可信度對(duì)于研究具有重要意義[2]。此外,資助機(jī)構(gòu)的政策要求公開(kāi)獲取研究數(shù)據(jù),實(shí)質(zhì)上向出版商施加了壓力,出版商需要參與到研究數(shù)據(jù)開(kāi)放獲取中,幫助作者和研究機(jī)構(gòu)符合出資人的要求。現(xiàn)在,領(lǐng)先發(fā)展的出版商開(kāi)始與其他利益相關(guān)方合作,試圖挖掘研究數(shù)據(jù)的潛能,形成以數(shù)據(jù)為基礎(chǔ)的新產(chǎn)品和服務(wù),對(duì)研究數(shù)據(jù)進(jìn)行同行評(píng)議,開(kāi)展提高數(shù)據(jù)質(zhì)量的其他服務(wù)。
2 出版商主要數(shù)據(jù)管理政策
本研究根據(jù)STM的年度報(bào)告[8],確定出以下出版商為主要分析對(duì)象(見(jiàn)表1)。這十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究將開(kāi)放獲取出版商,科學(xué)公共圖書(shū)館(PLoS)、生物醫(yī)學(xué)中心(BioMed Central)的數(shù)據(jù)開(kāi)放政策考慮在內(nèi)。
2.1 出版商數(shù)據(jù)政策現(xiàn)狀
2.1.1 將開(kāi)放獲取作為默認(rèn)情況
出版商將數(shù)據(jù)的開(kāi)放獲取作為訂立政策的基礎(chǔ),如PLOS研究數(shù)據(jù)開(kāi)放獲取強(qiáng)制性政策[9],指出除了極少數(shù)例外情況,支持PLOS出版物的所有研究數(shù)據(jù)都必須開(kāi)放獲取。作者在向PLOS提交稿件時(shí),要同時(shí)提交數(shù)據(jù)可用性聲明,在聲明中表明遵守PLOS的政策規(guī)定,在手稿成功提交后,數(shù)據(jù)作為最終手稿的部分內(nèi)容。PLOS要求作者將數(shù)據(jù)存儲(chǔ)于推薦的經(jīng)認(rèn)證的數(shù)據(jù)中心或知識(shí)庫(kù)。小數(shù)據(jù)集可與稿件一并上傳。PLOS的編輯和投稿指南,向研究人員提供指導(dǎo),協(xié)助研究人員遵守期刊開(kāi)放數(shù)據(jù)政策。在限制數(shù)據(jù)獲取的情況下,PLOS有權(quán)修正說(shuō)明,聯(lián)系作者的機(jī)構(gòu)或資助者,甚至撤銷(xiāo)出版。
2.1.2 新的出版形式的出現(xiàn)
出版界越來(lái)越關(guān)注開(kāi)放數(shù)據(jù),產(chǎn)生了一種新型出版產(chǎn)品,即數(shù)據(jù)期刊。數(shù)據(jù)期刊的出現(xiàn),與數(shù)據(jù)可以單獨(dú)緊密相關(guān)。數(shù)據(jù)的單獨(dú)可以確保數(shù)據(jù)作為科學(xué)記錄的基本組成部分,以可理解的形式向科學(xué)界提供。數(shù)據(jù)期刊是同行評(píng)議的開(kāi)放獲取平臺(tái),用于、分享和傳播各學(xué)科的數(shù)據(jù)。發(fā)表的數(shù)據(jù)論文包含數(shù)據(jù)集的具體相關(guān)信息,如收集、處理方式等。發(fā)表的數(shù)據(jù)論文與認(rèn)可的知識(shí)庫(kù)互相關(guān)聯(lián),數(shù)據(jù)論文引用存儲(chǔ)于知識(shí)庫(kù)或數(shù)據(jù)中心中的數(shù)據(jù)集。正如澳大利亞國(guó)家數(shù)據(jù)服務(wù)中心(ANDS)在其數(shù)據(jù)期刊指南中所指出的,“從根本上說(shuō),數(shù)據(jù)期刊尋求促進(jìn)科學(xué)認(rèn)證和再利用,提高科學(xué)方法和結(jié)果的透明度,支持良好的數(shù)據(jù)管理方法,并為數(shù)據(jù)集提供一個(gè)可訪問(wèn)的、永久的、可解析的路徑”。ANDS指出,數(shù)據(jù)論文的出版過(guò)程包括對(duì)數(shù)據(jù)集的同行評(píng)議,最大限度地提高了數(shù)據(jù)再利用的機(jī)會(huì),并為研究人員提供了學(xué)術(shù)認(rèn)可的可能性[10]。
2.1.3 同行評(píng)審
對(duì)研究數(shù)據(jù)與數(shù)據(jù)出版物開(kāi)放獲取的關(guān)注,彰顯了研究數(shù)據(jù)的科學(xué)質(zhì)量及研究數(shù)據(jù)同行評(píng)審的重要意義。在此背景下,一些出版商將同行評(píng)議的范圍擴(kuò)大到包括數(shù)據(jù)在內(nèi)的同行評(píng)審。M. S. Mayernik等2014年進(jìn)行了有關(guān)“數(shù)據(jù)同行評(píng)審”的研究,提出因?yàn)槌霭嫖锘蛸Y源類(lèi)型有所不同,進(jìn)行同行評(píng)審的方式也必須有所變化。研究者對(duì)幾種類(lèi)型的評(píng)審資源進(jìn)行了區(qū)分,包括在傳統(tǒng)科學(xué)論文中分析的數(shù)據(jù),在傳統(tǒng)科學(xué)期刊上的數(shù)據(jù)文章,以及通過(guò)數(shù)據(jù)期刊的開(kāi)放獲取知識(shí)庫(kù)與數(shù)據(jù)集。M. S. Mayernik等針對(duì)數(shù)據(jù)的同行評(píng)審、數(shù)據(jù)的質(zhì)量保證過(guò)程確定了一些共同因素,包括:可通過(guò)數(shù)據(jù)中心或知識(shí)庫(kù)獲取數(shù)據(jù)集;數(shù)據(jù)集有足夠的信息以備評(píng)審;期刊有明確的方針指明審核的要點(diǎn),指導(dǎo)評(píng)審者進(jìn)行數(shù)據(jù)審查等[11]。
開(kāi)放考古學(xué)雜志(JOAD[12-13])對(duì)所有提交的數(shù)據(jù)論文采用同行評(píng)審程序,評(píng)審內(nèi)容包括論文的內(nèi)容與存儲(chǔ)的數(shù)據(jù)。論文的內(nèi)容指與數(shù)據(jù)集的建立和重用相關(guān)的信息,以及對(duì)數(shù)據(jù)集的描述。存儲(chǔ)的數(shù)據(jù)指以可持續(xù)性模式提交到存儲(chǔ)庫(kù)的數(shù)據(jù),包括其許可方式。
2.1.4 數(shù)據(jù)引用
除對(duì)數(shù)據(jù)進(jìn)行同行評(píng)審?fù)?,出版商還逐步引入數(shù)據(jù)引用政策,以促進(jìn)研究數(shù)據(jù)的標(biāo)準(zhǔn)化使用。研究數(shù)據(jù)對(duì)研究過(guò)程具有重要價(jià)值與意義,為擴(kuò)大高質(zhì)量研究數(shù)據(jù)的傳播,形成數(shù)據(jù)利用的規(guī)范方式,F(xiàn)ORCE11[14]制定了數(shù)據(jù)引用的主要原則。FORCE11的引用原則的前提是數(shù)據(jù)引用需要實(shí)現(xiàn)人類(lèi)和機(jī)器均可讀。該數(shù)據(jù)引用原則可能并不全面,主要目的是鼓勵(lì)各學(xué)科制定體現(xiàn)自身特點(diǎn)的引用方式。
FORCE11原則包括:說(shuō)明數(shù)據(jù)引用的重要性;通過(guò)數(shù)據(jù)引用促進(jìn)學(xué)術(shù)信用;數(shù)據(jù)引用要實(shí)現(xiàn)機(jī)器可操作性,包括全球永久唯一標(biāo)識(shí)符;數(shù)據(jù)引用要促進(jìn)對(duì)數(shù)據(jù)本身的獲??;數(shù)據(jù)引用應(yīng)該具有持久性;便于識(shí)別,易于獲取,可以驗(yàn)證;具有互操作、靈活性等特點(diǎn)。
2.1.5 內(nèi)容發(fā)現(xiàn)和鏈接服務(wù)
出版商逐漸把發(fā)展方向轉(zhuǎn)移到內(nèi)容發(fā)現(xiàn)和鏈接服務(wù),專(zhuān)注于文本與數(shù)據(jù)挖掘(TDM)工具,以便能開(kāi)發(fā)內(nèi)容,進(jìn)而提供相關(guān)服務(wù)。出版商越來(lái)越關(guān)注數(shù)據(jù)挖掘是研究人員利用大型數(shù)據(jù)庫(kù)的內(nèi)容、數(shù)據(jù)和出版物的需求的直接結(jié)果。一份文本和數(shù)據(jù)挖掘?qū)<倚〗M的報(bào)告指出,TDM是一種重要技術(shù),可用于從指數(shù)級(jí)增長(zhǎng)的數(shù)字?jǐn)?shù)據(jù)中,分析和提取新的見(jiàn)解和知識(shí)[15]。該報(bào)告的結(jié)論是,因?yàn)檠芯咳藛T的技能和技術(shù)不斷提升,所研究的數(shù)據(jù)集的復(fù)雜性、多樣性及規(guī)模不斷擴(kuò)大,因此TDM有可能會(huì)更加重要。但對(duì)于利用文本與數(shù)據(jù)挖掘工具是否應(yīng)有所限制,目前仍有爭(zhēng)議。
2.2 期刊數(shù)據(jù)政策問(wèn)題
2.2.1 數(shù)據(jù)格式與文件大小的差異
期刊要包括支持文章結(jié)果的所有數(shù)據(jù),往往是很難實(shí)現(xiàn)的。研究的方法不同,產(chǎn)生的數(shù)據(jù)也大不相同,數(shù)據(jù)的格式和文件大小差異巨大。定性研究生成的數(shù)據(jù),多以文本形式存在,例如實(shí)地觀察筆記,或采訪或報(bào)道的文字記錄等。定量研究生成的數(shù)據(jù),多以電子表格的形式保存。一項(xiàng)研究可能產(chǎn)生多種類(lèi)型的數(shù)據(jù),而論文可能包括附加文本、數(shù)值數(shù)據(jù)集和數(shù)字圖像,這些都可能增加論文的大小。因此出版商表現(xiàn)出對(duì)集成到每篇論文中的數(shù)據(jù)集大小的關(guān)注。某些出版商開(kāi)始嘗試出版在線期刊文章,以包括多種數(shù)據(jù),例如愛(ài)思唯爾的有關(guān)未來(lái)的文章的探索[16]。然而,并不是每一種期刊都有包括各種數(shù)據(jù)的能力。這就要求期刊的辦刊方針應(yīng)清楚說(shuō)明,作為論文組成部分的數(shù)據(jù),在何種程度上可以包括在論文中。
2.2.2 機(jī)構(gòu)知識(shí)庫(kù)的成本
為解決出版商服務(wù)器超載的問(wèn)題,將期刊文章的重要數(shù)據(jù)鏈接到一個(gè)特定的機(jī)構(gòu)知識(shí)庫(kù),可能是一個(gè)合理的選擇,但這將相關(guān)的長(zhǎng)期運(yùn)營(yíng)成本轉(zhuǎn)嫁到了機(jī)構(gòu)中。但資助者目前的基金中并不包括這部分資金,而機(jī)構(gòu)可能也并不愿意在當(dāng)前的管理費(fèi)用中增加這種支出。這就使得在機(jī)構(gòu)知識(shí)庫(kù)中存儲(chǔ)科學(xué)數(shù)據(jù)的可持續(xù)性有待探討。
2.2.3 研究人員對(duì)數(shù)據(jù)開(kāi)放的認(rèn)識(shí)
許多研究人員并不知道相關(guān)的知識(shí)庫(kù),為此期刊數(shù)據(jù)政策應(yīng)說(shuō)明,數(shù)據(jù)是否應(yīng)該在認(rèn)可的知識(shí)庫(kù)中存儲(chǔ),是否要使用永久統(tǒng)一資源定位符(URL),是否要采用某種形式的數(shù)據(jù)引用。數(shù)據(jù)的時(shí)間也是一個(gè)需要關(guān)注的問(wèn)題,研究人員并不關(guān)心在出版過(guò)程中的什么時(shí)候數(shù)據(jù)可被公開(kāi)訪問(wèn),而是關(guān)心在研究過(guò)程中何時(shí)數(shù)據(jù)應(yīng)被公開(kāi)訪問(wèn)。研究論文并不是在研究結(jié)果全部產(chǎn)生后才會(huì)形成,而是在研究過(guò)程中逐步產(chǎn)生的。在的同時(shí),是否適合研究數(shù)據(jù)取決于多種因素,諸如某些形式的數(shù)據(jù)有敏感性,要保護(hù)受試者等因素。
3 構(gòu)建期刊研究數(shù)據(jù)策略模型框架
3.1 出版商期刊政策的基本要求
有效的政策制定過(guò)程必然需要將注意力集中于數(shù)據(jù)共享過(guò)程中各利益相關(guān)方的意見(jiàn),而目前的數(shù)字基礎(chǔ)設(shè)施在不斷變化,出版商、知識(shí)庫(kù)和系統(tǒng)之間,并沒(méi)有強(qiáng)有力的措施鼓勵(lì)共享數(shù)據(jù)。共同點(diǎn)包括:①出版商共享數(shù)據(jù)的方式差異很大;②在出版過(guò)程中,出版商對(duì)所接受的數(shù)據(jù)類(lèi)型、數(shù)據(jù)應(yīng)存儲(chǔ)的地點(diǎn)、應(yīng)存儲(chǔ)的時(shí)間等說(shuō)明,模糊不清;③研究人員普遍贊成共享數(shù)據(jù),但研究人員不知道該如何克服共享障礙;④研究人員認(rèn)為出版商和期刊有關(guān)數(shù)據(jù)格式和存放地點(diǎn)等清晰的政策,將有益于研究;⑤出版商也認(rèn)為在數(shù)據(jù)的關(guān)聯(lián)與嵌入方面存在障礙。
科學(xué)數(shù)據(jù)共享的許多問(wèn)題,能夠在出版過(guò)程中通過(guò)期刊強(qiáng)有力而明確的政策加以解決。因此,本研究的目標(biāo)是確定能推薦給期刊使用的政策模型。研究收集到的期刊政策信息,對(duì)材料進(jìn)行分析后,歸納出目前主要的政策要求,如表2所示:
3.2 框架模型
基于以上所列出的觀察,形成基本的期刊研究數(shù)據(jù)政策的模型框架。由資助者和研究機(jī)構(gòu)作為一方,與出版商的另一方進(jìn)行合作,發(fā)展數(shù)據(jù)政策。表3為所構(gòu)建的期刊研究數(shù)據(jù)策略模型框架。
3.3 實(shí)施方式
3.3.1 逐步制定出版物的支持性數(shù)據(jù)的強(qiáng)制性開(kāi)放共享政策
出版商應(yīng)該支持期刊編輯制定研究數(shù)據(jù)的強(qiáng)制性政策,從而提高研究過(guò)程透明度,擴(kuò)展研究數(shù)據(jù)的潛力。數(shù)據(jù)的編輯政策應(yīng)解決諸如文檔、元數(shù)據(jù)、數(shù)據(jù)出版格式、許可、引用等問(wèn)題。編輯政策要求作者在文章提交過(guò)程和同行評(píng)議過(guò)程中,提交數(shù)據(jù)的可用性描述。對(duì)提交的文章不符合規(guī)定的情況,政策應(yīng)提出對(duì)應(yīng)的措施,如撤銷(xiāo)發(fā)表的文章。
3.3.2 與認(rèn)證知識(shí)庫(kù)和數(shù)據(jù)中心協(xié)作,簡(jiǎn)化數(shù)據(jù)提交流程
出版商可按照相關(guān)標(biāo)準(zhǔn)考查知識(shí)庫(kù)與數(shù)據(jù)中心的可信度,與符合數(shù)據(jù)認(rèn)證標(biāo)準(zhǔn)的數(shù)據(jù)中心與知識(shí)庫(kù)協(xié)作。類(lèi)似的知識(shí)庫(kù)或數(shù)據(jù)中心可以是主題明確的學(xué)科知識(shí)庫(kù),也可以是機(jī)構(gòu)知識(shí)庫(kù)或綜合知識(shí)庫(kù)。二者的合作應(yīng)該會(huì)產(chǎn)生積極影響,為研究人員和研究機(jī)構(gòu)提供高品質(zhì)的產(chǎn)品和服務(wù),服務(wù)具有可操作性、技術(shù)上無(wú)縫的特點(diǎn),從而實(shí)現(xiàn)以開(kāi)放格式傳播和保存高質(zhì)量的學(xué)術(shù)產(chǎn)品和研究數(shù)據(jù)。對(duì)于沒(méi)有公認(rèn)的數(shù)據(jù)中心或知識(shí)庫(kù)的學(xué)科,出版商對(duì)研究人員提供指導(dǎo)和幫助,提供適合存儲(chǔ)與獲取的機(jī)構(gòu)知識(shí)庫(kù)建議,或提供商業(yè)數(shù)據(jù)服務(wù)。在這方面,出版商的角色應(yīng)該是更多地促使學(xué)術(shù)團(tuán)體建立資源庫(kù)評(píng)估準(zhǔn)則,從而幫助研究人員選擇合適的存儲(chǔ)庫(kù)。當(dāng)學(xué)術(shù)界建立起知識(shí)庫(kù)的認(rèn)可標(biāo)準(zhǔn),出版商就可以通過(guò)期刊政策執(zhí)行這些標(biāo)準(zhǔn)。
3.3.3 數(shù)據(jù)作為一流學(xué)術(shù)成果,接受同行評(píng)議
出版商的主要職責(zé)之一是確保出版物的高質(zhì)量,而研究數(shù)據(jù)同行評(píng)審制度的建立,有助于提升出版產(chǎn)品的品質(zhì)。同行評(píng)審過(guò)程,應(yīng)詳細(xì)說(shuō)明評(píng)審的標(biāo)準(zhǔn),要評(píng)估研究數(shù)據(jù)的技術(shù)與質(zhì)量問(wèn)題,技術(shù)方面如考量數(shù)據(jù)集的完整性和一致性,收集數(shù)據(jù)的標(biāo)準(zhǔn),使用的軟件等;研究數(shù)據(jù)的科學(xué)質(zhì)量則由研究團(tuán)體通過(guò)出版前與出版后的同行評(píng)審進(jìn)行評(píng)估。同行評(píng)審流程中,出版商也應(yīng)該探索對(duì)評(píng)審者的激勵(lì)方式,包括支付酬金,邀請(qǐng)編寫(xiě)特稿,加入編輯委員會(huì),甚至聘用一些專(zhuān)家進(jìn)行內(nèi)容評(píng)審。
3.3.4 發(fā)展有關(guān)研究數(shù)據(jù)引用的策略
研究數(shù)據(jù)通過(guò)傳統(tǒng)的出版過(guò)程傳播,為實(shí)現(xiàn)數(shù)據(jù)的長(zhǎng)期可重用,需建立并使用數(shù)據(jù)的引用標(biāo)準(zhǔn)。在這方面,出版商應(yīng)要求出版物及相關(guān)的數(shù)據(jù)可引用,并為數(shù)據(jù)的引用提供明確指導(dǎo)。在說(shuō)明數(shù)據(jù)引用時(shí),出版商可參照一些已有的實(shí)踐,如Force11[14]的原則,參與DataCite[17],加入到研究界和編輯討論的過(guò)程中。數(shù)據(jù)引用應(yīng)包括DOI,以及使用許可信息,如創(chuàng)作共用許可,數(shù)據(jù)的引用方式最好是機(jī)器可操作的,可讓用戶(hù)知道可以如何處理研究數(shù)據(jù)。
3.3.5 建立許可政策鼓勵(lì)進(jìn)行文本數(shù)據(jù)挖掘
出版商的編輯政策應(yīng)以清晰的方式,說(shuō)明研究數(shù)據(jù)的與獲取方式,如默認(rèn)或建議開(kāi)放獲取等。考慮到文本數(shù)據(jù)挖掘工具可帶來(lái)顯著經(jīng)濟(jì)效益,鼓勵(lì)出版商調(diào)整策略,允許研究人員在研究中使用這種技術(shù)。
關(guān)鍵詞:
房地產(chǎn)批量評(píng)估,標(biāo)準(zhǔn)價(jià)調(diào)整法,多元線性回歸模型,數(shù)據(jù)挖掘
根據(jù)房地產(chǎn)批量評(píng)估技術(shù)中人工參與程度的多少,現(xiàn)行批量評(píng)估技術(shù)方法可分為:以人工為主、以計(jì)算機(jī)技術(shù)為主和以人工與計(jì)算機(jī)技術(shù)相結(jié)合三類(lèi)。本文將對(duì)此進(jìn)行討論,對(duì)如何選用房地產(chǎn)批量評(píng)估技術(shù)方法進(jìn)行研究。
1以人工為主的技術(shù)方法之標(biāo)準(zhǔn)價(jià)調(diào)整法
1.1標(biāo)準(zhǔn)價(jià)調(diào)整法的概念標(biāo)準(zhǔn)價(jià)調(diào)整法,作為市場(chǎng)比較法派生出來(lái)的一種方法,類(lèi)似于城市動(dòng)拆遷評(píng)估中的基準(zhǔn)價(jià)格修正法和香港的指標(biāo)估價(jià)法,但又有其自身的特點(diǎn)。標(biāo)準(zhǔn)價(jià)調(diào)整法可定義為:一種批量估價(jià)方法,在一定區(qū)域范圍內(nèi)進(jìn)行估價(jià)分區(qū),在每個(gè)估價(jià)分區(qū)內(nèi)設(shè)定標(biāo)準(zhǔn)房地產(chǎn)并求其價(jià)值,利用房地產(chǎn)價(jià)格調(diào)整系數(shù)將標(biāo)準(zhǔn)房地產(chǎn)價(jià)格調(diào)整為各宗房地產(chǎn)的價(jià)值。標(biāo)準(zhǔn)價(jià)調(diào)整法適用于估價(jià)對(duì)象物業(yè)屬性和估價(jià)特性較為近似的物業(yè),尤其適用于小范圍且價(jià)格影響因素少的樓棟批量評(píng)估。
1.2標(biāo)準(zhǔn)價(jià)調(diào)整法在不同物業(yè)類(lèi)型中的應(yīng)用標(biāo)準(zhǔn)價(jià)調(diào)整法的實(shí)施涉及到:估價(jià)分區(qū)的劃分、標(biāo)準(zhǔn)房的設(shè)定、價(jià)格修正系數(shù)的設(shè)定以及標(biāo)準(zhǔn)房?jī)r(jià)格的評(píng)估。無(wú)論應(yīng)用于哪種物業(yè)類(lèi)型,這四個(gè)步驟必不可少,差異在于各步驟的具體實(shí)施方法不盡相同。在住宅物業(yè)的評(píng)估中,往往以小區(qū)作為估價(jià)分區(qū)的劃分,在一個(gè)小區(qū)內(nèi)根據(jù)一定規(guī)則設(shè)定一個(gè)標(biāo)準(zhǔn)房,再由有經(jīng)驗(yàn)的估價(jià)師根據(jù)實(shí)地調(diào)研情況設(shè)置標(biāo)準(zhǔn)房與其他房屋之間的價(jià)格差異系數(shù)。最后仍由估價(jià)師定期對(duì)標(biāo)準(zhǔn)房進(jìn)行估價(jià),并通過(guò)已設(shè)定的系數(shù)求得所有物業(yè)的價(jià)格。在辦公物業(yè)的評(píng)估中,差異在于分區(qū)是以樓棟或項(xiàng)目來(lái)劃分,后續(xù)步驟和住宅一致。在集中型商業(yè)物業(yè)或工業(yè)物業(yè)中,都可以借鑒上述方法來(lái)進(jìn)行操作。但在沿街零售型物業(yè)中,由于沿街零售性物業(yè)分布廣泛,沒(méi)有明顯的集中趨勢(shì),并且價(jià)格影響因素的差異較大,導(dǎo)致標(biāo)準(zhǔn)價(jià)調(diào)整法的應(yīng)用也與其他物業(yè)類(lèi)型有較大不同,主要表現(xiàn)在估價(jià)分區(qū)的劃分和價(jià)格修正系數(shù)的設(shè)定這兩個(gè)環(huán)節(jié)?,F(xiàn)有的技術(shù)方案一般采集兩級(jí)調(diào)整的方案。按商圈(或類(lèi)似因素)將城市區(qū)域劃分成諸多估價(jià)分區(qū),在每個(gè)分區(qū)中設(shè)定一個(gè)標(biāo)準(zhǔn)商鋪,稱(chēng)為區(qū)域基準(zhǔn)商鋪。之后在分區(qū)內(nèi)再進(jìn)行一次估價(jià)分區(qū)的劃分,這一劃分以路段為分區(qū),在每個(gè)路段中設(shè)定一個(gè)標(biāo)準(zhǔn)商鋪,稱(chēng)為路段基準(zhǔn)商鋪。估價(jià)人員經(jīng)過(guò)現(xiàn)場(chǎng)調(diào)研后,需設(shè)置兩級(jí)修正系數(shù),即區(qū)域基準(zhǔn)商鋪與路段基準(zhǔn)商鋪的價(jià)格調(diào)整系數(shù),以及路段基準(zhǔn)商鋪與路段內(nèi)其他商鋪的價(jià)格修正系數(shù)。最后經(jīng)估價(jià)師定期對(duì)區(qū)域基準(zhǔn)商鋪進(jìn)行估價(jià),并通過(guò)兩級(jí)系數(shù)的修正求得所有商鋪的價(jià)格。
1.3標(biāo)準(zhǔn)價(jià)調(diào)整法的優(yōu)點(diǎn)①在規(guī)模較小的城市中,可以實(shí)現(xiàn)絕大部分物業(yè)的批量評(píng)估需求,具有較強(qiáng)的實(shí)用性。②可以達(dá)到較高的批量評(píng)估覆蓋率。③估價(jià)準(zhǔn)確性較好,并具有較好的質(zhì)量可控性。④除建設(shè)初期投入的人員成本和時(shí)間成本較大,后續(xù)維護(hù)的成本適中。
1.4標(biāo)準(zhǔn)價(jià)調(diào)整法的缺點(diǎn)①由于人工作業(yè)的工作量太大,不適用大、中型城市。②對(duì)估價(jià)人員的經(jīng)驗(yàn)要求較高,尤其是系數(shù)設(shè)置與標(biāo)準(zhǔn)房的價(jià)格評(píng)估等環(huán)節(jié)對(duì)質(zhì)量的要求很高。團(tuán)隊(duì)運(yùn)作時(shí),需要具備較高的質(zhì)量管理能力。③不同物業(yè)間的系數(shù)關(guān)系可能受到市場(chǎng)、規(guī)劃等因素的影響而改變,需要定期進(jìn)行監(jiān)控和維護(hù),有一定的難度或容易疏忽和遺漏。
2以人工為主的技術(shù)方法之多元線性回歸模型
2.1多元線性回歸模型簡(jiǎn)述多元回歸分析是目前在國(guó)外批量評(píng)估中占主流的校準(zhǔn)技術(shù),包括線性回歸分析和非線性回歸分析。其基本原理是:在大量樣本的基礎(chǔ)上,通過(guò)對(duì)變量、誤差的假定,依靠最小二乘法來(lái)擬合因變量與自變量關(guān)系,從而建立數(shù)學(xué)模型。多元回歸是統(tǒng)計(jì)學(xué)方法,運(yùn)用時(shí)要和經(jīng)濟(jì)學(xué)理論結(jié)合,實(shí)踐中對(duì)多元回歸模型的應(yīng)用是基于特征價(jià)格理論。國(guó)內(nèi)關(guān)于運(yùn)用特征價(jià)格理論來(lái)進(jìn)行房地產(chǎn)價(jià)格批量評(píng)估也有較多的研究和學(xué)術(shù)論文,但絕大多數(shù)還處于理論研究階段。
2.2多元回歸分析的主要步驟多元回歸既可以用來(lái)預(yù)測(cè)售價(jià),也可以用來(lái)預(yù)測(cè)租金,甚至可以用來(lái)統(tǒng)計(jì)其他中間參數(shù)。在步驟上不同類(lèi)型的物業(yè)沒(méi)有明顯區(qū)別,只是在變量的選擇與量化上有所不同。為便于表述,下面以預(yù)測(cè)辦公物業(yè)價(jià)格為例來(lái)進(jìn)行闡述。①選取樣本:為了訓(xùn)練預(yù)測(cè)辦公物業(yè)價(jià)格的模型方程,在目標(biāo)范圍內(nèi)選取一定數(shù)量的樣本,調(diào)研其價(jià)格信息和基礎(chǔ)信息。這里的重點(diǎn)是樣本對(duì)總體的代表性以及樣本數(shù)據(jù)采集的準(zhǔn)確性。②構(gòu)建辦公物業(yè)價(jià)格影響因素體系:通過(guò)調(diào)研分析以及房產(chǎn)專(zhuān)家意見(jiàn)調(diào)查,歸納出可能影響辦公物業(yè)價(jià)格的特征變量,并進(jìn)行賦值量化。③模型擬合:觀察、分析特征變量的變動(dòng)規(guī)律,采用統(tǒng)計(jì)分析軟件進(jìn)行分析,對(duì)模型和特征變量賦值不斷地嘗試和修正,找出合理的價(jià)格和各特征變量之間的定量關(guān)系。④模型檢驗(yàn):最終得到的模型是否成功,取決于經(jīng)濟(jì)意義檢驗(yàn)、統(tǒng)計(jì)檢驗(yàn)、計(jì)量經(jīng)濟(jì)學(xué)檢驗(yàn)以及模型預(yù)測(cè)檢驗(yàn)。其中統(tǒng)計(jì)檢驗(yàn)包括了擬合優(yōu)度檢驗(yàn)和顯著性檢驗(yàn);計(jì)量經(jīng)濟(jì)學(xué)檢驗(yàn)包括多重共線性檢驗(yàn)及異方差檢驗(yàn)等。但凡通過(guò)上述所有的檢驗(yàn),即可認(rèn)為模型已成功建立。⑤模型應(yīng)用:對(duì)辦公物業(yè)的特征變量進(jìn)行賦值,代入最終的模型進(jìn)行自動(dòng)計(jì)算,即可評(píng)估辦公物業(yè)的價(jià)格。
2.3多元線性回歸模型的優(yōu)點(diǎn)①多元回歸方法所涉及的工作量主要在于特征變量的數(shù)量以及特征變量的賦值容易程度,受城市規(guī)模的影響較小,因此可以適用于大中型及以上城市。②多元回歸方法通過(guò)擬合因變量與自變量關(guān)系從而建立數(shù)學(xué)模型,這個(gè)過(guò)程與何種物業(yè)類(lèi)型無(wú)關(guān),因此理論上多元回歸方法適合各類(lèi)型物業(yè)的批量評(píng)估建模。③通過(guò)“調(diào)整R方”和“標(biāo)準(zhǔn)誤差”兩項(xiàng)指標(biāo),基本可以判斷和掌握模型價(jià)格估計(jì)的準(zhǔn)確度,并且可以對(duì)模型進(jìn)行持續(xù)改進(jìn),從而保證批量評(píng)估的準(zhǔn)確性。④在市場(chǎng)穩(wěn)定時(shí)期,由于自變量與因變量的關(guān)系也較為穩(wěn)定,因此模型更新維護(hù)的成本較低,從而價(jià)格更新的成本也較低。
2.4多元線性回歸模型的缺點(diǎn)①在不同區(qū)域或不同市場(chǎng),價(jià)格的影響因素不盡相同,建立的回歸模型也不相同。因此對(duì)每個(gè)城市每個(gè)物業(yè)類(lèi)型的市場(chǎng)需要分別建立回歸模型。②多元回歸的建模研究過(guò)程中,在理論假設(shè)、建模方法、數(shù)據(jù)采集等各環(huán)節(jié)中,需要綜合的知識(shí)、經(jīng)驗(yàn)和技能要求。除了房地產(chǎn)估價(jià)師所需具備的估價(jià)理論知識(shí)、實(shí)務(wù)經(jīng)驗(yàn)、調(diào)研及價(jià)格判斷能力外,還需要統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等多學(xué)科知識(shí)。對(duì)人員和團(tuán)隊(duì)的綜合能力要求很高,而這往往是傳統(tǒng)估價(jià)機(jī)構(gòu)所欠缺的。③對(duì)樣本數(shù)據(jù)的準(zhǔn)確性要求較高。如果沒(méi)有準(zhǔn)確的樣本數(shù)據(jù),建立科學(xué)的經(jīng)濟(jì)學(xué)模型則為空中樓閣。而要獲得準(zhǔn)確的樣本數(shù)據(jù),長(zhǎng)久以來(lái)一直是一個(gè)難題,其中有人為的因素(如交易避稅),也有客觀的因素(如商業(yè)物業(yè)的交易活躍度低)。④在市場(chǎng)波動(dòng)大的時(shí)候,原有模型可能失效或者預(yù)測(cè)能力大幅下降,而模型的迭代或維護(hù)周期較長(zhǎng),可能無(wú)法及時(shí)調(diào)整。
3以計(jì)算機(jī)技術(shù)為主的技術(shù)方法
房地產(chǎn)批量評(píng)估領(lǐng)域中以計(jì)算機(jī)技術(shù)為主的技術(shù)方法主要是基于大數(shù)據(jù)的數(shù)據(jù)挖掘。這一技術(shù)的應(yīng)用最早開(kāi)始于房地產(chǎn)互聯(lián)網(wǎng)企業(yè),如搜房、安居客等房地產(chǎn)房源網(wǎng)站,后來(lái)逐步被引入到房地產(chǎn)批量評(píng)估的技術(shù)或產(chǎn)品研發(fā)中來(lái)。
3.1數(shù)據(jù)挖掘的方法和原理首先,數(shù)據(jù)挖掘的前提需要有大量的數(shù)據(jù)可供挖掘。隨著互聯(lián)網(wǎng)在各行各業(yè)的不斷滲透,房地產(chǎn)中介行業(yè)中出現(xiàn)了大量房源網(wǎng)站,并逐步成為了房地產(chǎn)經(jīng)紀(jì)人房源招攬客戶(hù)的主要渠道。一個(gè)房源網(wǎng)站中可以搜索的房源數(shù)量多達(dá)數(shù)十萬(wàn)甚至上百萬(wàn)條,并且每天都有數(shù)萬(wàn)條以上的數(shù)據(jù)更新。這樣的網(wǎng)站有好幾家,為房地產(chǎn)的數(shù)據(jù)挖掘提供了可行的前提。其次,結(jié)構(gòu)化的數(shù)據(jù)為數(shù)據(jù)的采集提供了便利。在房源網(wǎng)站中,房源已經(jīng)按小區(qū)進(jìn)行了分類(lèi),經(jīng)紀(jì)人哪個(gè)小區(qū)的房源,則該房源將展現(xiàn)在該小區(qū)的搜索項(xiàng)下。至于面積、房型、價(jià)格、樓層以及裝修等參數(shù),也都以格式化的方式來(lái)展現(xiàn)。因此,利用互聯(lián)網(wǎng)爬蟲(chóng)等抓取技術(shù),可以方便的將這些網(wǎng)站的房源抓取下來(lái),并建立房源案例數(shù)據(jù)庫(kù)。最后,是數(shù)據(jù)挖掘工作。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。根據(jù)上述定義和描述可以發(fā)現(xiàn),數(shù)據(jù)挖掘的核心是算法,而這個(gè)算法在不同的批量評(píng)估系數(shù)或產(chǎn)品中都不相同,算法的優(yōu)劣也決定了不同系統(tǒng)或產(chǎn)品的優(yōu)劣。
3.2數(shù)據(jù)挖掘方法的優(yōu)點(diǎn)①高效無(wú)疑是數(shù)據(jù)挖掘方法的最大優(yōu)點(diǎn)。一旦完成對(duì)算法的研究,價(jià)格估算的工作都可以交由計(jì)算機(jī)來(lái)完成。②對(duì)整體市場(chǎng)價(jià)格運(yùn)行的反映具有較高的準(zhǔn)確度。
3.3數(shù)據(jù)挖掘方法的缺點(diǎn)①對(duì)微觀市場(chǎng)價(jià)格運(yùn)行的反映可能存在較大偏差。微觀市場(chǎng)中,例如一個(gè)住宅小區(qū),其掛牌房源的數(shù)量就很有限了,即使規(guī)模最大的小區(qū),也就是幾百的數(shù)量級(jí)。這樣大數(shù)據(jù)挖掘的數(shù)據(jù)數(shù)量前提已不滿足,從而影響了對(duì)微觀市場(chǎng)的價(jià)格估計(jì)。②批量評(píng)估的覆蓋面不完整?;ヂ?lián)網(wǎng)數(shù)據(jù)雖然總量巨大,但并非面面俱到。以住宅小區(qū)為例,一些體量較小的小區(qū),或者一些遠(yuǎn)郊區(qū)域,可能無(wú)法在互聯(lián)網(wǎng)上被搜索到。因此,基于互聯(lián)網(wǎng)數(shù)據(jù)挖掘的批量評(píng)估勢(shì)必在覆蓋面上存在缺陷。
4以人工與計(jì)算機(jī)技術(shù)相結(jié)合的技術(shù)方法
房地產(chǎn)批量評(píng)估,尤其是涉稅的批量評(píng)估對(duì)評(píng)估系統(tǒng)的要求主要有:全面覆蓋所有物業(yè)、估價(jià)結(jié)果準(zhǔn)確以及系統(tǒng)維護(hù)成本適中。根據(jù)前文對(duì)各方法的論述,單一方法很難實(shí)現(xiàn)上述要求。如標(biāo)準(zhǔn)價(jià)調(diào)整法若在大型或超大型城市中應(yīng)用,將面臨很高的運(yùn)營(yíng)成本;多元回歸建模的更新維護(hù)周期較長(zhǎng),當(dāng)市場(chǎng)出現(xiàn)快速波動(dòng)時(shí)可能無(wú)法及時(shí)調(diào)整;基于大數(shù)據(jù)的數(shù)據(jù)挖掘在估價(jià)精度與覆蓋面上都有所欠缺??傊?,無(wú)論從技術(shù)上論證還是從實(shí)施效果來(lái)看,多種方法的有效結(jié)合是較為理想的,也是房地產(chǎn)批量評(píng)估技術(shù)的發(fā)展趨勢(shì)。實(shí)踐中各方法的結(jié)合已有普遍應(yīng)用,并且各有巧妙,方法不盡相同。下面就幾種簡(jiǎn)單的組合方式進(jìn)行討論。
4.1標(biāo)準(zhǔn)價(jià)調(diào)整法與大數(shù)據(jù)挖掘技術(shù)的組合大數(shù)據(jù)挖掘可以滿足一些活躍小區(qū)的價(jià)格估算,因?yàn)榛钴S小區(qū)的掛牌房源較多,能滿足算法所要求的數(shù)據(jù)量前提,而不活躍的小區(qū)則無(wú)法為算法提供足夠的“原材料”,因此不適用數(shù)據(jù)挖掘的方法。這時(shí)就可以運(yùn)用標(biāo)準(zhǔn)價(jià)調(diào)整法來(lái)彌補(bǔ)。按照標(biāo)準(zhǔn)價(jià)調(diào)整法的原理,在不活躍小區(qū)的臨近或相似區(qū)域內(nèi)設(shè)置一個(gè)標(biāo)準(zhǔn)房,經(jīng)人工調(diào)研后設(shè)置標(biāo)準(zhǔn)房與不活躍小區(qū)價(jià)格的調(diào)整系數(shù)。這樣在算法得出活躍小區(qū)價(jià)格的同時(shí),可以利用預(yù)先設(shè)置好的系數(shù)一并計(jì)算不活躍小區(qū)的價(jià)格。此外,在算法可以計(jì)算的活躍小區(qū)的價(jià)格中,也有可能存在價(jià)格偏差。這時(shí)也可以應(yīng)用標(biāo)準(zhǔn)價(jià)調(diào)整法的思路,設(shè)置活躍小區(qū)間的價(jià)格調(diào)整系數(shù),來(lái)檢驗(yàn)算法所得結(jié)果的合理性。這一組合的應(yīng)用前提主要是看大數(shù)據(jù)挖掘的應(yīng)用前提是否存在,即是否存在大量數(shù)據(jù)可供挖掘,因此適合房地產(chǎn)市場(chǎng)規(guī)模較大,“互聯(lián)網(wǎng)+”比較發(fā)達(dá)的城市和地區(qū)。此外,在結(jié)合了大數(shù)據(jù)挖掘技術(shù)后,標(biāo)準(zhǔn)價(jià)調(diào)整法可以應(yīng)用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回歸模型與大數(shù)據(jù)挖掘技術(shù)的組合除了對(duì)人員的能力要求以及對(duì)樣本數(shù)據(jù)的質(zhì)量要求較高以外,多元回歸模型最大的弱點(diǎn)在于迭代問(wèn)題。市場(chǎng)不斷變化,模型不可能一成不變,當(dāng)市場(chǎng)發(fā)生變化并導(dǎo)致變量之間的關(guān)系也發(fā)生改變時(shí),原有模型的價(jià)格預(yù)計(jì)精度必然下降,此時(shí)必須對(duì)模型進(jìn)行重新構(gòu)建。問(wèn)題在于市場(chǎng)價(jià)格變化未必會(huì)導(dǎo)致變量間的關(guān)系也發(fā)生變化(或變化很?。?,或者當(dāng)變量間關(guān)系發(fā)生變化時(shí),人員主觀上可能無(wú)法及時(shí)發(fā)現(xiàn)。當(dāng)主觀能夠感受到變量間的關(guān)系出現(xiàn)變化時(shí),往往已經(jīng)有了很大的變化。此時(shí)再進(jìn)行模型的迭代就已近晚了,之前的價(jià)格估算可能已經(jīng)出現(xiàn)了錯(cuò)誤。大數(shù)據(jù)挖掘技術(shù)可以很好地彌補(bǔ)上述的缺陷。大數(shù)據(jù)挖掘不僅可以直接計(jì)算某些具體變量,任何數(shù)據(jù)內(nèi)在的規(guī)律和關(guān)聯(lián)都可能應(yīng)用大數(shù)據(jù)挖掘的方式進(jìn)行探索和發(fā)現(xiàn),并且能對(duì)極為細(xì)小的數(shù)值波動(dòng)進(jìn)行反應(yīng)。利用數(shù)據(jù)挖掘的這一特性,可以建立對(duì)變量的波動(dòng)監(jiān)控,當(dāng)波動(dòng)超過(guò)一定的預(yù)設(shè)閥值即可啟動(dòng)模型的迭代更新。這一組合的應(yīng)用前提同樣取決于大數(shù)據(jù)挖掘的應(yīng)用前提,除了城市規(guī)模等情況限制外,如商業(yè)物業(yè)、工業(yè)廠房等物業(yè)市場(chǎng)也不適用。
4.3標(biāo)準(zhǔn)價(jià)調(diào)整法與多元回歸模型的組合標(biāo)準(zhǔn)價(jià)調(diào)整法往往適用于特性相近的物業(yè),如在一個(gè)小區(qū)中設(shè)定一個(gè)標(biāo)準(zhǔn)房,再設(shè)定標(biāo)準(zhǔn)房與其他房屋的價(jià)格修正系數(shù)。在價(jià)格更新時(shí),求取標(biāo)準(zhǔn)房?jī)r(jià)格后,即可得到小區(qū)內(nèi)所有房屋的價(jià)格。但當(dāng)城市規(guī)模很大時(shí),也就是有很多小區(qū)時(shí),必須要求取所有小區(qū)的標(biāo)準(zhǔn)房?jī)r(jià)格,如僅以人工來(lái)評(píng)估得出的話,成本非常高。此時(shí)在求取小區(qū)標(biāo)準(zhǔn)房?jī)r(jià)格方面,采用多元回歸模型的方法可以極大地減少人工和時(shí)間成本。由于標(biāo)準(zhǔn)價(jià)調(diào)整法和多元回歸模型都屬于以人工為主的技術(shù)方法,因此理論上的應(yīng)用幾乎不受限制。在結(jié)合多元回歸模型后,標(biāo)準(zhǔn)價(jià)調(diào)整法也可擴(kuò)展應(yīng)用到大中及以上城市。從上述三個(gè)組合中可以看到,原單一技術(shù)的某些弊端可以被克服,整體技術(shù)方案的適用范圍和效果可獲得較大提升和改進(jìn)。實(shí)際研究和應(yīng)用中可能有更多種的技術(shù)組合,且并不限于本文論述的主流技術(shù)方法。多種技術(shù)組合應(yīng)用是房地產(chǎn)批量評(píng)估技術(shù)探索和創(chuàng)新的主要方向。
5房地產(chǎn)批量評(píng)估技術(shù)的選用
無(wú)論是單一技術(shù)還是多種技術(shù)方法的結(jié)合應(yīng)用,房地產(chǎn)批量評(píng)估技術(shù)的選用依據(jù)主要是數(shù)據(jù)狀況、結(jié)果的質(zhì)量狀況以及運(yùn)行成本。數(shù)據(jù)狀況主要指數(shù)據(jù)的數(shù)量和質(zhì)量。就技術(shù)方案來(lái)說(shuō),側(cè)重點(diǎn)有所不同。例如在多元回歸模型中,對(duì)于樣本案例的參數(shù)質(zhì)量要求是所有技術(shù)方案中最高的;而大數(shù)據(jù)挖掘技術(shù)則對(duì)數(shù)據(jù)的數(shù)量要求最高?,F(xiàn)實(shí)中不太會(huì)碰到數(shù)量又多質(zhì)量又好的數(shù)據(jù)狀況,因此在技術(shù)選用時(shí)首先需要考慮是否可以穩(wěn)定獲得所需要的數(shù)據(jù)。至于結(jié)果的質(zhì)量狀況和運(yùn)行成本,很難設(shè)定一個(gè)標(biāo)準(zhǔn)線。只能根據(jù)不同的需求目的來(lái)設(shè)定質(zhì)量目標(biāo),以及根據(jù)組織的投入產(chǎn)出效益來(lái)選擇可行的技術(shù)方案。以上海城市房地產(chǎn)估價(jià)有限公司開(kāi)發(fā)的VISS系統(tǒng)的運(yùn)行情況來(lái)看,其在住宅物業(yè)批量評(píng)估方案中采用了標(biāo)準(zhǔn)價(jià)調(diào)整法與大數(shù)據(jù)挖掘相結(jié)合的方法,使其系統(tǒng)的評(píng)估精度基本控制在正負(fù)6%的誤差范圍,極端誤差范圍為正負(fù)10%。對(duì)于上海12000多個(gè)住宅小區(qū),其價(jià)格更新周期為每月,其數(shù)據(jù)維護(hù)人員僅8-10人,每次價(jià)格更新的工作周期僅為兩周。在其新研發(fā)的辦公物業(yè)批量評(píng)估方案中,更是結(jié)合了標(biāo)準(zhǔn)價(jià)調(diào)整法、多元回歸模型以及大數(shù)據(jù)挖掘三種方法,使其系統(tǒng)的評(píng)估精度可以控制在正負(fù)10%的誤差范圍,極端誤差范圍為正負(fù)15%。對(duì)于上海3000多棟寫(xiě)字樓物業(yè),可以實(shí)現(xiàn)3個(gè)月的價(jià)格更新周期,而數(shù)據(jù)維護(hù)人員僅3人。因此,在選用何種技術(shù)方案時(shí),主要有四個(gè)評(píng)價(jià)因素。一是技術(shù)方案所需的數(shù)據(jù)是否可以穩(wěn)定獲得;二是批量評(píng)估的價(jià)格精度是否滿足目標(biāo)需求;三是批量評(píng)估的物業(yè)覆蓋面是否完整;四是批量評(píng)估的運(yùn)行維護(hù)成本企業(yè)(或組織)是否可以承受。以此為標(biāo)準(zhǔn),運(yùn)用多方法結(jié)合的思路進(jìn)行技術(shù)的研發(fā)和創(chuàng)新才是房地產(chǎn)批量評(píng)估技術(shù)發(fā)展的正確道路。
采用計(jì)算機(jī)科學(xué)技術(shù)、現(xiàn)代信息技術(shù)和新的數(shù)學(xué)理論和工具處理復(fù)雜的信息,從各類(lèi)文本、數(shù)據(jù)、表格、圖像、視頻等浩瀚的數(shù)據(jù)海洋中挖掘規(guī)律,發(fā)現(xiàn)有用的潛在知識(shí),指導(dǎo)人們進(jìn)行科學(xué)分類(lèi)、預(yù)測(cè)、決策,是多年來(lái)美國(guó)及國(guó)際計(jì)算機(jī)、信息科學(xué)和數(shù)學(xué)家一直在探索的研究領(lǐng)域。知識(shí)獲取、知識(shí)表示和智能化的人機(jī)交互,甚至實(shí)現(xiàn)計(jì)算機(jī)可視化信息處理,建立新穎的知識(shí)庫(kù),從而獲得領(lǐng)域信息和知識(shí)分析結(jié)果,將有助于商業(yè)活動(dòng)、生物信息處理、蛋白質(zhì)結(jié)構(gòu)分析、科技研究動(dòng)態(tài)分析,有助于科學(xué)家在復(fù)雜的科研信息中開(kāi)辟新的未知領(lǐng)域,提供快速獨(dú)立科學(xué)判斷的客觀依據(jù),探討和預(yù)測(cè)學(xué)科知識(shí)的發(fā)展前沿,準(zhǔn)確把握學(xué)科研究方向,從事科學(xué)創(chuàng)新和研究。
多年來(lái),我一直在智能信息處理這一研究領(lǐng)域進(jìn)行探索。這次聯(lián)系到美國(guó)德雷克塞爾大學(xué)信息科學(xué)技術(shù)學(xué)院Tony• H教授,在他的指導(dǎo)下進(jìn)行數(shù)據(jù)挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授現(xiàn)擔(dān)任國(guó)際學(xué)報(bào)《Data Mining and Bioinformatics》和《Granular Computing》等的主編和國(guó)際粒計(jì)算會(huì)議的程序委員會(huì)主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等內(nèi)容,是近年來(lái)在世界智能信息分析中最具特色和影響力的研究領(lǐng)域。從2000年至今,他在這一研究領(lǐng)域中發(fā)表的研究論文達(dá)60多篇,出版的研究專(zhuān)著為3部。在為期一年的時(shí)間里,我與Tony•H進(jìn)行了很好的合作研究,采用新的研究方法,對(duì)前沿領(lǐng)域進(jìn)行了有益的探索研究,并接受了Tony•H等教授們的研究思想、研究方法、教學(xué)思想和教學(xué)方法的熏陶,對(duì)相關(guān)課程的教學(xué)方法、教學(xué)手段、教學(xué)組織方式進(jìn)行了深入的交流和探討。此外,我還以志愿者的身份參加了在美國(guó)舉辦的兩個(gè)大型的全球性國(guó)際會(huì)議:美國(guó)工業(yè)數(shù)學(xué)聯(lián)合會(huì)舉辦的2006年國(guó)際知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘會(huì)議(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);國(guó)際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘會(huì)議(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
這次訪問(wèn)研究使我開(kāi)闊了眼界,接觸到很多當(dāng)今信息科學(xué)研究領(lǐng)域中最先進(jìn)的思想和方法。對(duì)Rough Set Theory、Data mining、Bioinformatics等前沿性探索和預(yù)測(cè)的科學(xué)研究也有了更深入的認(rèn)識(shí)。同時(shí),能夠有機(jī)會(huì)和這一研究領(lǐng)域的世界知名專(zhuān)家和教授進(jìn)行面對(duì)面的學(xué)術(shù)交流與探討,參加各種類(lèi)型的學(xué)術(shù)研討會(huì),我覺(jué)得受益匪淺。我所感受的學(xué)術(shù)氛圍、學(xué)到的教學(xué)思想和教學(xué)方法是一筆寶貴的精神財(cái)富,我會(huì)將他們直接應(yīng)用到自己的教學(xué)和科研中。下面就我在訪美期間印象深刻的幾件事談?wù)勼w會(huì),以期對(duì)我們的工作有所啟示。
2優(yōu)秀的學(xué)習(xí)環(huán)境
2.1優(yōu)美的校園環(huán)境
我所訪問(wèn)的德雷克塞爾大學(xué)地處美國(guó)費(fèi)城的市中心西部,緊鄰世界著名的賓法尼亞大學(xué)(世界上第一臺(tái)電子計(jì)算機(jī)ENIAC在這里誕生,現(xiàn)在這里還保留有部分元件的展覽)。雖然離市中心較近,校園也沒(méi)有圍墻與外界明顯隔開(kāi),由跨南北東西幾條街和大道的建筑組成,但校區(qū)及周邊環(huán)境寂靜優(yōu)雅。校園中央有一座代表性的龍雕塑,路邊插的許多旗桿上掛著印有龍的圖案和Dragon字樣的杏黃校旗,幾只松鼠在校園內(nèi)的樹(shù)上自由地跳躍活動(dòng),小道邊或樹(shù)下都設(shè)有長(zhǎng)凳,供教職工或?qū)W生休息、討論。
教學(xué)樓、實(shí)驗(yàn)樓、辦公樓、圖書(shū)館、體育館內(nèi)中央空調(diào)處于恒溫狀態(tài),非常適合工作學(xué)習(xí)。每棟樓的大廳或較寬的走道邊的墻壁上都貼有各種名言及名畫(huà),營(yíng)造著好的學(xué)習(xí)環(huán)境,渲染著極其重要的文化氛圍。大廳內(nèi)布置有椅子和圓桌,在上課、實(shí)驗(yàn)或面談之前,教師或?qū)W生可在此休息等待,這一點(diǎn)的確做到了以人為本,給我留下了十分深刻的印象。
體育館內(nèi)各種體育設(shè)施齊全,如健身、跑步、球類(lèi)等,全年對(duì)學(xué)生免費(fèi)開(kāi)放。游泳也只需支付少量的費(fèi)用(3個(gè)月只需25美元),全天多時(shí)段使用。
9月迎接新生、校際間的籃球比賽等活動(dòng)舉辦得井井有條,充滿生機(jī)。
2.2完備的信息化建設(shè)
首先,信息化建設(shè)表現(xiàn)在數(shù)字資源的建設(shè)上。圖書(shū)館大廳內(nèi)設(shè)有很多計(jì)算機(jī),學(xué)生可在此上網(wǎng)瀏覽,查閱資料。書(shū)架周邊靠墻處設(shè)有自習(xí)的桌椅,供有網(wǎng)絡(luò)插口,學(xué)生可鏈接自己的筆記本電腦。圖書(shū)館資料豐富,如果在本館找不到相關(guān)資料,也可請(qǐng)圖書(shū)管理員在館際間查找,將返回的電子文檔通過(guò)郵件發(fā)送到學(xué)生校園網(wǎng)內(nèi)的電子郵箱中,十分方便。
校園無(wú)線網(wǎng)覆蓋了整個(gè)校園,教室周?chē)差A(yù)設(shè)了網(wǎng)線插口,在教室內(nèi)上課或自習(xí)的學(xué)生均可免費(fèi)無(wú)線或有線上網(wǎng)。在校的本、碩、博學(xué)生都有自己的校內(nèi)學(xué)號(hào),憑該學(xué)號(hào)可直接在自己的實(shí)驗(yàn)室登陸校園網(wǎng)的電子圖書(shū)館,查到僅在校園網(wǎng)上提供的論文資料。學(xué)生還可從校園網(wǎng)中心服務(wù)器上下載以學(xué)?;驒C(jī)構(gòu)名義購(gòu)買(mǎi)的正版軟件,這一點(diǎn)國(guó)內(nèi)很多高校還沒(méi)能做到。
其次,信息化建設(shè)也體現(xiàn)在師生信息素養(yǎng)的建設(shè)上。無(wú)論在信息意識(shí)、信息知識(shí)、信息能力,還是在信息道德上,師生們都顯現(xiàn)出十分成熟的高水平。良好的信息化數(shù)字資源建設(shè)為師生的教學(xué)科研提供了良好的保障,師生們利用簡(jiǎn)單的搜索機(jī)制或便捷的館際服務(wù)就可查到需要的資源。雖然本校師生可從校園網(wǎng)上下載正版軟件,但每個(gè)人都遵守不宜外拷的基本原則,這也體現(xiàn)了良好的信息素養(yǎng)。
3教師教學(xué)與學(xué)生學(xué)習(xí)
3.1教師教學(xué)情況
美國(guó)高校一般一年分為4個(gè)學(xué)期,每個(gè)學(xué)期大約3個(gè)月。按照校方的要求,每個(gè)教師至少3個(gè)學(xué)期要有教學(xué)任務(wù),而且必須在每個(gè)學(xué)期完成平均3門(mén)課程的教學(xué),個(gè)別教師甚至在一個(gè)學(xué)期要承擔(dān)4門(mén)課程的教學(xué)任務(wù)。一門(mén)課的教學(xué)約32學(xué)時(shí),這樣,每個(gè)教師每學(xué)期(一學(xué)期不到3個(gè)月)約完成72~96學(xué)時(shí)的教學(xué)工作量。除非有科研課題,可以用科研任務(wù)充抵教學(xué)工作量,否則,教學(xué)任務(wù)就是相當(dāng)飽滿的。除了承擔(dān)教學(xué)工作外,每個(gè)教師還要承擔(dān)科研、指導(dǎo)碩士及博士生進(jìn)行研究的工作。年輕教師除了要完成教學(xué)任務(wù),還要進(jìn)一步深造,提高自己的學(xué)位和水平。教師的教學(xué)情況由學(xué)生來(lái)評(píng)價(jià),學(xué)生填寫(xiě)調(diào)查表格,收齊后交由學(xué)院教學(xué)秘書(shū)統(tǒng)計(jì),最后由學(xué)院將統(tǒng)計(jì)結(jié)果通報(bào)給教師本人,類(lèi)似國(guó)內(nèi)高校的學(xué)生評(píng)教。所以教師同樣很有壓力,他們對(duì)教學(xué)一絲不茍、敬業(yè),并非普通人所想象的美國(guó)教師工資高、工作輕松。
在課下,教師必須將所授課程的內(nèi)容介紹、大綱、演示文檔資料、習(xí)題等組織好,全部掛在校園網(wǎng)的個(gè)人主頁(yè)上,以便學(xué)生隨時(shí)瀏覽。備課、批改作業(yè)、設(shè)計(jì)實(shí)驗(yàn)題目等各個(gè)環(huán)節(jié),教師都要十分認(rèn)真地對(duì)待,每周有一次約定學(xué)生到辦公室進(jìn)行問(wèn)題討論或答疑,保證教學(xué)任務(wù)圓滿完成。教師對(duì)實(shí)驗(yàn)項(xiàng)目的設(shè)計(jì)循循善誘,既不是全盤(pán)托出,也不是僅給一個(gè)題目,讓學(xué)生冥思苦想地琢磨。除了將學(xué)生建立成團(tuán)隊(duì),教師還布置與課程相關(guān)的大量文獻(xiàn)和資料閱讀,并要求學(xué)生寫(xiě)出讀書(shū)報(bào)告。對(duì)于課程結(jié)束或評(píng)定成績(jī)用的大作業(yè),甚至要求每個(gè)學(xué)生制作成演示文稿,并加以匯報(bào)、討論。我看到一位叫愛(ài)德華(中譯名)的老師,他承擔(dān)了數(shù)據(jù)庫(kù)、軟件工程等多門(mén)課程的教學(xué)任務(wù),每天都在辦公室工作到很晚,有時(shí)甚至在教學(xué)樓大廳的休閑式自習(xí)間伏案研究。
在課上,每門(mén)課程開(kāi)始的第一節(jié)課,教師就將學(xué)生分組,形成一個(gè)一個(gè)團(tuán)隊(duì)。在布置學(xué)習(xí)和研討課題后,教師要求學(xué)生先獨(dú)立思考,不明白的東西可在團(tuán)隊(duì)內(nèi)討論,有問(wèn)題還可及時(shí)問(wèn)老師。也就是說(shuō),每門(mén)課都在培養(yǎng)學(xué)生的團(tuán)隊(duì)協(xié)作精神。教師在課堂上的演示文稿經(jīng)過(guò)精心準(zhǔn)備,圖文并茂,層次分明,令人賞心悅目,但他們也不完全拘泥于演示稿,也在黑(或白)板上演繹關(guān)鍵的內(nèi)容,突出重點(diǎn),使學(xué)生感到他們備課充分,對(duì)教學(xué)內(nèi)容十分精通。
3.2學(xué)生學(xué)習(xí)情況
在美國(guó)讀書(shū)的學(xué)生,普遍感到課外閱讀任務(wù)較重。學(xué)生不光要學(xué)好課內(nèi)的基本教學(xué)內(nèi)容,還要閱讀文獻(xiàn),查找與主題相關(guān)的資料,并加以整理、歸納、匯總。這培養(yǎng)了學(xué)生自主學(xué)習(xí)的意識(shí),清除他們完全靠老師課堂講授的依賴(lài)心理。
課堂上,學(xué)生們會(huì)踴躍發(fā)言,認(rèn)真記筆記,回答老師的提問(wèn),在老師的引導(dǎo)下完成課堂練習(xí)。下課后,學(xué)生到圖書(shū)館查閱資料或自習(xí),也會(huì)在網(wǎng)上下載老師在主頁(yè)上布置的作業(yè),按時(shí)完成后及時(shí)提交給老師批改。如在課程結(jié)束時(shí),教師會(huì)給學(xué)生布置大作業(yè),學(xué)生要在一定時(shí)間內(nèi)當(dāng)面交給老師,并接受面試提問(wèn),作為考查依據(jù)的一部分。在接到作業(yè)任務(wù)后,學(xué)生要認(rèn)真對(duì)待,完成后連帶其他作業(yè)一起交給老師。老師根據(jù)學(xué)生的總體完成情況給出五級(jí)分制的成績(jī)。
我曾遇到一位碩士生,她就接到這樣一個(gè)大作業(yè)。老師給的任務(wù)是一個(gè)較大的程序,要求她調(diào)試運(yùn)行通過(guò)。經(jīng)過(guò)一周的調(diào)試,程序始終沒(méi)能運(yùn)行成功。在快要到期時(shí),她正好碰到我,聽(tīng)說(shuō)我是從事這方面教學(xué)工作的,就向我請(qǐng)教。我很想了解美國(guó)教師采用什么樣的教學(xué)方法,出什么樣的題目讓學(xué)生做,于是答應(yīng)幫他。我仔細(xì)閱讀分析和反復(fù)測(cè)試網(wǎng)上下載的源代碼,終于找出了問(wèn)題所在。原來(lái)老師在程序中故意預(yù)設(shè)了兩個(gè)問(wèn)題,這是學(xué)生在學(xué)習(xí)此類(lèi)程序設(shè)計(jì)語(yǔ)言時(shí)容易忽略或犯錯(cuò)的問(wèn)題,程序在編譯中并不報(bào)錯(cuò),但就是運(yùn)行結(jié)果不正確,得不到期望的結(jié)果,學(xué)生找不到出錯(cuò)的地方,感到很困惑。經(jīng)過(guò)修改,程序很快調(diào)試運(yùn)行通過(guò),進(jìn)一步優(yōu)化和調(diào)整后,她交給了老師。老師看了她的程序運(yùn)行結(jié)果,并問(wèn)了她的體會(huì),得到非常滿意的回答后,表示十分高興。
其實(shí),這就是教師在主導(dǎo)學(xué)生去主動(dòng)學(xué)習(xí),自己找資料,自己研究問(wèn)題,形象地講,就是“逼”學(xué)生好好學(xué)習(xí)。這樣可以解決學(xué)生遇到較難問(wèn)題時(shí)無(wú)從下手的迷惑,循循善誘他們找到解決問(wèn)題的方法,避免了“越俎代庖”。
4 碩士生和博士生的培養(yǎng)過(guò)程
在碩、博研究生的指導(dǎo)過(guò)程中,如何對(duì)學(xué)生加以良好的指導(dǎo),始終是困擾國(guó)內(nèi)外導(dǎo)師們的問(wèn)題,至今仍無(wú)絕對(duì)規(guī)范。
從導(dǎo)師與學(xué)生一見(jiàn)面,指導(dǎo)工作就已開(kāi)始。導(dǎo)師一般提供很多必要的幫助,如幫助開(kāi)設(shè)相互聯(lián)系的校園郵箱,確定聯(lián)系方式和時(shí)間,根據(jù)學(xué)生的知識(shí)結(jié)構(gòu)制定研究方向等。作為一項(xiàng)基本約定,指導(dǎo)教師每周要有一個(gè)下午與學(xué)生見(jiàn)面,由學(xué)生匯報(bào)學(xué)習(xí)和研究情況,導(dǎo)師當(dāng)面給出指導(dǎo)意見(jiàn)。導(dǎo)師有時(shí)還會(huì)幫助學(xué)生查找并提供最相關(guān)的研究論文或資料,必要時(shí)將研究論文的電子稿發(fā)送給學(xué)生,甚至將論文復(fù)印件放在學(xué)生的信箱中――這絕對(duì)有別于國(guó)內(nèi)有的指導(dǎo)老師因兼職過(guò)多或擔(dān)任其他職務(wù),指導(dǎo)缺乏或持久不到位現(xiàn)象。這種指導(dǎo)方式加強(qiáng)了導(dǎo)師與學(xué)生的交流,也便于將學(xué)生引導(dǎo)到相關(guān)研究領(lǐng)域的最前沿,而導(dǎo)師也始終站在研究的最高點(diǎn)。而通過(guò)不斷的交流和指導(dǎo),學(xué)生能很快系統(tǒng)地了解相關(guān)領(lǐng)域的研究進(jìn)展,較早找到問(wèn)題的抓手,有興趣地開(kāi)展有意義的研究,往往容易產(chǎn)生創(chuàng)新型成果,包括理論和應(yīng)用性實(shí)驗(yàn)成果等,并能。
當(dāng)學(xué)生或?qū)熣J(rèn)識(shí)到某個(gè)研究點(diǎn)的價(jià)值所在時(shí),就會(huì)著力加以深入研究。如導(dǎo)師要求學(xué)生認(rèn)真閱讀研究后再來(lái)參加討論,甚至有時(shí)要求學(xué)生將討論內(nèi)容制成演示文檔講解,這樣他們對(duì)重要的概念和研究結(jié)果的掌握就會(huì)更加透徹,文獻(xiàn)跟蹤程度和研究思路水平就會(huì)得到提升。這種有意識(shí)的訓(xùn)練大大強(qiáng)于“散放式”的指導(dǎo)方式。
5良好的學(xué)術(shù)氛圍
學(xué)科建設(shè)和課程教學(xué)離不開(kāi)學(xué)術(shù)研究。在德雷克塞爾大學(xué),給人留下深刻印象的就是每個(gè)教授(正教授、副教授和助理教授)都將自己的研究方向和最新論文或成果以一幅畫(huà)的形式貼在工作室的外墻上,上面有個(gè)人簡(jiǎn)介、主要方法和結(jié)果說(shuō)明。這樣就打出了自己的招牌,便于他人了解自己。此外,每個(gè)教授甚至普通教師都在校園網(wǎng)上建有自己的主頁(yè),對(duì)自己的教學(xué)科研工作進(jìn)行介紹,并將研究論文、著作等目錄列在其中,便于與他人交流或溝通。教師也經(jīng)常根據(jù)教學(xué)內(nèi)容聯(lián)系國(guó)際國(guó)內(nèi)的專(zhuān)家做學(xué)術(shù)報(bào)告,始終用新知識(shí)武裝學(xué)生的頭腦。
重視營(yíng)造活躍的學(xué)術(shù)氛圍,并使學(xué)術(shù)交流制度化、經(jīng)常化,是我在美做訪問(wèn)學(xué)者期間感受最深的一點(diǎn)。每個(gè)系或?qū)W院基本上每周都舉辦1~2次學(xué)術(shù)研討會(huì),主講者有來(lái)自世界各地的專(zhuān)家教授,也有某個(gè)研究領(lǐng)域資深的校內(nèi)教師。每次學(xué)術(shù)研討會(huì)的時(shí)間大都定在中午12:30,12:00就開(kāi)始提供免費(fèi)的午餐。這樣既充分利用了時(shí)間,又解決了聽(tīng)報(bào)告者的午飯問(wèn)題,也通過(guò)免費(fèi)午餐吸引了不少聽(tīng)眾,特別是一些來(lái)自第三世界國(guó)家的“窮”留學(xué)生們。通過(guò)網(wǎng)上邀請(qǐng),大多數(shù)感興趣的學(xué)生甚至老師都會(huì)來(lái)參加研討會(huì),在這里了解一些最新的研究進(jìn)展和報(bào)告人的研究思路,并能與主講人交流自己的研究體會(huì),視野隨之開(kāi)闊,思想也隨之富有。有時(shí),一些大的跨國(guó)公司或政府部門(mén)(如安全部門(mén))的技術(shù)專(zhuān)家也被邀請(qǐng)來(lái)做專(zhuān)題報(bào)告,這樣學(xué)術(shù)交流的氛圍就比較活躍,研究工作也不會(huì)是一潭死水。
6結(jié)語(yǔ)
在美國(guó)德雷克塞爾大學(xué)訪問(wèn)進(jìn)修一年,我目睹了該大學(xué)在環(huán)境建設(shè)、教學(xué)科研等方面的好的做法,開(kāi)闊了視野?;貒?guó)后,我給我的學(xué)生們講解我的所見(jiàn)所聞,也給他們留下了深刻印象。這次進(jìn)修不僅使我在業(yè)務(wù)上得到進(jìn)一步修煉,也獲得了不少“精神財(cái)富”,如下所示:
(1) 抓實(shí)抓好教學(xué)工作的每個(gè)環(huán)節(jié),是高校教師的永恒主題。任何一個(gè)環(huán)節(jié),如教學(xué)方法、教學(xué)手段、實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)、主導(dǎo)學(xué)生學(xué)習(xí)、提出學(xué)習(xí)要求、組織討論答疑、批改作業(yè)等方面的提高,都會(huì)大大提高教學(xué)質(zhì)量和教學(xué)效率,取得事半功倍的效果。
(2) 指導(dǎo)學(xué)生方向和過(guò)程并重,確保處于研究前沿。指導(dǎo)學(xué)生,特別是碩、博士生的導(dǎo)師,不僅在一開(kāi)始就要幫助學(xué)生確定研究方向,而且要定期開(kāi)展學(xué)習(xí)檢查和交流活動(dòng),必要時(shí)還要為學(xué)生提供前沿性的研究論文或資料,以便將他們?cè)缛找龑?dǎo)到國(guó)際國(guó)內(nèi)的前沿陣地,保持在高新水平上從事研究工作,取得創(chuàng)新性的研究成果。
(3) 創(chuàng)造活躍的學(xué)術(shù)氛圍和良好的學(xué)習(xí)環(huán)境,是高校各級(jí)領(lǐng)導(dǎo)及教師的基本責(zé)任。只有將教師和學(xué)生置于始終向前的滾滾波濤中,教學(xué)和研究才會(huì)具有不可估量的創(chuàng)造力,才會(huì)在科學(xué)的道路上獲得可持續(xù)發(fā)展。
【中圖分類(lèi)號(hào)】G40-057【文獻(xiàn)標(biāo)識(shí)碼】A【論文編號(hào)】1009-8097(2015) 06-0089-07【DOI】10.3969/j.issn.1009-8097.2015.06.014
引言
2011年以來(lái),在美國(guó)頂尖大學(xué)中迅速發(fā)展起來(lái)并迅速影響世界的MOOC(大規(guī)模開(kāi)放在線課程)模式無(wú)疑給“在線學(xué)習(xí)”這一學(xué)習(xí)形式樹(shù)立了成功應(yīng)用的典范,該模式證明了只有當(dāng)大學(xué)的課程、課堂教學(xué)、學(xué)生學(xué)習(xí)進(jìn)程、學(xué)生體驗(yàn)、師生互動(dòng)過(guò)程等被完整、系統(tǒng)地在線實(shí)現(xiàn)…,特別是當(dāng)輔導(dǎo)教師的存在以及相關(guān)系統(tǒng)指導(dǎo)活動(dòng)實(shí)現(xiàn)時(shí),在線學(xué)習(xí)才是有效的。這從一個(gè)側(cè)面說(shuō)明,在線學(xué)習(xí)并不是純粹的學(xué)生自主學(xué)習(xí),還需要充分發(fā)揮輔導(dǎo)教師的主導(dǎo)作用。
在線學(xué)習(xí)模式下,師生活動(dòng)在時(shí)空上相對(duì)分離,盡管有同步教學(xué)活動(dòng)發(fā)生,但更多時(shí)候是異步教學(xué)活動(dòng),因?yàn)楫惒浇虒W(xué)更有助于滿足學(xué)習(xí)者的個(gè)性化學(xué)習(xí)需要。不同于課堂面授教學(xué),輔導(dǎo)教師難以把握一門(mén)在線課程學(xué)習(xí)者學(xué)習(xí)開(kāi)展情況的全貌。但是,通過(guò)在線學(xué)習(xí)平臺(tái)對(duì)學(xué)習(xí)過(guò)程的記錄,輔導(dǎo)教師了解課程的教學(xué)過(guò)程是可能的,而且基于學(xué)習(xí)過(guò)程記錄開(kāi)展在線教學(xué)的反思以不斷改進(jìn)在線教學(xué)這一做法也是必要的。一文獻(xiàn)探討
“教學(xué)反思”,顧名思義,反思對(duì)象就是教學(xué)過(guò)程,反思的基礎(chǔ)是對(duì)教學(xué)過(guò)程的忠實(shí)記錄。波斯納(Poser)將教師的成長(zhǎng)發(fā)展與其對(duì)自己經(jīng)驗(yàn)的反思結(jié)合起來(lái),提出了一個(gè)教師成長(zhǎng)的公式:經(jīng)驗(yàn)+反思=成長(zhǎng)。由此可見(jiàn)反思對(duì)教師成長(zhǎng)以及專(zhuān)業(yè)發(fā)展的重要性。
教學(xué)反思的方法是多樣的。王映學(xué)、趙興奎指出教學(xué)反思的途徑主要有錄像反思、日記反思、從學(xué)習(xí)者角度反思、與同事及專(zhuān)家的交流中反思以及通過(guò)向?qū)W生征詢(xún)意見(jiàn)反思。張大均將教師成長(zhǎng)的途徑從觀摩教學(xué)、微格教學(xué)、教學(xué)決策訓(xùn)練和教學(xué)反思幾個(gè)方面來(lái)說(shuō)明。俞國(guó)良等則將教師的反思訓(xùn)練列為錄像反思法、對(duì)話反思法和教學(xué)反思法。從上述方法中可以看到,教學(xué)反思的基礎(chǔ)是對(duì)教學(xué)過(guò)程的忠實(shí)記錄。在“日記反思法”中,第一步就是對(duì)教學(xué)中包含問(wèn)題的教學(xué)事件進(jìn)行詳細(xì)、忠實(shí)的描述。在“從學(xué)習(xí)者角度反思”中,第一步就是“簡(jiǎn)要記下學(xué)習(xí)發(fā)生的時(shí)間、場(chǎng)合、涉及的學(xué)習(xí)內(nèi)容和培訓(xùn)(講授或主持)人員”。在微格教學(xué)法中,則通過(guò)錄像設(shè)備記錄教學(xué)全過(guò)程。
在信息化網(wǎng)絡(luò)時(shí)代,教師可以利用現(xiàn)代教育技術(shù)手段來(lái)實(shí)現(xiàn)教學(xué)過(guò)程的忠實(shí)記錄,進(jìn)行有效的教學(xué)反思,從而更好地促進(jìn)自身的專(zhuān)業(yè)發(fā)展。各種新的網(wǎng)絡(luò)技術(shù)工具給我們的生活帶來(lái)了新的便利,同時(shí)也為教師提供了新的教學(xué)反思工具。近年來(lái)興起的學(xué)習(xí)分析技術(shù)可以成為教師開(kāi)展在線教學(xué)反思的有力工具。學(xué)習(xí)分析技術(shù)是對(duì)學(xué)生生成的海量數(shù)據(jù)進(jìn)行解釋和分析,以評(píng)估學(xué)生的學(xué)術(shù)進(jìn)展,預(yù)測(cè)未來(lái)的表現(xiàn),并發(fā)現(xiàn)潛在的問(wèn)題。對(duì)教師而言,學(xué)習(xí)分析技術(shù)可用來(lái)開(kāi)展更為深入的教學(xué)分析,以便教師在數(shù)據(jù)分析的基礎(chǔ)上為學(xué)生提供更有針對(duì)性的教學(xué)干預(yù)。在線學(xué)習(xí)中,在線學(xué)習(xí)平臺(tái)詳細(xì)記錄了師生行為,猶如課堂教學(xué)錄像。借助學(xué)習(xí)分析技術(shù),分析師生行為記錄數(shù)據(jù),可以再現(xiàn)在線學(xué)習(xí)過(guò)程,使教師能夠把握在線教學(xué)過(guò)程全貌,并了解每個(gè)教學(xué)環(huán)節(jié)、重要教學(xué)活動(dòng)以及每個(gè)學(xué)生的種種細(xì)節(jié),使原本模糊的印象數(shù)字化、清晰化,輔助教師反思其在教學(xué)設(shè)計(jì)、資源制作、學(xué)習(xí)引導(dǎo)、學(xué)習(xí)評(píng)價(jià)等方面的可取之處與不足之處。
因此,本文選取基于Moodle平臺(tái)的在線課程為樣本,應(yīng)用學(xué)習(xí)分析技術(shù),具體包括話語(yǔ)分析、社會(huì)網(wǎng)絡(luò)分析等分析技術(shù),統(tǒng)計(jì)分析與可視化、聚類(lèi)、預(yù)測(cè)、關(guān)系挖掘、文本挖掘等數(shù)據(jù)挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分詞系統(tǒng)等工具,從一位輔導(dǎo)教師的視角,開(kāi)展基于學(xué)習(xí)過(guò)程記錄的在線教學(xué)反思研究,探索一種全新的教學(xué)反思形式。
二 研究樣本
本文選取國(guó)家開(kāi)放大學(xué)主辦的網(wǎng)絡(luò)教育從業(yè)人員培訓(xùn)班為研究對(duì)象。該培訓(xùn)班依托Moodle平臺(tái)開(kāi)設(shè)(網(wǎng)址:http://),有“學(xué)生支持服務(wù)”、“在線學(xué)習(xí)輔導(dǎo)”和“在線課程設(shè)計(jì)”三門(mén)課,每門(mén)課的培訓(xùn)時(shí)間為6周,學(xué)生通過(guò)Moodle平臺(tái)開(kāi)展在線學(xué)習(xí),輔導(dǎo)教師提供全程的在線輔導(dǎo)。本文具體選擇“在線學(xué)習(xí)輔導(dǎo)”課程第五期培訓(xùn)班作為研究樣本。
三 數(shù)據(jù)分析與培訓(xùn)反思
1 重溫整個(gè)教學(xué)過(guò)程――師生群體平臺(tái)訪問(wèn)行為分析
通過(guò)對(duì)平臺(tái)模塊訪問(wèn)、模塊訪問(wèn)序列以及師生活動(dòng)時(shí)間分布情況的分析,重新回顧教學(xué)過(guò)程,并對(duì)一些突出的數(shù)據(jù)表現(xiàn)加以解讀,使原本時(shí)空分離的師生活動(dòng)再度整合,還原輔導(dǎo)教師的教學(xué)過(guò)程與學(xué)生學(xué)習(xí)過(guò)程的原貌。
(1)平臺(tái)模塊訪問(wèn)總體情況
表l是該期培訓(xùn)過(guò)程中,師生訪問(wèn)Moodle平臺(tái)各模塊的頻次統(tǒng)計(jì)結(jié)果。
從統(tǒng)計(jì)結(jié)果可知,師生最常訪問(wèn)的模塊是“forum”,占總活動(dòng)頻次的近50%,說(shuō)明課堂討論是最主要的學(xué)習(xí)活動(dòng),也是這門(mén)基于討論的探究式課程學(xué)習(xí)的突出特點(diǎn)。其次就是“wiki”、“resource”和“assignment”三類(lèi)行為。這三類(lèi)行為的頻次和比例較為平均,是位列“Forum”之后的重要學(xué)習(xí)活動(dòng)。在討論的基礎(chǔ)上,課程設(shè)計(jì)中的“wiki”其實(shí)是為了給學(xué)生協(xié)作式小組學(xué)習(xí)的機(jī)會(huì),是除“forum”外學(xué)生之間重要的交互空間。“resource”(瀏覽資源)是學(xué)習(xí)內(nèi)容重要的組成部分,在此基礎(chǔ)上參加討論和wiki協(xié)作學(xué)習(xí),最終的學(xué)習(xí)成果以“assignment”(小論文、大論文)的形式呈現(xiàn)。這幾個(gè)模塊的頻次和比例分配較為合理,較好地還原了教學(xué)過(guò)程。
(2)平臺(tái)模塊訪問(wèn)序列分析
我們已經(jīng)了解了不同模塊的訪問(wèn)頻次,下面我們?cè)賮?lái)了解一些師生訪問(wèn)平臺(tái)模塊的路徑。
這里采用Microsoft順序分析和聚類(lèi)分析算法,數(shù)據(jù)來(lái)源則是用戶(hù)每天瀏覽課程頁(yè)面產(chǎn)生的過(guò)程數(shù)據(jù)。筆者選取5個(gè)頻繁訪問(wèn)模塊包括forum、wiki、assignment,resource和user(course除外,因?yàn)樵谠撃K主要發(fā)生登錄行為,并沒(méi)有實(shí)際的學(xué)習(xí)行為)的數(shù)據(jù)來(lái)分析模塊訪問(wèn)序列,得到如圖l所示結(jié)果。由圖l可知,從user、resource、assignment、wiki四個(gè)模塊跳轉(zhuǎn)到forum的條件概率均比較高(分別為0.40、0.32、0.26、0.16),可見(jiàn)forum是一個(gè)活動(dòng)中心模塊,也是一個(gè)重要的活動(dòng)中介模塊,諸如resource、assignment、wiki等活動(dòng)可以從中再次啟動(dòng)。而在由forum跳轉(zhuǎn)到其他模塊的情形中,forumresource的轉(zhuǎn)換組合的發(fā)生概率是最高的,達(dá)到0.06。在發(fā)帖參與討論的過(guò)程中,發(fā)現(xiàn)問(wèn)題、深入思考再繼續(xù)學(xué)習(xí)相關(guān)資源,這符合學(xué)習(xí)常規(guī),也形成了討論帶動(dòng)資源的學(xué)習(xí)兩者之間的良性互動(dòng),從而實(shí)現(xiàn)深度學(xué)習(xí)和反思。另外,resource模塊對(duì)其他模塊的支撐作用還表現(xiàn)為assignmentresource,這一條件概率達(dá)到0.13,即學(xué)生在做作業(yè)的過(guò)程中要求助于資源模塊,這也是符合學(xué)習(xí)常規(guī)的。
(3)不同時(shí)期各模塊訪問(wèn)特點(diǎn)
接下來(lái)結(jié)合時(shí)間維度,了解不同時(shí)期平臺(tái)各模塊訪問(wèn)特點(diǎn),以了解不同時(shí)期師生關(guān)注重點(diǎn)的變化。計(jì)算出本期培訓(xùn)不同周此平臺(tái)模塊訪問(wèn)頻次分布情況,并繪制師生在主要學(xué)習(xí)模塊的活動(dòng)頻次占比隨時(shí)間分布的折線圖,得到如圖2所示結(jié)果。
從圖2可以看出,除高頻訪問(wèn)模塊forum外,在正式學(xué)習(xí)開(kāi)始前兩周及第1周,學(xué)生的訪問(wèn)重點(diǎn)user模塊和resource模塊反映出學(xué)生在熟悉人和內(nèi)容。這啟示我們,在網(wǎng)絡(luò)課程開(kāi)始之前,輔導(dǎo)教師可能需要提前兩到三周就介入課程的學(xué)習(xí),實(shí)時(shí)跟蹤學(xué)習(xí)進(jìn)程,為他們提供相應(yīng)的服務(wù)來(lái)進(jìn)行預(yù)熱,這對(duì)于后面課程學(xué)習(xí)的順利發(fā)展和學(xué)生積極性的保持都很有幫助。進(jìn)入第2周,開(kāi)始主要的學(xué)習(xí)活動(dòng),主要模塊則是wiki以及forum。到第3周,wiki活動(dòng)達(dá)到頂峰一一第3周出現(xiàn)本課程第一次wiki協(xié)作式小組學(xué)習(xí)活動(dòng),所以這時(shí)達(dá)到頂峰是正常的;另外,這些學(xué)生從沒(méi)有接觸過(guò)基于wiki的小組寫(xiě)作式學(xué)習(xí),所以他們有很強(qiáng)的好奇心和強(qiáng)烈的興趣參與。到第4周,assignment活動(dòng)達(dá)到頂峰。這實(shí)際上是學(xué)生提交的第3周布置的assignment(小論文),這是本課程第一次提交assignment;課程結(jié)束后的三周,assignment模塊的活動(dòng)逐漸增強(qiáng),伴隨著resource模塊活動(dòng)的增強(qiáng),forum活動(dòng)相對(duì)減弱,進(jìn)入做作業(yè)(撰寫(xiě)大論文)的狀態(tài)。
2 聚焦重點(diǎn)教學(xué)活動(dòng)一一師生論壇交互分析
師生在論壇的討論發(fā)言是本課程的一項(xiàng)重點(diǎn)教學(xué)活動(dòng)。通過(guò)這一活動(dòng),相關(guān)教學(xué)信息得以傳遞,各種其他教學(xué)活動(dòng)得以依次展開(kāi),課程知識(shí)也在這里不斷呈現(xiàn),支持服務(wù)也在這里相繼給出。
(1)師生交互的數(shù)量與內(nèi)容
該課程討論活動(dòng)在6個(gè)學(xué)習(xí)單元分散展開(kāi),本期培訓(xùn)班發(fā)帖數(shù)量累計(jì)743個(gè),如表2所示。由表2可知,輔導(dǎo)教師的發(fā)帖量基本呈緩慢下降的趨勢(shì)。從該趨勢(shì)我們可以看到,在第1周“學(xué)習(xí)指南”和第2周“第一單元:什么是在線輔導(dǎo)?”兩周的教學(xué)中,由于是在線教學(xué)的開(kāi)始階段,輔導(dǎo)教師需要更多地引導(dǎo)學(xué)生進(jìn)行討論,投入相對(duì)更多的時(shí)間。從第3周開(kāi)始,數(shù)據(jù)顯示,輔導(dǎo)教師的發(fā)帖量開(kāi)始有所減少,從將近50%的比例下降到40%左右。這是因?yàn)?,?jīng)過(guò)前兩周的學(xué)習(xí),由于輔導(dǎo)教師的有效引導(dǎo),學(xué)生保持了較高的積極性,效果明顯。從第3周開(kāi)始,輔導(dǎo)教師有意減少了發(fā)帖的量,注意留給學(xué)生更多的時(shí)間思考并參與討論,這時(shí)候?qū)W生明顯上升到了討論的主角這一角色,這說(shuō)明輔導(dǎo)教師對(duì)于討論的把握和控制比較成功。
(2)師生交互發(fā)帖的內(nèi)容
作者采用傅騫、魏順平等研發(fā)的術(shù)語(yǔ)提取算法從所發(fā)帖子中提取了約240個(gè)術(shù)語(yǔ),如表3所示。這些術(shù)語(yǔ)的出現(xiàn)頻次為4909次(其中輔導(dǎo)教師使用976次,約占20%);在481個(gè)帖子中出現(xiàn)(其中教師帖為204個(gè)),占帖子總數(shù)的65%。從另外一個(gè)角度說(shuō),有1/3左右的帖子沒(méi)有出現(xiàn)任何術(shù)語(yǔ)。由此可見(jiàn),論壇的主要功能是開(kāi)展課程知識(shí)討論,次要功能則是激發(fā)并維持學(xué)生的學(xué)習(xí)動(dòng)機(jī),引導(dǎo)、鼓勵(lì)學(xué)生不斷參加學(xué)習(xí)。
在前10位術(shù)語(yǔ)中,“輔導(dǎo)”出現(xiàn)了3次,“在線(遠(yuǎn)程)”出現(xiàn)了4次,這比較好地體現(xiàn)了本課程的特點(diǎn),即在線學(xué)習(xí)輔導(dǎo)。而排在前兩位的是“輔導(dǎo)教師”和“電大”,這更能說(shuō)明這次培訓(xùn)的內(nèi)容和對(duì)象的特點(diǎn)。無(wú)一例外,本次培訓(xùn)的對(duì)象全部來(lái)自電大系統(tǒng),所以他們對(duì)本系統(tǒng)是最關(guān)注的,另外他們對(duì)如何做好“輔導(dǎo)教師”也是最關(guān)心的,所以他們選擇了這門(mén)課。從這些術(shù)語(yǔ)可以看出,本期的討論比較成功,課程的設(shè)計(jì)也比較合理,能夠滿足學(xué)生的需求。
接著,作者對(duì)各單元使用的普通詞匯(包括動(dòng)詞和名詞等實(shí)詞,不含虛詞,不含術(shù)語(yǔ))使用頻次進(jìn)行統(tǒng)計(jì),以體現(xiàn)輔導(dǎo)教師的語(yǔ)言藝術(shù)和輔導(dǎo)特色。其中使用頻次排名前十的普通詞匯分別是“同學(xué)、加油、學(xué)生、謝謝、可以、學(xué)習(xí)、問(wèn)題、課程、研究、討論”?!凹佑汀焙汀爸x謝”這兩個(gè)詞的大量使用反映了輔導(dǎo)教師為學(xué)生提供的情感支持。輔導(dǎo)教師時(shí)時(shí)刻刻不忘鼓勵(lì)、支持任何一位學(xué)生的發(fā)言和進(jìn)步,處處對(duì)他們的討論表示感謝,無(wú)論發(fā)言是否精彩,無(wú)論對(duì)他們的觀點(diǎn)是否贊同,都通過(guò)“加油”和“謝謝”表示感謝。
(3)師生交互的動(dòng)態(tài)過(guò)程與靜態(tài)結(jié)構(gòu)
我們從師生交互發(fā)帖時(shí)間分布以及師生交互網(wǎng)絡(luò)分析來(lái)了解師生交互的動(dòng)態(tài)過(guò)程與靜態(tài)結(jié)構(gòu)。本培訓(xùn)課程設(shè)有6個(gè)單元外加大論文指導(dǎo)環(huán)節(jié)(實(shí)際上是7個(gè)單元),計(jì)劃教學(xué)時(shí)間是6周,一個(gè)單元用時(shí)一周。理想情況下,學(xué)生應(yīng)該在規(guī)定的學(xué)習(xí)時(shí)間內(nèi)完成相應(yīng)單元的活動(dòng),但事實(shí)并非如此。以每個(gè)單元的“話題討論”為例,某個(gè)單元的話題往往要持續(xù)3周才會(huì)真正結(jié)束。各單元討論活動(dòng)隨時(shí)間分布情況如表4所示。
表4中帶*號(hào)的數(shù)字部分是在單元規(guī)定學(xué)習(xí)時(shí)間內(nèi)的發(fā)帖數(shù)量,但是每個(gè)單元在規(guī)定學(xué)習(xí)時(shí)間后,在隨后的2至3周還陸續(xù)有帖子發(fā)出來(lái)。于是從第3單元開(kāi)始,將會(huì)有3個(gè)單元的活動(dòng)疊加在一起。出現(xiàn)這種疊加現(xiàn)象,可能較大程度上是由工學(xué)矛盾造成的。學(xué)生不能及時(shí)完成本周的學(xué)習(xí)活動(dòng),所以會(huì)往后拖延。其實(shí),從學(xué)生的角度是可以理解的,這也要求我們的在線教學(xué)要有一定的靈活性。同時(shí),也恰恰是在第3周開(kāi)始出現(xiàn)第一個(gè)assgignment(小論文),學(xué)生的負(fù)擔(dān)開(kāi)始加重。正是當(dāng)“新債舊債”交織在一起的時(shí)候,出現(xiàn)了連鎖式疊加的現(xiàn)象。當(dāng)然,這種現(xiàn)象也會(huì)無(wú)形中增加輔導(dǎo)教師的負(fù)擔(dān)。
根據(jù)輔導(dǎo)教師和學(xué)生發(fā)帖、回帖的關(guān)系,借助UCINET社會(huì)網(wǎng)絡(luò)分析工具,可繪制師生交互網(wǎng)絡(luò)圖,如圖3所示。從圖3可以看出,所有24個(gè)成員(包括輔導(dǎo)教師,如圖中編號(hào)為68的正方形節(jié)點(diǎn))均在一個(gè)網(wǎng)絡(luò)中,不存在孤立的成員。
中圖分類(lèi)號(hào):R058 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2016)03-0094-03
一、引言
伴隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)資源的承載形式、數(shù)量與類(lèi)型都發(fā)生了巨大的變化,大數(shù)據(jù)同過(guò)去的海量數(shù)據(jù)有所不同,其基本特征可以用4個(gè)V來(lái)概括(Volume、Variety、Value和Velocity),即體量大、多樣性、價(jià)值密度低、速度快。大數(shù)據(jù)技術(shù)是從各種各樣類(lèi)型的巨量數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù),解決大數(shù)據(jù)問(wèn)題的核心是大數(shù)據(jù)技術(shù)。“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析處理系統(tǒng)。大數(shù)據(jù)最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的、深入的、有價(jià)值的信息,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,是決定最終信息是否有價(jià)值的決定性因素?;诖髷?shù)據(jù)的特點(diǎn),大數(shù)據(jù)分析存在的方法理論通常包括如下幾個(gè)方面,如圖1所示。大數(shù)據(jù)時(shí)代獲取價(jià)值信息的難度增大,因此,對(duì)圖書(shū)館館員的專(zhuān)業(yè)級(jí)信息素質(zhì)提出了更高的要求,館員需要學(xué)習(xí)和掌握數(shù)據(jù)采集、資源組織、統(tǒng)計(jì)分析和數(shù)據(jù)挖掘等多種大數(shù)據(jù)知識(shí)與技術(shù),以便能為讀者提供高質(zhì)量的信息服務(wù)和知識(shí)服務(wù)。信息素質(zhì)(Information Literacy),是指明確信息需求、選擇信息源、檢索信息、分析信息、綜合信息、評(píng)估信息、利用信息的能力。信息素質(zhì)的內(nèi)涵包括4個(gè)方面――信息意識(shí)、信息能力、信息道德和終身學(xué)習(xí)的能力。信息素質(zhì)是1974年由美國(guó)信息工業(yè)協(xié)會(huì)的會(huì)長(zhǎng)Paul Zurkowski首先提出的,發(fā)展到今天,最為廣泛性的解釋是作為具有信息素質(zhì)的人,必須具有一種能夠充分認(rèn)識(shí)到何時(shí)需要信息,并且有能力有效地發(fā)現(xiàn)、檢索、評(píng)價(jià)和利用所需要的信息,解決當(dāng)前存在問(wèn)題的能力。
二、平臺(tái)架構(gòu)方案
本平臺(tái)基于B/S模型,采用+SQL Server +IIS技術(shù)方案,充分結(jié)合主流的多層平臺(tái)架構(gòu)技術(shù),具備分布式、并發(fā)事務(wù)處理等能力,平臺(tái)架構(gòu)模型如圖2所示,客戶(hù)端使用瀏覽器形式,因而不需要安裝特殊的客戶(hù)端軟件,使平臺(tái)在易用性、管理及運(yùn)行等方面變得更為簡(jiǎn)單、便捷,同時(shí),平臺(tái)亦具有良好的可靠性、適應(yīng)性和可移植性等特點(diǎn)。
三、平臺(tái)功能模塊構(gòu)成
本平臺(tái)主要包括課程管理、測(cè)試管理、在線討論與留言管理、專(zhuān)家講座和用戶(hù)管理等5個(gè)主功能模塊,其中各功能模塊又下設(shè)多個(gè)子功能模塊,平臺(tái)功能結(jié)構(gòu)如圖3所示:
(1)課程管理模塊:是平臺(tái)的核心功能模塊,包括課程管理、課件及資源下載、數(shù)據(jù)挖掘技術(shù)與工具、案例分析管理、多媒體視頻管理和常用術(shù)語(yǔ)等6個(gè)子功能。課程管理模塊使館員在有限的時(shí)間內(nèi),能自主地學(xué)習(xí)信息素質(zhì)的基本知識(shí),學(xué)會(huì)信息技術(shù),提高信息服務(wù)能力。
課程管理模塊主要完成課程的展示、上傳、下載、修改、視頻在線實(shí)時(shí)點(diǎn)播和點(diǎn)擊量統(tǒng)計(jì)等任務(wù)。信息素質(zhì)課程包括:數(shù)據(jù)采集、數(shù)據(jù)存取、基礎(chǔ)架構(gòu)、數(shù)據(jù)處理、統(tǒng)計(jì)分析(差異分析、相關(guān)分析、T檢驗(yàn)、偏相關(guān)分析、距離分析、回歸分析、曲線估計(jì)、因子分析、聚類(lèi)分析、快速聚類(lèi)法與聚類(lèi)法、判別分析、多元對(duì)應(yīng)分析或叫“最優(yōu)尺度分析”、Bootstrap技術(shù)等)、數(shù)據(jù)挖掘(分類(lèi)Classification、估計(jì)Estimation、預(yù)測(cè)Prediction、相關(guān)性分組或關(guān)聯(lián)規(guī)則Affinity Grouping or Association Rules、聚類(lèi)Clustering、描述和可視化Description and Visualization)、復(fù)雜數(shù)據(jù)類(lèi)型挖掘(Text、圖形圖像、視頻、音頻等)、模型預(yù)測(cè)、結(jié)果呈現(xiàn)(云計(jì)算、標(biāo)簽云、關(guān)系圖)等類(lèi)型。
課件及資源下載功能主要完成課程課件、教材、參考文獻(xiàn)和教學(xué)大綱等資源的顯示、上傳、下載等操作,模塊中集成了大量的培訓(xùn)課程課件、數(shù)據(jù)庫(kù)的培訓(xùn)課件以及第三方的培訓(xùn)課件。
檢索知識(shí)與檢索技巧模塊主要包括檢索技術(shù)等相關(guān)文章的展示、上傳、下載和更新等任務(wù)。
案例分析管理主要完成典型案例的顯示、增加、修改、刪除和查詢(xún)等操作。
多媒體視頻管理包括教學(xué)視頻和專(zhuān)家講座視頻兩部分,平臺(tái)所支持的培訓(xùn)視頻格式為.avi、.mp4、.flv和.rm等。
常用術(shù)語(yǔ)模塊包括各種信息知識(shí)和技術(shù)概念、重要人物、專(zhuān)有名詞、組織機(jī)構(gòu)名稱(chēng)縮寫(xiě)以及英文對(duì)照等信息,館員可以利用術(shù)語(yǔ)表更順暢地進(jìn)行學(xué)習(xí)。
(2)測(cè)試管理模塊:包括仿真練習(xí)和在線自我測(cè)試2個(gè)功能,用于館員對(duì)所學(xué)的信息知識(shí)和技術(shù)等進(jìn)行課程復(fù)習(xí)、內(nèi)容鞏固、知識(shí)擴(kuò)展及自我測(cè)試;有助于館員了解自己信息素質(zhì)的實(shí)際水平,并有針對(duì)性地專(zhuān)門(mén)強(qiáng)化某方面能力。
(3)留言、咨詢(xún)管理模塊:該模塊開(kāi)拓了館員與教師之間進(jìn)行交流的虛擬空間,通過(guò)該功能雙方可以通過(guò)同步或異步交流方式,實(shí)現(xiàn)信息交換和信息共享,是館員完成自主學(xué)習(xí)不可或缺的環(huán)節(jié)。
(4)專(zhuān)家講座模塊:模塊完成講座視頻的上傳、下載和播放等功能,講座主要包括數(shù)據(jù)庫(kù)的使用、檢索挖掘工具使用,專(zhuān)家講座有利于館員增加對(duì)熱點(diǎn)知識(shí)、前沿知識(shí)、處理技術(shù)及技巧的學(xué)習(xí)與掌握。
(5)用戶(hù)管理模塊:主要完成用戶(hù)的登錄管理、新用戶(hù)的注冊(cè)和密碼找回等功能。平臺(tái)中的用戶(hù)被分為館員、教師、專(zhuān)家和系統(tǒng)管理員四種類(lèi)型,每種類(lèi)型的用戶(hù)都具有不同的權(quán)限,查看、管理不同的功能模塊及其子模塊。平臺(tái)中的密碼均以密文形式保存,加強(qiáng)了平臺(tái)的安全性保障。
四、平臺(tái)核心模塊的實(shí)現(xiàn)
圖書(shū)館館員信息素質(zhì)教育服務(wù)平臺(tái)的前臺(tái)主界面,如圖4所示,后臺(tái)管理界面如圖5所示。
課程管理模塊的實(shí)現(xiàn):主要實(shí)現(xiàn)了課程和相關(guān)視頻的查看、上傳、下載、課程評(píng)價(jià)和點(diǎn)擊量統(tǒng)計(jì)等功能。這部分內(nèi)容是經(jīng)過(guò)精心設(shè)計(jì)、安排的,不但包括管理學(xué)的內(nèi)容,例如管理學(xué)的經(jīng)典案例分析、決策、預(yù)算、控制等課程內(nèi)容,還包括信息檢索、重組、評(píng)價(jià)與利用等內(nèi)容,主要培訓(xùn)課程包括信息素質(zhì)概論、信息檢索、數(shù)據(jù)挖掘、信息資源和信息評(píng)價(jià)與利用、大數(shù)據(jù)技術(shù)等,還包括如何查找期刊的影響因子,如何查找哪些期刊被SCI收錄,科技文獻(xiàn)類(lèi)型有哪些、如何識(shí)別,如何查找哪些期刊被EI收錄,如何查找論文被引用的情況,如何查找各學(xué)科核心機(jī)構(gòu)、科學(xué)家和研究熱點(diǎn),如何查找全球?qū)W者信息,如何定期獲取所需某種期刊的目次信息,如何利用網(wǎng)絡(luò)學(xué)術(shù)交流平臺(tái)等檢索技術(shù)。前臺(tái)課程信息展示列表如圖6所示。
留言、咨詢(xún)管理功能模塊的實(shí)現(xiàn):該功能是平臺(tái)的主要功能之一,實(shí)現(xiàn)了教師或?qū)<遗c館員之間的答疑、討論等任務(wù),通過(guò)該功能教師與館員能夠進(jìn)行一對(duì)一的溝通與交流,同時(shí)該模塊還具有歷史記錄的增加、刪除、修改和查詢(xún)等操作功能。留言管理功能的留言板窗口如圖7所示:
五、平臺(tái)應(yīng)用分析
信息素質(zhì)教育服務(wù)平臺(tái)已成功進(jìn)行相關(guān)系統(tǒng)測(cè)試,已與部署完成,運(yùn)行狀況穩(wěn)定,平臺(tái)性能表現(xiàn)良好。平臺(tái)的構(gòu)建與應(yīng)用給圖書(shū)館館員在信息服務(wù)工作中帶來(lái)了如下幾方面的益處:
(1)平臺(tái)的應(yīng)用使圖書(shū)館館員學(xué)會(huì)了在大數(shù)據(jù)時(shí)代如何獲得各種各樣的信息源、如何有效地管理各種信息。
(2)平臺(tái)的應(yīng)用使館員掌握了信息檢索的技巧與策略、信息倫理與科學(xué)道德等知識(shí)。
(3)平臺(tái)的應(yīng)用提升了館員對(duì)信息的整體認(rèn)知,拓寬了館員學(xué)習(xí)信息知識(shí)和技術(shù)的渠道,是集中信息素質(zhì)教育培訓(xùn)的有力補(bǔ)充。
(4)平臺(tái)的應(yīng)用節(jié)省了館員學(xué)習(xí)的成本,突破了集中培訓(xùn)的地域空間與時(shí)間上的限制,館員可以通過(guò)手機(jī)、電腦等終端設(shè)備進(jìn)行自主學(xué)習(xí),有效地提升了館員的信息素質(zhì)。
(5)平臺(tái)的應(yīng)用也方便了培訓(xùn)課程、講座等信息的管理、查詢(xún)、統(tǒng)計(jì)和分析等工作。
六、結(jié)束語(yǔ)
圖書(shū)館館員信息素質(zhì)教育服務(wù)平臺(tái)是集信息檢索知識(shí)及技巧、文獻(xiàn)寫(xiě)作、信息能力自測(cè)、信息交流答疑于一體的信息服務(wù)空間。通過(guò)系統(tǒng)化的教學(xué)指導(dǎo)、大量的案例及講座視頻等讓館員學(xué)會(huì)專(zhuān)業(yè)級(jí)的信息檢索、采集、預(yù)處理,統(tǒng)計(jì)和分析、數(shù)據(jù)挖掘等大數(shù)據(jù)技術(shù),以提高自身的信息素質(zhì)、提升信息服務(wù)能力與水平。
參考文獻(xiàn):
[1]黃麗霞,蔣永福,傅榮賢.基于新建構(gòu)主義的高校信息素質(zhì)教育模式研究[J].圖書(shū)情報(bào)工作,2014(7):35-39.
[2]崔雷,劉偉,閆雷,張晗,侯躍芳,黃瑩娜,張浩.文獻(xiàn)數(shù)據(jù)庫(kù)中書(shū)目信息共現(xiàn)挖掘系統(tǒng)的開(kāi)發(fā)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008(8):70-75.
[3]梁作明,張悅?cè)?大數(shù)據(jù)背景下高校圖書(shū)館的應(yīng)對(duì)策略[J].中國(guó)管理信息化,2014(23):108-109.