中文字幕日韩人妻|人人草人人草97|看一二三区毛片网|日韩av无码高清|阿v 国产 三区|欧洲视频1久久久|久久精品影院日日

數(shù)據(jù)挖掘的聚類分析算法研究

發(fā)布時間:2023-03-31 08:39:16

序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]一篇數(shù)據(jù)挖掘的聚類分析算法研究范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

數(shù)據(jù)挖掘的聚類分析算法研究

引言:“以學(xué)生為中心”是當下教育環(huán)境所產(chǎn)生的一種新式教育理念,這種理念的目的與傳統(tǒng)教育的目的不一樣,不再是“老師教,學(xué)生聽”,而是“老師引導(dǎo),學(xué)生實踐與創(chuàng)新”,更加注重學(xué)生的實踐能力與創(chuàng)新能力,以適應(yīng)未來所需要的能力結(jié)構(gòu),并具備足夠的競爭力.該教育理念在實踐中有三個基本點:

1)讓學(xué)生具備自主學(xué)習(xí)能力與語言組織能力;

2)讓學(xué)生擁有綜合知識應(yīng)用能力與團隊協(xié)作能力;

3)以學(xué)生需求為出發(fā)點,讓學(xué)生擁有創(chuàng)新能力.學(xué)生之間是有差異性的,制定的指標需要剛?cè)岵?,除了統(tǒng)一指標的達成外,還需要根據(jù)具體的學(xué)生進行制定相應(yīng)的達成指標,也就是我們所說的因材施教,而且社會需要的是多樣化的人才,這樣教學(xué)上就需要多種方式相結(jié)合,培養(yǎng)出高素質(zhì)復(fù)合型的人才.基于“以學(xué)生為中心”的教育理念,在人工智能和互聯(lián)網(wǎng)的高速發(fā)展下,又誕生了智能教育的理念,旨在用互聯(lián)網(wǎng)和人工智能輔助教學(xué),讓學(xué)生學(xué)習(xí)不再局限于傳統(tǒng)的課堂.在智能教育提出后,太原師范學(xué)院緊跟時代發(fā)展形勢,與京東(山西)數(shù)字經(jīng)濟產(chǎn)業(yè)園、科大訊飛股份有限公司等企業(yè)合作創(chuàng)立智能教育產(chǎn)業(yè)學(xué)院.目的是采集、處理和分析教育數(shù)據(jù),為政府相關(guān)部門提供決策依據(jù),服務(wù)地方教育.采集和處理后的數(shù)據(jù)量非常龐大,如何更高效地分析數(shù)據(jù)成為了一大難點,為了更好地解決分析數(shù)據(jù)這一難點,選取了數(shù)據(jù)挖掘領(lǐng)域中的聚類分析算法進行數(shù)據(jù)分析.聚類分析算法屬于機器學(xué)習(xí)算法中無監(jiān)督學(xué)習(xí)算法的一種,與監(jiān)督學(xué)習(xí)算法不同的是,在無監(jiān)督學(xué)習(xí)算法中,數(shù)據(jù)是沒有標簽的,數(shù)據(jù)只擁有一系列的特征值,例如,在二維坐標系中表示的就是一些離散的點,如圖1[1].在無監(jiān)督學(xué)習(xí)中,需要將一系列未標記的數(shù)據(jù)輸入到算法中,然后告訴算法在結(jié)構(gòu)或分布上找到數(shù)據(jù)的內(nèi)部規(guī)律.比如在圖1中,有一種算法將上面的數(shù)據(jù)點有效分成3類,那么這個算法就是聚類分析算法.

1問題的提出

隨著中國的高速發(fā)展,現(xiàn)在的高校學(xué)生在校生活越來越豐富,尤其是互聯(lián)網(wǎng)已經(jīng)占據(jù)了高校學(xué)生在校生活的大部分,比如購物、游戲、網(wǎng)上學(xué)習(xí)、觀影、聊天等等.為了能夠更好地觀察當下高校學(xué)生在校上網(wǎng)行為對成績的影響,采集了太原師范學(xué)院2020級計算機科學(xué)與技術(shù)學(xué)院學(xué)生的相關(guān)數(shù)據(jù)進行分析.在大量數(shù)據(jù)中進行手工分析顯然是低效的.為了有效地解決這個問題,數(shù)據(jù)挖掘技術(shù)中的聚類分析及其算法已經(jīng)在實踐中展現(xiàn)了其重要的效用.通過對聚類分析及其相關(guān)算法特性的簡要論述,從多個方面系統(tǒng)地比較了當前這些聚類分析算法的特點和優(yōu)缺點,然后基于高校學(xué)生在校上網(wǎng)行為的數(shù)據(jù),將改進的k-means算法應(yīng)用于聚類分析軟件SPSS中分析高校學(xué)生上網(wǎng)行為對成績的影響.

2聚類算法分析

聚類分析是一種直接比較各種事物屬性的分析方法.其中,具有相似性質(zhì)的事物歸屬為相同屬性的類別,差異性較大的事物歸屬為不同屬性的類別.在學(xué)生產(chǎn)出的數(shù)據(jù)實踐應(yīng)用中,像是學(xué)生成績分析,經(jīng)常還需要對學(xué)生做分類判斷的工作.例如,需要根據(jù)每個學(xué)生的單科成績分布情況、專業(yè)成績分布情況和整體成績分布情況進行問題反饋和學(xué)習(xí)指導(dǎo)建議等等;或者制定一系列的疏導(dǎo)建議和應(yīng)對措施,將其分為適用于心理問題輕微的、適用于心理問題較重的和適用于心理問題嚴重的疏導(dǎo)建議和應(yīng)對措施.多年來,聚類算法得到了廣泛的研究和應(yīng)用,誕生了不少聚類分析算法的工具,在各種統(tǒng)計和分析的系統(tǒng)中也集成了這些工具,例如,S-Plus、SPSS和SAS.聚類分析算法根據(jù)使用方法大體上分為五大類:1)劃分方法(Partitioning?。停澹簦瑁铮洌螅ㄟ^獲取一個有n個數(shù)據(jù)的對象集行,將這個數(shù)據(jù)對象集行劃分為k個子簇,每個子簇代表一個類(k≤n).此外,這k個子分組應(yīng)滿足兩個條件:每組至少包含一條數(shù)據(jù)記錄;每個數(shù)據(jù)記錄僅屬于一個組.基于此的算法有k-means算法、FCM算法和CLARANS算法等[2].2)層次方法(Hierarchical Methods).通過對數(shù)據(jù)節(jié)點的相似程度從高到低逐步連接.該方法的優(yōu)點是不需要事先設(shè)定簇的數(shù)量,我們可以選擇看上去最好的簇的數(shù)量.層次聚類方法一般不單獨使用,通常是與其他方法結(jié)合起來使用比較可靠,如BIRCH和CURE.3)基于密度的方法(Density-based Methods).該方法的核心思想是,只要數(shù)據(jù)集的密度大于某一閾值,該數(shù)據(jù)集就會被添加到最近的聚類簇中.這類算法可發(fā)現(xiàn)任意形狀的聚類,且對噪聲數(shù)據(jù)不敏感.基于此的算法有DBSCAN[3].4)基于網(wǎng)格的方法(Grid-based?。停澹簦瑁铮洌螅當?shù)據(jù)空間被劃分為網(wǎng)格單元,將數(shù)據(jù)對象映射到網(wǎng)格單元中,并計算每個單元的密度,由差值將數(shù)據(jù)對象劃分在高密度的網(wǎng)格單元.優(yōu)點是執(zhí)行效率高.STING就是一種基于網(wǎng)格的多分辨率的聚類技術(shù)[4].5)基于模型的方法(Model-based?。停澹簦瑁铮洌螅紫冉o每個簇定義一個模型,然后將滿足這個模型的數(shù)據(jù)集歸入其中.模型沒有限制,無論是多維空間還是數(shù)據(jù)點的密度分布函數(shù).模型是由一系列的概率分布決定,所以也被稱為基于概率模型的方法.一般有兩種應(yīng)用方向:統(tǒng)計和神經(jīng)網(wǎng)絡(luò)[5].不同的聚類分析算法都有各自的特點,表1為具有代表性的不同聚類分析類型算法的優(yōu)缺點,可以作為聚類分析研究及應(yīng)用的參考.

3高校學(xué)生上網(wǎng)行為分析

聚類分析主要有以下三個方面的應(yīng)用:1)隨著發(fā)展,聚類分析已經(jīng)成為了統(tǒng)計和分析系統(tǒng)中不可或缺的部分,在其中作為一個能夠單獨處理分析數(shù)據(jù)的分布情況,觀察不同簇的分布特點,選取對我們有價值的簇進一步分析的工具.例如:S-Plus能夠直接提供給使用者所需要的統(tǒng)計分析結(jié)果,并且能以很直觀的方式展示給使用者,特點是它的交互性很強,能夠提供多種維度讓使用者去發(fā)現(xiàn)數(shù)據(jù)中的價值;SPSS是調(diào)研、統(tǒng)計,尤其是政府和企業(yè)數(shù)據(jù)應(yīng)用最廣泛的統(tǒng)計分析工具.可用于各種數(shù)據(jù)的分析,最終為相關(guān)單位提供科學(xué)決策服務(wù).SAS是一個模塊化、集成化的大型應(yīng)用軟件系統(tǒng).優(yōu)點在于完備的數(shù)據(jù)統(tǒng)一視圖、易于使用的圖形用戶界面和快速簡便自助的模型開發(fā).使用SPSS對高校學(xué)生上網(wǎng)行為進行分析.在SPSS中調(diào)用k-means?。悖欤酰螅簦澹蜻^程可以完成指定數(shù)據(jù)集的聚類分析,聚類分析通常是將初始數(shù)據(jù)集進行簡單分類,然后通過迭代得到最終分類.為系統(tǒng)研究高校學(xué)生在校上網(wǎng)行為對成績的影響,通過采集太原師范學(xué)院2020級計算機科學(xué)與技術(shù)學(xué)院的254名本科學(xué)生的相關(guān)數(shù)據(jù),主要收集了這些學(xué)生的每日觀影時長、每日游戲時長、每周網(wǎng)上學(xué)習(xí)時長和成績.因為這些數(shù)據(jù)的數(shù)量級不同,本文將這些數(shù)據(jù)進行了Z-Score標準化處理,公式如下:Z=X-X-()/S(1)式(1)中:X為原始數(shù)據(jù),X-為X的算數(shù)平均值,S為X的標準差.說明:標準化的數(shù)據(jù)值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平.SPSS的整體操作步驟如下:激活數(shù)據(jù)分組管理窗口,定義變量名,輸入數(shù)據(jù);標準化數(shù)據(jù),選擇分析-降維-因子進行標準化數(shù)據(jù);統(tǒng)計分析,選擇分析-分類指定初始簇的中心點,選擇k-means算法進行迭代分類;方差分析聚類結(jié)果的DSS,DSS越小,聚類效果越好;重復(fù)執(zhí)行前兩步,使得DSS最小化;可視化最終結(jié)果,以散點圖的形式展示最終聚類的結(jié)果.最終,參加研究的254名同學(xué)被分成了4種類型,如表2所示,表中4種上網(wǎng)行為與成績的數(shù)據(jù)均是該類型對應(yīng)的中心值.由于數(shù)據(jù)有4個維度,為了在2維坐標圖中展示觀測數(shù)據(jù)集的分布,需要對數(shù)據(jù)進行降維,經(jīng)過降維處理后,所呈現(xiàn)的散點分布圖如圖2所示.將觀測數(shù)據(jù)集進行降維后,繪制出了不同類別樣本點的散點分布圖.其中,分布在圖的左下方區(qū)域的是標號為0的樣本數(shù)據(jù)點,用圓點作圖;分布在圖的右下方區(qū)域的是標號為1的樣本數(shù)據(jù)點,用五角星作圖;分布在圖的左上方區(qū)域的是標號為2的樣本數(shù)據(jù)點,用方塊作圖.分布在圖的右上方區(qū)域的是標號為3的樣本數(shù)據(jù)點,用三角形作圖.每個類型的樣本點都正好分布在類簇中心點周圍,并且每個類別之間沒有交集,說明每個類別之間界限清晰,即聚類效果好[6].通過總結(jié),表3將高校學(xué)生上網(wǎng)行為對高校學(xué)生學(xué)習(xí)影響情況分為以下4類,并做了相應(yīng)的評價.2)聚類分析可以方便地對數(shù)據(jù)進行分析,利用分析的結(jié)果,可以對高校學(xué)生的學(xué)習(xí)情況進行督導(dǎo),讓高校學(xué)生擁有一個良好的學(xué)習(xí)環(huán)境.本文以改進的k-means算法作為一個例子來說明高校學(xué)生上網(wǎng)行為對高校學(xué)生學(xué)習(xí)的影響.算法描述如下:輸入標準化的數(shù)據(jù)和簇個數(shù),使用基于簇中對象平均值的k-means作為前綴算法,通過方差分析使得DSS最小化,迭代前兩步最終得到理想的目標結(jié)果.改進的k-means算法中運用了下面兩個公式:聚類結(jié)果簇中對象之間的距離平方和,即Ep=∑ki=1∑p∈Cip-mi2(2)式(2)中,Ci是聚類簇,p是簇中對象,mi是Ci的平均值.聚類結(jié)果簇中對象i與對象j之間的相異度,即dij2=∑kδijkdijk2∑kδijk(3)式(3)中,dijk2為加權(quán)歐氏距離,即dijk2=W1Xi1-Xj12+W2Xi2-Xj22+…+WpXip-Xjp2(4)式(4)中,i=(Xi1,Xi2,…,Xip)、j=(Xj1,Xj2,…,Xjp)是兩個p維數(shù)據(jù)對象.δijk是第k個值與對象i、對象j之間的權(quán)重.聚類結(jié)果簇中對象之間的距離平方和是聚類結(jié)果好壞的重要指標,最終要使簇中對象之間的距離平方和最小化,這樣就能夠使生成的聚類結(jié)果盡可能緊湊和獨立[7].3)聚類分析也可用于分析異常值.異常值是數(shù)據(jù)集中的數(shù)據(jù)明顯離散很大,所以也稱為離散值[8].異常值的分析有著廣泛的應(yīng)用,例如故障分析,判斷電路故障;偏離值分析,判斷經(jīng)濟變化的影響因素;漸變、突變分析,看數(shù)據(jù)走勢變化.

4總結(jié)

智能教育理念的產(chǎn)生,變革了傳統(tǒng)的教學(xué)模式,太原師范學(xué)院緊跟時事創(chuàng)立了智能教育產(chǎn)業(yè)學(xué)院,通過采集、處理和分析教育數(shù)據(jù),給予相關(guān)部門決策依據(jù),服務(wù)地方教育.如何更好地分析數(shù)據(jù)是一大難點,手工顯然不現(xiàn)實,所以數(shù)據(jù)挖掘領(lǐng)域的聚類分析算法成了較好的選擇.研究和應(yīng)用聚類分析算法,首先是闡述了不同的聚類類型的特點與優(yōu)缺點,接著從聚類分析軟件SPSS的應(yīng)用和改進的k-means算法兩方面進行論述高校學(xué)生上網(wǎng)行為對高校學(xué)生成績的影響,確定了高校學(xué)生受互聯(lián)網(wǎng)影響的類型,并針對每種類型進行了相應(yīng)的評價,提供了相應(yīng)的處理方法.

參考文獻:

[1] 鐘文精,焦中明,蔡 樂.基于K-Means算法的學(xué)生成績聚類分析[J].教育信息技術(shù),2021(5):56-58.

[2] 劉連宏.密度聚類算法在巖石圖像中的研究與應(yīng)用[D].西安:西安石油大學(xué),2021.

[3] 孫海軍.基于MapReduce和網(wǎng)格密度的文本聚類分析研究[J].信息系統(tǒng)工程,2014(10):25-26.

[4] 劉柏林.基于電網(wǎng)運行數(shù)據(jù)集的電力系統(tǒng)運行評估及優(yōu)化研究[D].北京:華北電力大學(xué)(北京),2017.

[5] 周樹功.基于K-means聚類分析算法的大學(xué)生在線學(xué)習(xí)行為分析[J].信息與電腦(理論版),2020,32(16):220-222.

[6] 趙 麗.全局K-均值聚類算法研究與改進[D].西安:西安電子科技大學(xué),2013.

[7] 況成忠,彭偉雄,黃萍.基于聚類分析的電纜局部放電分析[J].電子世界,2014(9):51.

[8] 呂明磊,劉冬梅,曾智勇.基于改進K-means算法的圖像檢索方法[J].計算機應(yīng)用,2013,33(S1):195-198.

作者:嚴武軍 孫志其 單位:太原師范學(xué)院 計算機科學(xué)與技術(shù)學(xué)院

上一篇: 高校精細化管理分析 下一篇: 國外臨床護士培訓(xùn)及對我國的啟...
精選范文
友情鏈接