中文字幕日韩人妻|人人草人人草97|看一二三区毛片网|日韩av无码高清|阿v 国产 三区|欧洲视频1久久久|久久精品影院日日

銀行輿情工作總結(jié)匯總十篇

時(shí)間:2022-05-26 06:17:50

序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過程,我們?yōu)槟扑]十篇銀行輿情工作總結(jié)范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。

銀行輿情工作總結(jié)

篇(1)

2010年4月13日,住建部出臺(tái)的《關(guān)于進(jìn)一步加強(qiáng)房地產(chǎn)市場監(jiān)管完善商品住房預(yù)售制度有關(guān)問題的通知》(建房〔2010〕53號(hào))明確要求:各地要加快完善商品住房預(yù)售資金監(jiān)管制度。尚未建立監(jiān)管制度的地方,要加快制定本地區(qū)商品住房預(yù)售資金監(jiān)管辦法。商品住房預(yù)售資金要全部納入監(jiān)管賬戶,由監(jiān)管機(jī)構(gòu)負(fù)責(zé)監(jiān)管,確保預(yù)售資金用于商品住房項(xiàng)目工程建設(shè);預(yù)售資金可按建設(shè)進(jìn)度進(jìn)行核撥,但必須留有足夠的資金保證建設(shè)工程竣工交付?!冻啥际猩唐贩款A(yù)售款監(jiān)管辦法(試行)》于同年9月30日印發(fā),同年11月1日,成都市正式實(shí)施商品房預(yù)售資金監(jiān)管。2015年10月9日,成都市城鄉(xiāng)房產(chǎn)管理局印發(fā)《成都市商品房預(yù)售款監(jiān)管辦法》,完成對(duì)原辦法的修訂。

成都市實(shí)施商品房預(yù)售資金監(jiān)管6年有余,但成都市在建商品房項(xiàng)目爛尾情況仍未得到完全杜絕,由商品房預(yù)售項(xiàng)目爛尾引發(fā)的也時(shí)有發(fā)生。在梳理成都市部分預(yù)售項(xiàng)目爛尾的成因時(shí)發(fā)現(xiàn),部分爛尾項(xiàng)目開發(fā)商存在挪用預(yù)售資金的情況。因此,進(jìn)一步完善和加強(qiáng)商品房預(yù)售資金監(jiān)管尤為必要。

1.加大監(jiān)督檢查及懲處力度

監(jiān)督檢查是懸掛在開發(fā)企業(yè)頭頂上的達(dá)摩克利斯之劍,讓開發(fā)企業(yè)緊繃守法遵規(guī)之弦。除常態(tài)例行檢查之外,加強(qiáng)飛行檢查,即在被檢查單位不知曉的情況下進(jìn)行的啟動(dòng)慎重、行動(dòng)快的檢查,以此及時(shí)掌握真實(shí)情況,讓監(jiān)管部門做到心中有數(shù)。此外,還可采取重點(diǎn)檢查手段。在當(dāng)今信息傳播手段日益簡便快捷、制度日益完善的情況下,及時(shí)根據(jù)輿情及情況,重點(diǎn)檢查輿情反應(yīng)大、突出的項(xiàng)目。

2.采取有效措施對(duì)違法行為予以嚴(yán)厲打擊

根據(jù)《成都市商品房預(yù)售款監(jiān)管辦法》,開發(fā)企業(yè)不按規(guī)定繳存、使用預(yù)售款以及利用其他賬戶替代預(yù)售款專用賬戶的,由市、縣房產(chǎn)行政主管部門責(zé)令限期改正;情節(jié)嚴(yán)重或逾期仍不改正的,按照《城市商品房預(yù)售管理辦法》的相關(guān)規(guī)定對(duì)違法行為予以行政處罰。監(jiān)管銀行未履行監(jiān)管協(xié)議約定職責(zé),除承擔(dān)相應(yīng)法律責(zé)任外,由主管部門予以公示不得再在本市從事商品房預(yù)售款監(jiān)管事宜,并將有關(guān)情況抄送銀行業(yè)主管部門。根據(jù)《城市商品房預(yù)售管理辦法》,開發(fā)企業(yè)不按規(guī)定使用商品房預(yù)售款項(xiàng)的,由房地產(chǎn)管理部門責(zé)令限期糾正,并可處以違法所得3倍以下但不超過3萬元的罰款。在當(dāng)前高企的房價(jià)面前,法定的罰金金額對(duì)開發(fā)企業(yè)而言幾乎可忽略不計(jì),換言之,罰款對(duì)于開發(fā)企業(yè)違法行為基本上毫無震懾力。監(jiān)管部門除責(zé)令開發(fā)企業(yè)限期改正等告誡類措施外,可采取暫停網(wǎng)簽、暫停受理新預(yù)售許可申請(qǐng)等行政管理措施。

《成都市商品房預(yù)售款監(jiān)管辦法》僅由房產(chǎn)管理部門單獨(dú)制定,銀行業(yè)管理部門未參與聯(lián)合發(fā)文,該辦法對(duì)監(jiān)管銀行的違規(guī)行為懲處規(guī)定不夠強(qiáng)硬,威懾力不足。在實(shí)際操作中,房管部門將銀行存在的預(yù)售款監(jiān)管違規(guī)行為書面函送銀行業(yè)主管部門后,違規(guī)銀行受到的懲處力度很小甚至零懲處。因此,在對(duì)監(jiān)管銀行進(jìn)行督促、指導(dǎo),促使銀行全面履行監(jiān)管職責(zé)的同時(shí),房管部門可建立黑名單制度,采取暫?;蚪K止受理存在嚴(yán)重違反《成都市商品房預(yù)售款監(jiān)管辦法》規(guī)定行為的商業(yè)銀行與任何開發(fā)企業(yè)簽訂的包含《預(yù)售款監(jiān)管協(xié)議》在內(nèi)的預(yù)售方案審查申請(qǐng)。

3.要加強(qiáng)技術(shù)創(chuàng)新,進(jìn)一步優(yōu)化監(jiān)管手段

進(jìn)一步優(yōu)化和完善房管金融信息服務(wù)交互平臺(tái)并建立預(yù)售款監(jiān)管信息系統(tǒng),將取得商品房預(yù)售許可證的商品房實(shí)時(shí)交易備案情況與銀行監(jiān)管賬戶的實(shí)時(shí)入賬情況進(jìn)行匹配計(jì)算,監(jiān)察入賬情況;將資金使用計(jì)劃、工程進(jìn)度計(jì)劃納入信息系統(tǒng)以規(guī)范預(yù)售款撥付,并通過信息系統(tǒng)自動(dòng)監(jiān)察各個(gè)預(yù)售項(xiàng)目預(yù)售款收支,同時(shí)通過設(shè)定資金足額量、資金撥付額與資金使用計(jì)劃及工程進(jìn)度匹配度等風(fēng)險(xiǎn)控制指標(biāo)建立預(yù)警機(jī)制,對(duì)超過風(fēng)險(xiǎn)控制線的預(yù)售款暫停撥付并啟動(dòng)現(xiàn)場督察程序。通過技術(shù)創(chuàng)新,實(shí)現(xiàn)預(yù)售款監(jiān)管從入賬到撥付全流程、動(dòng)態(tài)化、規(guī)范化的全面監(jiān)控。此外,可通過預(yù)售款監(jiān)管信息系統(tǒng)實(shí)現(xiàn)對(duì)全部預(yù)售項(xiàng)目預(yù)售款監(jiān)管進(jìn)行大數(shù)據(jù)分析,通過監(jiān)管大數(shù)據(jù)對(duì)參與預(yù)售款監(jiān)管的各商業(yè)銀行監(jiān)管能力及服務(wù)水平進(jìn)行考核,為建立監(jiān)管銀行優(yōu)勝劣汰的淘汰機(jī)制提供基礎(chǔ)條件。

4.加強(qiáng)合同備案審查,防止虛假交易、確保預(yù)售款納入監(jiān)管

《城市商品房預(yù)售管理辦法》規(guī)定:商品房預(yù)售,開發(fā)企業(yè)應(yīng)當(dāng)與承購人簽訂商品房預(yù)售合同。開發(fā)企業(yè)應(yīng)當(dāng)自簽約之日起30日內(nèi),向房地產(chǎn)管理部門和市、縣人民政府土地管理部門辦理商品房預(yù)售合同登記備案手續(xù)。長期以來,成都市對(duì)預(yù)售商品房合同備案的審查主要是采取開發(fā)商自主備案、房管部門嚴(yán)管備案變更及注銷的模式,事前及事中監(jiān)管較松,事后監(jiān)管較嚴(yán)。在這種模式下,開發(fā)企業(yè)通過備案系統(tǒng)進(jìn)行虛假備案以達(dá)到變相融資(通過備案到債權(quán)人或擔(dān)保人名下作為融資擔(dān)保)、惡意逃避查封(由于只能查封在房管系統(tǒng)中開發(fā)企業(yè)名下未售房源,開發(fā)企業(yè)可自行將房源備案至相關(guān)主體名下造成房源全部售完的假象導(dǎo)致無房可封)、捂盤惜售(操作手法類似惡意逃避查封)等虛假交易的目的,由于這些虛假交易并未存在真實(shí)購房款,對(duì)這些虛假交易房源的預(yù)售款監(jiān)管也無從談起。此外,部分開發(fā)商在購房人支付首付款或全部購房款時(shí),通過非監(jiān)管銀行POS機(jī)等渠道將這些資金打入其他賬戶,繞開預(yù)售資金監(jiān)管,為開發(fā)企業(yè)挪用現(xiàn)售資金提供了便利。

因此,為避免上述不良行為的發(fā)生并確保預(yù)售款監(jiān)管實(shí)現(xiàn)全面覆蓋,加強(qiáng)合同備案審查尤為必要。在購房資格審查通過后(如有該項(xiàng)審查),開發(fā)企業(yè)可通過房管系統(tǒng)的開發(fā)企業(yè)用戶端進(jìn)行預(yù)售商品房合同擬定,但在完成備案前,開發(fā)企業(yè)應(yīng)當(dāng)將購房人的付款憑證及資金進(jìn)入預(yù)售款監(jiān)管賬戶的證明資料提交房管部門進(jìn)行購房真實(shí)性及預(yù)售款入~審查,待審查通過后,房管工作人員通過房管系統(tǒng)房管用戶端解除備案限制,開發(fā)企業(yè)方可完成合同備案。

二、進(jìn)一步完善預(yù)售商品房質(zhì)量保證機(jī)制

在建工程爛尾往往是開發(fā)商實(shí)力較弱、資金鏈斷裂造成,相較而言小型開發(fā)企業(yè)開發(fā)項(xiàng)目發(fā)生爛尾或存在商品房質(zhì)量問題的風(fēng)險(xiǎn)要比大型開發(fā)企業(yè)要高。住建部出臺(tái)的《關(guān)于進(jìn)一步加強(qiáng)房地產(chǎn)市場監(jiān)管完善商品住房預(yù)售制度有關(guān)問題的通知》(建房〔2010〕53號(hào))明確要求:暫定資質(zhì)的房地產(chǎn)開發(fā)企業(yè)在申請(qǐng)商品住房預(yù)售許可時(shí)提交的預(yù)售方案,應(yīng)當(dāng)明確企業(yè)破產(chǎn)、解散等清算情況發(fā)生后的商品住房質(zhì)量責(zé)任承擔(dān)主體,由質(zhì)量責(zé)任承擔(dān)主體提供擔(dān)保函。質(zhì)量責(zé)任承擔(dān)主體必須具備獨(dú)立的法人資格和相應(yīng)的賠償能力。由于該通知未明確規(guī)定質(zhì)量責(zé)任承擔(dān)主體賠償能力的審查標(biāo)準(zhǔn),各地在實(shí)際執(zhí)行預(yù)售商品房質(zhì)量保證機(jī)制時(shí)僅對(duì)質(zhì)量責(zé)任承擔(dān)主體提供擔(dān)保函做形式審查,對(duì)于該主體是否具有賠償能力無法做出判斷,造成了該機(jī)制的實(shí)施基本上流于形式。因此,作為承擔(dān)實(shí)際監(jiān)管職責(zé)的房管部門可結(jié)合地方實(shí)際進(jìn)一步完善預(yù)售商品房質(zhì)量保證機(jī)制。房屋質(zhì)量責(zé)任承擔(dān)主體應(yīng)當(dāng)具有較為雄厚資金實(shí)力及管理運(yùn)營經(jīng)驗(yàn),可從工商注冊(cè)實(shí)繳資本金、近段時(shí)期(如近3年)賬戶資產(chǎn)情況、成立時(shí)間(如不低于5年)、主營范圍等維度考量。同時(shí)對(duì)房屋質(zhì)量責(zé)任承擔(dān)具有較大風(fēng)險(xiǎn)的主體類型進(jìn)行排除,例如:暫定資質(zhì)的房地產(chǎn)開發(fā)企業(yè)不能作為其他房地產(chǎn)企業(yè)開發(fā)項(xiàng)目的房屋質(zhì)量責(zé)任承擔(dān)主體。

三、進(jìn)一步完善信息公開機(jī)制

房地產(chǎn)市場存在明顯信息不對(duì)稱,開發(fā)企業(yè)具有項(xiàng)目信息主導(dǎo)優(yōu)勢,往往會(huì)對(duì)相關(guān)不利信息予以屏蔽或隱瞞,購房人獲得預(yù)售項(xiàng)目相關(guān)信息的來源及渠道較為缺乏。由于信息不對(duì)稱,購房人在信息不充分的情況下作出的購房決策可能存在盲目性。因此,在不涉及商業(yè)機(jī)密的前提下,盡可能展現(xiàn)作為交易商品的房屋相關(guān)信息,需要進(jìn)一步完善信息公開機(jī)制。

1.信息渠道分散

房地產(chǎn)開發(fā)產(chǎn)業(yè)鏈條長,涉及的政府部門及公眾部門多,各部門獨(dú)自自身掌握的信息,導(dǎo)致房產(chǎn)相關(guān)信息渠道分散,購房人全面收集相關(guān)信息費(fèi)時(shí)費(fèi)力。例如:工商主管部門掌握開發(fā)企業(yè)經(jīng)營信息、建設(shè)主管部門掌握開發(fā)項(xiàng)目工程建設(shè)信息、房管部門掌握開發(fā)項(xiàng)目銷售信息、銀行主管部門掌握開發(fā)企業(yè)及其實(shí)際控制人的信用信息等,購房人若要全面調(diào)查了解到所有相關(guān)信息,需要到各個(gè)政府主管部門查詢、核實(shí),費(fèi)時(shí)費(fèi)力的同時(shí)還不一定能得到全面信息。

2.信息不及時(shí)、不全面

一些主管部門存在對(duì)監(jiān)管中掌握的信息不及時(shí)、不全面的情況。一些信息僅在工作總結(jié)中草草帶過,對(duì)于購房人而言,獲得的信息越及時(shí)、越全面,越有助于其做購房決策。

3.信息聚合程度低

相關(guān)信息渠道分散及信息不及時(shí)、不全面導(dǎo)致了信息聚合程度低,極大增加了購房人整理、利用這些信息的難度。

為了進(jìn)一步增加房地產(chǎn)市場信息透明度,應(yīng)加強(qiáng)頂層設(shè)計(jì),進(jìn)一步完善信息公開機(jī)制。

篇(2)

關(guān)鍵詞:

潛在狄里克雷分配;主題模型;Kmeans++聚類;聚簇評(píng)價(jià);熱點(diǎn)話題

0引言

作為Web 2.0技術(shù)迅猛發(fā)展的產(chǎn)物,網(wǎng)絡(luò)論壇使人們能更多地參與到日常話題的互動(dòng)中,因此論壇成為了重要輿情的發(fā)源地與傳播地。及時(shí)地發(fā)現(xiàn)輿情有利于政府部門的治國理政,也為企業(yè)的發(fā)展決策、危機(jī)公關(guān)處理等提供了輿論向?qū)?,因此熱點(diǎn)話題挖掘成為了輿情監(jiān)測領(lǐng)域的一個(gè)重要研究方向。

對(duì)于熱點(diǎn)話題挖掘的問題,相關(guān)研究人員進(jìn)行了大量的研究。丁偉莉等[1]對(duì)博客用向量空間模型建模后使用SinglePass算法進(jìn)行聚類來發(fā)現(xiàn)其中的話題;邱立坤等[2]在對(duì)網(wǎng)絡(luò)論壇中文本數(shù)據(jù)用向量空間建模并聚類后利用點(diǎn)擊數(shù)與評(píng)論數(shù)對(duì)結(jié)果排序來發(fā)現(xiàn)熱點(diǎn)話題;王偉等[3]對(duì)用傳統(tǒng)向量空間模型表示的網(wǎng)頁信息用OPTICS(Ordering Points To Identify the Clustering Structure)聚類算法進(jìn)行兩次聚類來發(fā)現(xiàn)熱點(diǎn)輿情。以上研究中都用到了向量空間模型表示文本,它并沒有融入語義信息,這會(huì)使得語義不相關(guān)的信息出現(xiàn)在同一聚簇中,從而造成了主題信息的丟失,影響了聚類的效果。席耀一等[4]與劉嵩等[5]在對(duì)論壇話題追蹤時(shí)利用知網(wǎng)語義庫為詞匯加入了語義信息,并用它作為文檔表示模型來計(jì)算文檔的語義相似度[6],這種方法在很大程度上緩解了主題丟失的問題,但論壇信息的快速更新使得這種融入了監(jiān)督成分的方法仍然不能達(dá)到理想的效果,而且維護(hù)知網(wǎng)語義信息也是個(gè)難題。劉霄等[7]通過利用概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)主題模型為Twitter數(shù)據(jù)建模來發(fā)現(xiàn)突發(fā)的熱點(diǎn)話題,PLSA成功地利用概率統(tǒng)計(jì)的方法來為文本建模,但它并沒有在文檔與主題的層面上給出一個(gè)合適的概率模型,PLSA中文檔的主題分布與主題中詞的分布是模型的參數(shù),它們會(huì)隨著文檔增多而增加,這樣它只能生成給定文檔集合上的模型,在新的文本加入時(shí)還要重新訓(xùn)練,另外當(dāng)訓(xùn)練集有限的情況PLSA還可能會(huì)出現(xiàn)過度擬合的現(xiàn)象[8]。

本文熱點(diǎn)話題挖掘的研究對(duì)象是網(wǎng)絡(luò)論壇數(shù)據(jù)集,它不同于新聞網(wǎng)頁中經(jīng)過專業(yè)編輯處理過的文本,它有著自己的特點(diǎn):1)口語化,帖子者來自不同的地方,也有不同的經(jīng)歷與背景,在表達(dá)同一觀點(diǎn)時(shí)措辭會(huì)有很大不同,經(jīng)常會(huì)有錯(cuò)別字或網(wǎng)絡(luò)新詞匯產(chǎn)生,這就使得詞匯噪聲較多;2)篇幅差距較大,有些帖子的論述比較多,另一類只通過帖子的標(biāo)題來傳達(dá)信息,這會(huì)造成詞匯矩陣稀疏的問題。

針對(duì)以上研究中的不足以及論壇文本數(shù)據(jù)的特點(diǎn),本文采用潛在狄里克雷分配(Latent Dirichlet Allocation,LDA)主題模型對(duì)論壇文本數(shù)據(jù)建模,在對(duì)數(shù)據(jù)集進(jìn)行聚類基礎(chǔ)上提出基于主題聚簇的評(píng)價(jià)方法對(duì)聚簇進(jìn)行排名。該方法在考慮主題的關(guān)注度同時(shí),還對(duì)聚簇內(nèi)部所含主題的突發(fā)性與主題純凈度加以考慮。通過對(duì)最有可能出現(xiàn)熱點(diǎn)話題的聚簇進(jìn)行信息抽取后設(shè)計(jì)話題展示的方法來完成熱點(diǎn)話題挖掘任務(wù)。

1系統(tǒng)整體框架

對(duì)論壇文本集預(yù)處理后用LDA主題模型建模,將文本表示由高維詞匯空間映射到了低維主題空間,這樣就去除了詞匯噪聲的影響,之后用處理規(guī)模相似的訓(xùn)練集進(jìn)行聚類實(shí)驗(yàn),從對(duì)聚類的速度與效果兩方面考慮得出合適的主題噪聲閾值與聚類中心數(shù)目,然后用優(yōu)化聚類中心選擇的Kmeans++算法對(duì)主題空間中表示的文本集合進(jìn)行聚類,之后通過主題聚簇用評(píng)價(jià)方法對(duì)出現(xiàn)熱點(diǎn)話題可能性賦予權(quán)重,最后從最有可能出現(xiàn)熱點(diǎn)話題的聚簇中用本文提出的描述方法提取出熱點(diǎn)話題信息作為展示。

2論壇熱點(diǎn)話題挖掘

2.1論壇文本建模

2.1.1LDA主題模型

LDA主題模型是一種三層貝葉斯概率模型,是Blei等[8]在2003年提出的,它的目的在于以無監(jiān)督的學(xué)習(xí)方法從文本集合中發(fā)現(xiàn)其中隱含的語義信息。

根據(jù)LDA模型的描述,文本集合可以按以下算法生成。

2.1.2模型求解

LDA主題模型求解模型的過程就是在給定模型參數(shù)的條件下,最大化式(2)中描述的每個(gè)文檔的生成概率的問題:

p(w|φ,α)=∫p(w|φ,θ)p(θ|α)dθ (2

LDA模型求解是困難的問題,很難有精確的解法。實(shí)踐中常用到的有兩種不精確的解法:一種是基于變分法的EM(EstimationMaximization)算法求解[8];另一種求解方法是Gibbs Sampling[9],它是MCMC(Markov Chain Monte Carlo)方法的一種,其理論基礎(chǔ)是馬爾可夫鏈?zhǔn)諗慷ɡ?,通過構(gòu)造符合馬爾可夫鏈細(xì)致平衡條件的狀態(tài)轉(zhuǎn)移矩陣,讓任意給定的初始分布通過轉(zhuǎn)移矩陣迭代轉(zhuǎn)移,使其收斂到目標(biāo)分布。Gibbs Sampling算法采樣公式推導(dǎo)起來簡單而且實(shí)際應(yīng)用中運(yùn)行效果也十分理想。

Gibbs Sampling求解方法采用了與式(2)提到的方法所不同的思想,它不直接將φ與θ作為模型參數(shù)來估計(jì),而是先計(jì)算后驗(yàn)概率p(z|w),再對(duì)模型隱含變量進(jìn)行估計(jì)。以下是Gibbs Sampling算法求解LDA模型變量的步驟。

2.1.3論壇文本建模

本文采用了JGibbsLda[10]LDA建模工具對(duì)預(yù)處理后的論壇文本數(shù)據(jù)進(jìn)行建模分析。參考文獻(xiàn)[11]中LDA主題模型參數(shù)的經(jīng)驗(yàn)值,取α=50/K, β=0.1,其中K為指定的潛在主題數(shù),Gibbs Sampling的次數(shù)N設(shè)為1000。

Gibbs Sampling算法結(jié)束時(shí)會(huì)產(chǎn)生兩個(gè)矩陣:

大小為M×K的文檔——主題分布矩陣,其中M為論壇文檔集數(shù)目;大小為K×Nw的主題——詞的概率分布矩陣,其中Nw為文檔集中詞匯表的大小。

2.1.4主題噪聲去除

通過對(duì)文檔集主題分布矩陣觀察發(fā)現(xiàn),每個(gè)主題分布中會(huì)出現(xiàn)一個(gè)或幾個(gè)突出的主要主題,其他次要的主題所占的比重可以忽略。為了突出主要主題的影響,采用了以下規(guī)則對(duì)主題噪聲進(jìn)行去除:假設(shè)每個(gè)文檔的主題分布中概率值最大的為主要主題記作Tmain,它的概率記作P(Tmain),設(shè)定閾值δ,對(duì)于除主要主題外的其他任何主題Ti,如果P(Ti)

2.2主題空間Kmeans++聚類

傳統(tǒng)的Kmeans聚類算法中,聚類中心的選擇是個(gè)關(guān)鍵的步驟。大多數(shù)用到的隨機(jī)選擇的方法會(huì)導(dǎo)致每次聚類的結(jié)果有差別而不能很好地反映聚類的真實(shí)情況,所以對(duì)映射到低維主題空間的論壇數(shù)據(jù)采用優(yōu)化聚類中心選擇的Kmeans++算法[11]對(duì)論壇數(shù)據(jù)進(jìn)行聚類。Kmeans++算法如下:

設(shè)D(x)為文檔x到已有的聚類中心中最近的距離;X為數(shù)據(jù)點(diǎn)集合;

步驟1從X中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)聚類中心c1;

步驟2以概率分布D(x)2/∑Xx=1D(x)2選擇數(shù)據(jù)點(diǎn)x∈X,并將它作為新的聚類中心ci,更新D(x);

步驟3重復(fù)步驟2直到找到K個(gè)聚類中心;

步驟4執(zhí)行標(biāo)準(zhǔn)的Kmeans聚類算法對(duì)數(shù)據(jù)進(jìn)行聚類。

對(duì)于最優(yōu)聚類中心數(shù)的確定,可以在已知處理數(shù)據(jù)集規(guī)模條件下進(jìn)行聚類實(shí)驗(yàn),從中心數(shù)的設(shè)定對(duì)聚類質(zhì)量與速度的影響選出最優(yōu)值。

2.3主題聚簇評(píng)價(jià)方法

為了發(fā)現(xiàn)熱點(diǎn)話題,本文提出了一種主題聚簇評(píng)價(jià)方法對(duì)出現(xiàn)熱點(diǎn)話題的可能性進(jìn)行權(quán)重賦值。

假設(shè)聚類中心各個(gè)主題分量的概率分布矩陣表示如下:

其中:C為聚類中心數(shù);K為主題數(shù);p(k,c)表示主題k分配在聚類中心c的概率,k∈K,c∈C且對(duì)于任意c∈C,∑Kk=1p(k,c)=1。

盡管聚類算法已經(jīng)將主題描述不相關(guān)的帖子分開,但依然存在一些主題,它們?cè)诿總€(gè)簇中的分布情況非常均衡,這樣的主題因?yàn)槠淦毡樾远倭送话l(fā)的特征,本文采用主題在各聚簇中的分布均衡情況來描述主題突發(fā)性。

定義1設(shè)C為聚類中心總個(gè)數(shù),p(k,c)為聚類中心c中主題k的概率分布值,那么主題k突發(fā)度PromDeg(k)定義如下:

PromDeg(k)=∑Cc=1(p(k,c)-∑Cc=1p(k,c)/C)2/C(7

當(dāng)?shù)玫搅烁鱾€(gè)主題的突發(fā)度后,將各維度中主題的突發(fā)度與其所占的概率加權(quán)求和,很容易得到總的主題突發(fā)度,用它作為衡量聚簇主題突發(fā)性的標(biāo)準(zhǔn)。

定義2假設(shè)PromDeg(k)表示主題k的突發(fā)度,p(k,c)為聚簇c中第k維主題的概率值,其中k∈K,K為主題數(shù),那么聚簇c的主題突發(fā)度為:

PromDeg(c)=∑Kk=1PromDeg(k)p(k,c)(8

在主題聚簇中,可以將聚簇表達(dá)的信息表示為在主題上一定概率的混合,純凈度高的聚簇可以更清楚地表達(dá)主題信息,而熱點(diǎn)話題聚簇會(huì)因?yàn)槠渲黝}的聚集趨勢明顯而使得純凈度高。信息熵是信息論中度量信息量的概念,系統(tǒng)的狀態(tài)分布越有序,信息熵越小。以聚簇的主題信息熵為依據(jù),定義衡量聚簇主題純凈度的標(biāo)準(zhǔn)。

定義3假設(shè)K為主題數(shù),p(k,c)為聚類中心c在第k維主題的概率,那么聚簇主題純凈度Purity(c)為:

其中γ為平滑值,防止主題信息熵為0。

為了衡量聚簇的熱度,融入人為參與因素,賦予聚簇不同的關(guān)注度權(quán)重,文本采用單位時(shí)間內(nèi)點(diǎn)擊數(shù)與回復(fù)數(shù)來對(duì)聚簇的關(guān)注度進(jìn)行描述。

定義4假設(shè)T2為采集時(shí)間,T1為發(fā)貼時(shí)間,φ為調(diào)整回復(fù)數(shù)與點(diǎn)擊數(shù)的權(quán)重,repNum、clickNum分別是帖子的回復(fù)數(shù)與點(diǎn)擊數(shù),N為聚簇中包含的帖子總數(shù),那么聚簇c關(guān)注度AttenDeg(c)為:

AttenDeg(c)=1N∑Nn=1(φ*repNumn+(1-φ)*clickNumn)T2-T1(10

將聚簇主題突發(fā)度、主題純凈度、關(guān)注度三個(gè)評(píng)價(jià)標(biāo)準(zhǔn)綜合進(jìn)行考慮可以得到每個(gè)聚簇含有熱點(diǎn)話題可能性的歸一化的評(píng)價(jià)公式:

S(Cj)=PromDeg(Cj)AttenDeg(Cj)Purity(Cj)∑Cc=1PromDeg(c)∑Cc=1AttenDeg(c)∑Cc=1Purity(c)(11)

其中Cj代表了第j個(gè)聚類。

2.4熱點(diǎn)話題提取

對(duì)聚簇按出現(xiàn)熱點(diǎn)話題的可能性排序后,通過找出與聚類中心所描述的主題擬合程度最高的帖子,并抽取出最能描述熱點(diǎn)話題的標(biāo)簽,來完成熱點(diǎn)話題挖掘的工作。

由于聚類中心反映了聚簇中的平均的主題分布情況,通過找出與聚類中心語義相似度最大且關(guān)注度最高的帖子作為包含熱點(diǎn)話題的帖子樣例。本文使用JensenShannon散度[12]來計(jì)算帖子主題分布與聚類中心之間的擬合程度。JensenShannon散度公式如下:

DJS(PC)=12∑Kk=1P(k)lbP(k)M(k)+C(k)lbC(k)M(k)(12)log的底是多少,請(qǐng)明確。

其中M(k)表示兩概率分布中同一維度上的概率均值,可用式(13)來表示:

M(k)=12(P(k)+C(k))(13)

其中:P為帖子在主題空間的概率表示,C為聚類中心在主題空間的概率表示,K為主題空間的維數(shù)。

最后找出聚簇中占比重最大的主題,統(tǒng)計(jì)出在此主題下出現(xiàn)頻率最高且出現(xiàn)概率最大的若干個(gè)詞匯作為熱點(diǎn)話題的標(biāo)簽化描述。

3實(shí)驗(yàn)與結(jié)果分析

3.1主題噪聲閾值與聚類中心數(shù)的確定

對(duì)主題空間中表示的文本進(jìn)行聚類時(shí),不同的主題噪聲閾值與不同的聚類中心數(shù)目選擇會(huì)對(duì)聚類的質(zhì)量與速度產(chǎn)生不同的影響,而目前并沒有合適的規(guī)則對(duì)兩個(gè)值進(jìn)行選擇。通過對(duì)不同的主題噪聲閾值與聚類中心數(shù)進(jìn)行訓(xùn)練,選擇出最優(yōu)的聚類參數(shù)。

聚類效果的評(píng)價(jià)標(biāo)準(zhǔn)采用平均聚簇內(nèi)誤差平方和(Average Sum of Squared Errors,ASSE),值越小表示了聚簇內(nèi)部的樣本點(diǎn)越集中,聚類質(zhì)量越高,其形式如式(14)所示:

ASSE=∑Cc=1∑Nn=1xcn-xc2/C(14)

其中:xcn 為聚類c中的第n個(gè)樣本點(diǎn),xc為聚類中心。

實(shí)驗(yàn)中選擇了2763篇論壇帖子作為訓(xùn)練集,聚類采用Kmeans++算法,主題噪聲參數(shù)范圍設(shè)為[0,1],聚類中心的數(shù)目選擇為[5,100]。圖3與圖4分別顯示了不同的主題噪聲與聚類中心選擇對(duì)聚類質(zhì)量與速度的影響。

實(shí)驗(yàn)結(jié)果表明:聚類中心選擇不同值時(shí),當(dāng)主題噪聲閾值在區(qū)間[0,0.7)時(shí),聚類結(jié)果的ASSE值會(huì)顯著降低,閾值在區(qū)間[0.7,1)時(shí),ASSE值不會(huì)發(fā)生明顯變化,為了考慮次要主題對(duì)話題描述的意義,將主題噪聲閾值設(shè)置為0.75;圖4中的峰值顯示當(dāng)主題噪聲閾值設(shè)置過大,聚類中心數(shù)目較少時(shí)聚類時(shí)間開銷較大且不穩(wěn)定,當(dāng)閾值過小,聚類中心數(shù)目多時(shí)也會(huì)出現(xiàn)相同的狀況,考慮到聚類質(zhì)量相對(duì)較優(yōu)的情況下,參照?qǐng)D中時(shí)間開銷較低的區(qū)域,將聚類中心數(shù)目選擇為50,這樣就可以在保證聚類質(zhì)量同時(shí)提高聚類算法效率。

3.2聚簇評(píng)價(jià)與熱點(diǎn)話題發(fā)現(xiàn)

本文采用的實(shí)驗(yàn)數(shù)據(jù)來自用戶活躍的天涯論壇的經(jīng)濟(jì)論壇、股市論壇、理財(cái)前線、房產(chǎn)觀瀾這4個(gè)版塊,通過網(wǎng)絡(luò)爬蟲采集了從2013年7月1日到7月5日的帖子共11200篇。采用LDA主題模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行建模,主題個(gè)數(shù)K取100,模型的參數(shù)選擇原則為2.1.3節(jié)中所述。主題噪聲閾值設(shè)為0.75,之后將數(shù)據(jù)用Kmeans++算法進(jìn)行聚類,聚類中心數(shù)N設(shè)為50,最后對(duì)主題聚簇用評(píng)價(jià)方法對(duì)出現(xiàn)熱點(diǎn)話題的可能性進(jìn)行權(quán)重計(jì)算。

為了詳細(xì)分析主題聚簇評(píng)價(jià)效果,在圖5中列出了2013年7月2日當(dāng)天排名前4的聚簇各評(píng)價(jià)因子權(quán)重。從圖中分析得出:雖然有些主題聚簇的突發(fā)性與純凈度得分高,但關(guān)注度很低,可以判斷這是一類灌水貼,不能當(dāng)作熱點(diǎn)話題;而熱點(diǎn)話題的特征是關(guān)注度高,而且突發(fā)度與主題純凈度得分也比較高。圖中標(biāo)注的是排名最高的4個(gè)話題聚簇的主題詞依次是:大盤、板塊、期貨;貨幣、流動(dòng)性、銀行;百姓、貨幣、物價(jià);收益率、期限、風(fēng)險(xiǎn)。

4結(jié)語

本文基于LDA主題模型與Kmeans++聚類算法,提出了一種在論壇中挖掘熱點(diǎn)話題的方法。主要工作總結(jié)如下:

上一篇: 音樂課教案 下一篇: 機(jī)電一體化技術(shù)論文
相關(guān)精選
相關(guān)期刊