聚類分析的網(wǎng)絡(luò)論壇社團(tuán)探測算法探究論文
1引言
網(wǎng)絡(luò)論壇(BBS)由于具有及時性、交互性、開放性等特點(diǎn),因而也是網(wǎng)絡(luò)輿論產(chǎn)生、形成和發(fā)展的主要場所,整個網(wǎng)絡(luò)論壇的參與者呈現(xiàn)一種特性—社團(tuán)結(jié)構(gòu),即整個網(wǎng)絡(luò)由若干個社團(tuán)構(gòu)成,每個社團(tuán)內(nèi)部的節(jié)點(diǎn)之間的連接相對緊密,各社團(tuán)之間的連接相對稀疏.研究網(wǎng)絡(luò)論壇的社團(tuán)結(jié)構(gòu),對了解BBS中網(wǎng)絡(luò)輿論的傳播特點(diǎn)具有現(xiàn)實意義.
網(wǎng)絡(luò)論壇中成員根據(jù)興趣或背景而形成真實的社會團(tuán)體,網(wǎng)絡(luò)中的這些社區(qū)有助于更加有效地理解其成員結(jié)構(gòu)和分析網(wǎng)絡(luò)輿論傳播特性.目前對網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)研究主要有兩類主要的方法—社會學(xué)中的分級聚類和計算機(jī)科學(xué)中的圖形分割方法.分級聚類是探測網(wǎng)絡(luò)社團(tuán)的傳統(tǒng)方法,基于各個節(jié)點(diǎn)間連接的相似性或強(qiáng)度將網(wǎng)絡(luò)劃分成子群,并根據(jù)劃分時是往網(wǎng)絡(luò)中添加還是移除邊可分為凝聚算法和分裂算法,Girvan和Newman提出基于邊介數(shù)的分裂算法(簡稱GN算法);Kemighan—Lin算法和譜平分法則是較為出名的圖形分割算法,其中Kernighan—Lin算法根據(jù)使社團(tuán)內(nèi)部及社團(tuán)間的邊最優(yōu)化的原則對原始的網(wǎng)絡(luò)進(jìn)行分類,譜平分法是根據(jù)網(wǎng)絡(luò)圖的Laplace矩陣進(jìn)行向特征向量空間的譜映射.該文算法是譜平分法的一種改進(jìn)算法,將模塊度函數(shù)與聚類分析算法結(jié)合進(jìn)行社團(tuán)結(jié)構(gòu)探測.
2試驗及結(jié)果
海峽四川釣友聯(lián)誼會是海峽釣魚網(wǎng)的一個子板塊,其中參與者大部分為四川本地釣魚愛好者,論壇成員具有共同的興趣愛好.該板塊為四川釣魚愛好者的學(xué)習(xí)與交流提供了一條新途徑.針對相關(guān)主題,論壇成員可以提出問題、發(fā)表各自的觀點(diǎn)和看法,相互交流,相互幫助.
實際數(shù)據(jù)處理時,根據(jù)對己掌握的id對應(yīng)關(guān)系,對部分id進(jìn)行了特別處理,例如將“清涼油”和“151”這2個id合并處理,將“被草壓死的駱駝”與“駱駝”,“黑武器”與“黑版”視為同一個id.
2. 1連接權(quán)矩陣的生成
該文從6000余名在該論壇中發(fā)言的成員中篩選出滿足各種閾值條件的`成員1436人,并生成對應(yīng)的連接權(quán)矩陣.
2. 2對比試驗
為驗證算法的有效性,該文將該論壇數(shù)據(jù)分別運(yùn)用K-Means算法,CNN算法以及該文的基于模擬退火的社團(tuán)探測算法.其中,K -Means算法是常見的聚類算法,是基于距離聚類中心最近法則為標(biāo)準(zhǔn)對個體進(jìn)行分類的;而CNN算法則采用競爭型神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行無監(jiān)督學(xué)習(xí)的分類.這里要注意的是,這里所有的算法程序都用matlab編寫.
這里運(yùn)行次數(shù)為得到最優(yōu)解的平均運(yùn)行次數(shù),時間為平均運(yùn)行時間.
表2給出了應(yīng)用C - based SA算法模塊度在0.36以上的聚類結(jié)果,k=3,4,5時模塊度較高.
圖1給出了k =5,降溫速率為0.997時的探測算法的迭代過程,迭代到2300次左右就己經(jīng)求出了最優(yōu)解.
2. 3結(jié)果分析
通過對實際數(shù)據(jù)運(yùn)行3種不同的社團(tuán)探測算法,結(jié)果表明:K-Means算法速度較快,但受初始化條件影響較大,可靠性也比其他兩種算法差,網(wǎng)絡(luò)規(guī)模擴(kuò)大對算法性能影響較大;CNN算法對初始化條件依賴程度較K-Means算法較低,但運(yùn)算速度較慢,并且對數(shù)據(jù)預(yù)處理需要花較長的時間;三種算法中,C-based SA算法不依賴初始化條件的選取,直接使用模塊度函數(shù)作為目標(biāo)函數(shù)對網(wǎng)絡(luò)進(jìn)行社團(tuán)探測,能保證達(dá)到全局最優(yōu)解,可靠性較其他兩種算法要高,該算法的復(fù)雜度依賴于系統(tǒng)降溫速率的設(shè)置,其缺點(diǎn)是運(yùn)行時間較長.
3結(jié)束語
提出了針對網(wǎng)絡(luò)論壇的社交網(wǎng)絡(luò)的構(gòu)建方法,將組合優(yōu)化的方法與聚類分析的思想相互結(jié)合并應(yīng)用到網(wǎng)絡(luò)論壇社團(tuán)結(jié)構(gòu)的求取上,并提出了用模擬退火算法來求解,解決了實際工作實踐中遇到的問題.試驗結(jié)果驗證了算法的準(zhǔn)確性,模擬退火算法與聚類分析的思想能有效的結(jié)合起來,對論壇社團(tuán)結(jié)構(gòu)進(jìn)行分析有較大的實用價值.
試驗結(jié)果同時說明,基于興趣的網(wǎng)絡(luò)論壇中的社交網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)不太明顯,值得注意的是,該文使用的是非重疊性的社團(tuán)探測算法,考慮到實際網(wǎng)絡(luò)中,個體往往具有多群體特性,因此,改進(jìn)社團(tuán)結(jié)構(gòu)的定義以及在此基礎(chǔ)上探索新的社團(tuán)劃分方法是一個值得研究的方向.
【聚類分析的網(wǎng)絡(luò)論壇社團(tuán)探測算法探究論文】相關(guān)文章:
算法類論文開題報告11-11
應(yīng)用文寫作網(wǎng)絡(luò)化教學(xué)探究論文07-27
《路史》的寫作特征探究論文07-29
績效工資的算法10-13
失業(yè)保險的算法06-10
年假加班工資的算法10-10
高中英語寫作教學(xué)探究的論文06-19