使用Gephi分析論壇社交關(guān)系網(wǎng)絡(luò)

本文用Python抓取QQ群論壇中的發(fā)貼、留言數(shù)據(jù),以此構(gòu)成社交關(guān)系數(shù)據(jù)弱左,再進(jìn)行數(shù)據(jù)處理,最后用Gephi繪制社交關(guān)系網(wǎng)絡(luò)圖炕淮。數(shù)據(jù)源選取的是QQ群論壇(一個收費(fèi)的成長學(xué)習(xí)論壇拆火,論壇沉淀了一年的數(shù)據(jù))。

步驟:
1)分析人物關(guān)系涂圆,確認(rèn)數(shù)據(jù)抓取方式
2)編寫Python程序抓取人物關(guān)系數(shù)據(jù)
3)數(shù)據(jù)清洗们镜,匯總
4)數(shù)據(jù)導(dǎo)入Gephi,調(diào)整參數(shù)繪制

一润歉、分析頁面模狭,確定抓取構(gòu)成人物關(guān)系的數(shù)據(jù)源

社交關(guān)系網(wǎng)絡(luò)的構(gòu)成是節(jié)點和邊,人物就是節(jié)點踩衩,邊(連線)即是關(guān)系嚼鹉。這個論壇采用的是一人一個主題貼,蓋樓的方式記錄學(xué)習(xí)成長驱富,其他人在主題貼下回復(fù)锚赤,回復(fù)即互動。

節(jié)點萌朱,就是論壇中的參與者(成長會成員)宴树。回復(fù)構(gòu)成連接晶疼,回復(fù)多即關(guān)系強(qiáng)(互動多酒贬,weight數(shù)值大)又憨。

所以在抓到數(shù)據(jù)時,就是抓取發(fā)貼數(shù)量锭吨,回復(fù)人即可蠢莺,即把頁面所有發(fā)表主題貼和回復(fù)貼的用戶名進(jìn)行抓取即可,再進(jìn)行數(shù)據(jù)匯總統(tǒng)計零如,就構(gòu)成社交關(guān)系數(shù)據(jù)(source -- 發(fā)貼人, target -- 回復(fù)者, weight -- 發(fā)貼人與回復(fù)者互動次數(shù))

發(fā)貼與回復(fù)

二躏将、Python爬蟲抓取數(shù)據(jù)

采用Scrapy框架編寫爬蟲抓取數(shù)據(jù):
1)論壇登錄問題,用Cookie登錄比較簡單考蕾。參見之前的文章《Scrapy用Cookie實現(xiàn)模擬登錄》

2)注意祸憋,論壇中主題貼,他人主題回復(fù)肖卧,在回復(fù)下的回復(fù)(樓中樓)使用了不同要標(biāo)簽樣式蚯窥,抓取時不要遺漏。采用一個比較簡單的檢查方式塞帐,選取一個發(fā)貼比較少的用戶拦赠,各種回復(fù)都出現(xiàn)的,抓取數(shù)據(jù)后進(jìn)行比對復(fù)查葵姥。

在反復(fù)檢查核對抓取一個用戶的數(shù)據(jù)后荷鼠,發(fā)現(xiàn)登錄用戶名的數(shù)據(jù)會出現(xiàn)在每一頁中,也會抓取下來榔幸,核對源代碼發(fā)現(xiàn)允乐,是因為論壇的每一頁下有一個發(fā)貼的地方。無法在程序抓取時排除牡辽,只能放到下面數(shù)據(jù)清洗時處理喳篇。

3)分頁抓到一個用戶所有數(shù)據(jù)
進(jìn)行第一頁時,獲到當(dāng)前用戶的頁數(shù)即可态辛,循環(huán)抓取一個用戶所有頁的發(fā)貼麸澜、留言、回貼的用戶名奏黑。

4)抓取所有用戶
由于論壇用戶是順序編號炊邦,論壇是Restful架構(gòu)風(fēng)格,只要一個循環(huán)可以抓取所有用戶的社交信息熟史。只不過進(jìn)入頁面需要判斷這個頁面是不是有效頁面馁害,因為可能id已費(fèi)掉,沒有數(shù)據(jù)蹂匹。

爬蟲數(shù)據(jù)保存用了CSV文件碘菜,剛開始是準(zhǔn)備采用Excel分類匯總的進(jìn)行統(tǒng)計,后來還是導(dǎo)入mysql數(shù)據(jù)庫匯總比較方便。一共抓取數(shù)據(jù) 36,603 條忍啸。

三仰坦、數(shù)據(jù)清理,構(gòu)建數(shù)據(jù)源數(shù)據(jù)

數(shù)據(jù)清理包括:
1)數(shù)據(jù)匯總计雌,匯總社交關(guān)系值weight

select aid as source,bid as target,count(bid) as weight  from bbs.link  group by aid,bid

2)手動清理頁面中抓到的無效數(shù)據(jù)
3)對論壇管理員的數(shù)據(jù)檢查悄晃,重命名(管理員沒有進(jìn)行編號)
4)對異常數(shù)據(jù)檢查核對,發(fā)現(xiàn)有論壇中有人申請了重號凿滤,未對這部分?jǐn)?shù)據(jù)一一校正妈橄,刪除數(shù)據(jù)38條
5)數(shù)據(jù)導(dǎo)出CSV格式,共計 9,587 條 翁脆,三列 source ,target, weight

部分?jǐn)?shù)據(jù)

四眷蚓、使用Gephi繪制社交網(wǎng)絡(luò)關(guān)系圖

Gephi介紹:Gephi是一款開源基于JVM的復(fù)雜網(wǎng)格分析軟件,主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng)反番,動態(tài)和分層圖的交互可視化工具溪椎。用于探索性數(shù)據(jù)分析,鏈接分析恬口,社交網(wǎng)絡(luò)分析,生物網(wǎng)絡(luò)分析等沼侣。

1)導(dǎo)入數(shù)據(jù)
在Gephi的“數(shù)據(jù)資料” -- “輸入電子表格”祖能,進(jìn)行數(shù)據(jù)導(dǎo)入。
注意導(dǎo)入數(shù)據(jù)后蛾洛,要復(fù)制數(shù)據(jù)ID列 到 Label列养铸,Label才會顯示到Gephi圖形的節(jié)點標(biāo)簽上。

導(dǎo)入CSV數(shù)據(jù)

2)調(diào)整Gephi的參數(shù)轧膘,生成網(wǎng)絡(luò)關(guān)系圖


全圖
局部圖

2016年很快就過去了钞螟,這一年你記錄了哪些,有哪些進(jìn)步谎碍,又連接了哪些人鳞滨,歡迎在評論中留言分享。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蟆淀,一起剝皮案震驚了整個濱河市拯啦,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌熔任,老刑警劉巖褒链,帶你破解...
    沈念sama閱讀 216,591評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異疑苔,居然都是意外死亡甫匹,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,448評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來兵迅,“玉大人抢韭,你說我怎么就攤上這事∨缂妫” “怎么了篮绰?”我有些...
    開封第一講書人閱讀 162,823評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長季惯。 經(jīng)常有香客問我吠各,道長,這世上最難降的妖魔是什么勉抓? 我笑而不...
    開封第一講書人閱讀 58,204評論 1 292
  • 正文 為了忘掉前任贾漏,我火速辦了婚禮,結(jié)果婚禮上藕筋,老公的妹妹穿的比我還像新娘纵散。我一直安慰自己,他們只是感情好隐圾,可當(dāng)我...
    茶點故事閱讀 67,228評論 6 388
  • 文/花漫 我一把揭開白布伍掀。 她就那樣靜靜地躺著,像睡著了一般暇藏。 火紅的嫁衣襯著肌膚如雪蜜笤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,190評論 1 299
  • 那天盐碱,我揣著相機(jī)與錄音把兔,去河邊找鬼。 笑死瓮顽,一個胖子當(dāng)著我的面吹牛县好,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播暖混,決...
    沈念sama閱讀 40,078評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼缕贡,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了儒恋?” 一聲冷哼從身側(cè)響起善绎,我...
    開封第一講書人閱讀 38,923評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎诫尽,沒想到半個月后禀酱,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,334評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡牧嫉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,550評論 2 333
  • 正文 我和宋清朗相戀三年剂跟,在試婚紗的時候發(fā)現(xiàn)自己被綠了减途。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,727評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡曹洽,死狀恐怖鳍置,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情送淆,我是刑警寧澤税产,帶...
    沈念sama閱讀 35,428評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站偷崩,受9級特大地震影響辟拷,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜阐斜,卻給世界環(huán)境...
    茶點故事閱讀 41,022評論 3 326
  • 文/蒙蒙 一衫冻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧谒出,春花似錦隅俘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,672評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至杀狡,卻和暖如春颜骤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背捣卤。 一陣腳步聲響...
    開封第一講書人閱讀 32,826評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留八孝,地道東北人董朝。 一個月前我還...
    沈念sama閱讀 47,734評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像干跛,于是被迫代替她去往敵國和親子姜。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,619評論 2 354

推薦閱讀更多精彩內(nèi)容