本文用Python抓取QQ群論壇中的發(fā)貼、留言數(shù)據(jù),以此構(gòu)成社交關(guān)系數(shù)據(jù)弱左,再進(jìn)行數(shù)據(jù)處理,最后用Gephi繪制社交關(guān)系網(wǎng)絡(luò)圖炕淮。數(shù)據(jù)源選取的是QQ群論壇(一個收費(fèi)的成長學(xué)習(xí)論壇拆火,論壇沉淀了一年的數(shù)據(jù))。
步驟:
1)分析人物關(guān)系涂圆,確認(rèn)數(shù)據(jù)抓取方式
2)編寫Python程序抓取人物關(guān)系數(shù)據(jù)
3)數(shù)據(jù)清洗们镜,匯總
4)數(shù)據(jù)導(dǎo)入Gephi,調(diào)整參數(shù)繪制
一润歉、分析頁面模狭,確定抓取構(gòu)成人物關(guān)系的數(shù)據(jù)源
社交關(guān)系網(wǎng)絡(luò)的構(gòu)成是節(jié)點和邊,人物就是節(jié)點踩衩,邊(連線)即是關(guān)系嚼鹉。這個論壇采用的是一人一個主題貼,蓋樓的方式記錄學(xué)習(xí)成長驱富,其他人在主題貼下回復(fù)锚赤,回復(fù)即互動。
節(jié)點萌朱,就是論壇中的參與者(成長會成員)宴树。回復(fù)構(gòu)成連接晶疼,回復(fù)多即關(guān)系強(qiáng)(互動多酒贬,weight數(shù)值大)又憨。
所以在抓到數(shù)據(jù)時,就是抓取發(fā)貼數(shù)量锭吨,回復(fù)人即可蠢莺,即把頁面所有發(fā)表主題貼和回復(fù)貼的用戶名進(jìn)行抓取即可,再進(jìn)行數(shù)據(jù)匯總統(tǒng)計零如,就構(gòu)成社交關(guān)系數(shù)據(jù)(source -- 發(fā)貼人, target -- 回復(fù)者, weight -- 發(fā)貼人與回復(fù)者互動次數(shù))
二躏将、Python爬蟲抓取數(shù)據(jù)
采用Scrapy框架編寫爬蟲抓取數(shù)據(jù):
1)論壇登錄問題,用Cookie登錄比較簡單考蕾。參見之前的文章《Scrapy用Cookie實現(xiàn)模擬登錄》
2)注意祸憋,論壇中主題貼,他人主題回復(fù)肖卧,在回復(fù)下的回復(fù)(樓中樓)使用了不同要標(biāo)簽樣式蚯窥,抓取時不要遺漏。采用一個比較簡單的檢查方式塞帐,選取一個發(fā)貼比較少的用戶拦赠,各種回復(fù)都出現(xiàn)的,抓取數(shù)據(jù)后進(jìn)行比對復(fù)查葵姥。
在反復(fù)檢查核對抓取一個用戶的數(shù)據(jù)后荷鼠,發(fā)現(xiàn)登錄用戶名的數(shù)據(jù)會出現(xiàn)在每一頁中,也會抓取下來榔幸,核對源代碼發(fā)現(xiàn)允乐,是因為論壇的每一頁下有一個發(fā)貼的地方。無法在程序抓取時排除牡辽,只能放到下面數(shù)據(jù)清洗時處理喳篇。
3)分頁抓到一個用戶所有數(shù)據(jù)
進(jìn)行第一頁時,獲到當(dāng)前用戶的頁數(shù)即可态辛,循環(huán)抓取一個用戶所有頁的發(fā)貼麸澜、留言、回貼的用戶名奏黑。
4)抓取所有用戶
由于論壇用戶是順序編號炊邦,論壇是Restful架構(gòu)風(fēng)格,只要一個循環(huán)可以抓取所有用戶的社交信息熟史。只不過進(jìn)入頁面需要判斷這個頁面是不是有效頁面馁害,因為可能id已費(fèi)掉,沒有數(shù)據(jù)蹂匹。
爬蟲數(shù)據(jù)保存用了CSV文件碘菜,剛開始是準(zhǔn)備采用Excel分類匯總的進(jìn)行統(tǒng)計,后來還是導(dǎo)入mysql數(shù)據(jù)庫匯總比較方便。一共抓取數(shù)據(jù) 36,603 條忍啸。
三仰坦、數(shù)據(jù)清理,構(gòu)建數(shù)據(jù)源數(shù)據(jù)
數(shù)據(jù)清理包括:
1)數(shù)據(jù)匯總计雌,匯總社交關(guān)系值weight
select aid as source,bid as target,count(bid) as weight from bbs.link group by aid,bid
2)手動清理頁面中抓到的無效數(shù)據(jù)
3)對論壇管理員的數(shù)據(jù)檢查悄晃,重命名(管理員沒有進(jìn)行編號)
4)對異常數(shù)據(jù)檢查核對,發(fā)現(xiàn)有論壇中有人申請了重號凿滤,未對這部分?jǐn)?shù)據(jù)一一校正妈橄,刪除數(shù)據(jù)38條
5)數(shù)據(jù)導(dǎo)出CSV格式,共計 9,587 條 翁脆,三列 source ,target, weight
四眷蚓、使用Gephi繪制社交網(wǎng)絡(luò)關(guān)系圖
Gephi介紹:Gephi是一款開源基于JVM的復(fù)雜網(wǎng)格分析軟件,主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng)反番,動態(tài)和分層圖的交互可視化工具溪椎。用于探索性數(shù)據(jù)分析,鏈接分析恬口,社交網(wǎng)絡(luò)分析,生物網(wǎng)絡(luò)分析等沼侣。
1)導(dǎo)入數(shù)據(jù)
在Gephi的“數(shù)據(jù)資料” -- “輸入電子表格”祖能,進(jìn)行數(shù)據(jù)導(dǎo)入。
注意導(dǎo)入數(shù)據(jù)后蛾洛,要復(fù)制數(shù)據(jù)ID列 到 Label列养铸,Label才會顯示到Gephi圖形的節(jié)點標(biāo)簽上。
2)調(diào)整Gephi的參數(shù)轧膘,生成網(wǎng)絡(luò)關(guān)系圖
2016年很快就過去了钞螟,這一年你記錄了哪些,有哪些進(jìn)步谎碍,又連接了哪些人鳞滨,歡迎在評論中留言分享。