最近忙于學(xué)術(shù),公眾號更新的有點(diǎn)慢了宙彪,在這里給大家個歉,希望大家能繼續(xù)支持我有巧。由于學(xué)術(shù)需要释漆,未來一段時間,我以后會有一些文本分析的腳本要出現(xiàn)篮迎,希望大家喜歡男图。
目前簡單的文本分析已經(jīng)滿足我人物需要示姿,所以還不會去學(xué)機(jī)器學(xué)習(xí),任務(wù)導(dǎo)向是最好的學(xué)習(xí)方法逊笆。希望大家也能找點(diǎn)有意思任務(wù)栈戳,python下。
今天給大家?guī)砦覍懞玫哪_本难裆,用來分析社會網(wǎng)絡(luò)關(guān)系子檀。
這個圖我沒有用到gephi或者其他的工具,是我用python純腳本運(yùn)行出來的乃戈。簡單的實(shí)現(xiàn)了封裝褂痰,大家有興趣可以下載下腳本,運(yùn)行下症虑。
原理知識
我就簡單說下原理吧缩歪,先刻畫一個簡單的圖A
雙節(jié)點(diǎn),有方向A-->B
添加更多節(jié)點(diǎn)
好了谍憔,同樣的道理匪蝙,咱們建立角色詞典,插入節(jié)點(diǎn)列表习贫,然后遍歷插入有向邊關(guān)系骗污,就能做出這圖
詳情大家可以去看看實(shí)驗(yàn)樓網(wǎng)
《Python基于共現(xiàn)提取《釜山行》人物關(guān)系》
這篇文章寫的很好(希望不要黑我,我也是覺得真心好)沈条。我基本上借鑒了這篇文章思路寫今天這個腳本需忿,實(shí)現(xiàn)了自動生成關(guān)系網(wǎng)絡(luò)圖。
準(zhǔn)備工作
一蜡歹、安裝matplotlib屋厘、networkx
二、解決matplotlib無法寫中文問題
1月而、找到pythonX\lib\site-packages\matplotlib\mpl-data\fonts\ttf文件夾
2汗洒、matplotlib默認(rèn)調(diào)用的為DejaVuSans.ttf字體文件,網(wǎng)上下載個微軟雅黑.ttf
3父款、將微軟雅黑文件名改為DejaVuSans.ttf粘貼到ttf文件夾下即可溢谤。
腳本文件簡介
你下載后腳本文件夾名為:人民的名義
其中的relationship.py就是大鄧寫的庫(直接能調(diào)用的哦)
實(shí)現(xiàn)功能:
1、讀入小數(shù)數(shù)據(jù)和角色詞典后憨攒,對數(shù)據(jù)分詞后生成角色關(guān)系數(shù)據(jù)(有向關(guān)系數(shù)據(jù))
2世杀、無需gephi繪圖即可制作絢麗角色關(guān)系網(wǎng)絡(luò)圖。
注意:
1肝集、運(yùn)行腳本前瞻坝,文件夾中只保留角色名單.txt 人民的名義.txt 和 relationship.py
2、要想圖片好看點(diǎn)杏瞻,一定要聯(lián)網(wǎng)啊所刀。里面我寫了個爬蟲衙荐,爬取一個配色網(wǎng)站的配色值。
如果你們想單機(jī)也可以畫出好看的圖浮创,可以修改下代碼忧吟,將代碼爬蟲部分改成讀取本地顏色數(shù)據(jù)
使用示例
1、建好小說數(shù)據(jù)中的角色字典斩披,格式如下
2溜族、在文件夾中放入小說txt文件(人民的名義.txt)
3、在腳本文件夾中新建一個test.py文件
4雏掠、運(yùn)行
文件夾中生成了 人物關(guān)系圖.png斩祭、node_edge.txt和node_freq.txt文件。
node_edge.txt 有向圖關(guān)系數(shù)據(jù)乡话,可以后續(xù)導(dǎo)入gephi軟件自定義制圖
node_freq.txt 節(jié)點(diǎn)出現(xiàn)頻率
注意:每次運(yùn)行前請把人物關(guān)系圖.png摧玫、node_edge.txt和node_freq.txt文件刪除掉,再運(yùn)行
關(guān)注公眾號:大鄧帶你玩python
文中末尾附有腳本文件下載地址
更多內(nèi)容
文本分析
基于共現(xiàn)發(fā)現(xiàn)人物關(guān)系的python實(shí)現(xiàn)
爬蟲
【視頻】有了selenium邪乍,小白也可以自豪的說:“去TMD的抓包降狠、cookie”
【視頻】快來get新技能--抓包+cookie,爬微博不再是夢
用Python抓取百度地圖里的店名,地址和聯(lián)系方式
神奇的python