數(shù)據(jù)分析 論文作者信息關(guān)聯(lián)

任務(wù):作者信息關(guān)聯(lián)

1 任務(wù)說(shuō)明

  • 學(xué)習(xí)主題:作者關(guān)聯(lián)(數(shù)據(jù)建模任務(wù)),對(duì)論文作者關(guān)系進(jìn)行建模虐骑,統(tǒng)計(jì)最常出現(xiàn)的作者關(guān)系;
  • 學(xué)習(xí)內(nèi)容:構(gòu)建作者關(guān)系圖,挖掘作者關(guān)系
  • 學(xué)習(xí)成果:論文作者知識(shí)圖譜、圖關(guān)系挖掘

2 數(shù)據(jù)處理步驟

將作者列表進(jìn)行處理未蝌,并完成統(tǒng)計(jì)煌寇。具體步驟如下:

  • 將論文第一作者與其他作者(論文非第一作者)構(gòu)建圖;
  • 使用圖算法統(tǒng)計(jì)圖中作者與其他作者的聯(lián)系疫蔓;

3 社交網(wǎng)絡(luò)分析

圖是復(fù)雜網(wǎng)絡(luò)研究中的一個(gè)重要概念。Graph是用點(diǎn)來(lái)刻畫離散事物集合中的每對(duì)事物間以某種方式相聯(lián)系的數(shù)學(xué)模型身冬。Graph在現(xiàn)實(shí)世界中隨處可見(jiàn)衅胀,如交通運(yùn)輸圖、旅游圖酥筝、流程圖等滚躯。利用圖可以描述現(xiàn)實(shí)生活中的許多事物,如用點(diǎn)可以表示交叉口嘿歌,點(diǎn)之間的連線表示路徑掸掏,這樣就可以輕而易舉的描繪出一個(gè)交通運(yùn)輸網(wǎng)絡(luò)。

3.1 圖類型

  • 無(wú)向圖搅幅,忽略了兩節(jié)點(diǎn)間邊的方向阅束。

  • 指有向圖,考慮了邊的有向性茄唐。

  • 多重?zé)o向圖息裸,即兩個(gè)結(jié)點(diǎn)之間的邊數(shù)多于一條,又允許頂點(diǎn)通過(guò)同一條邊和自己關(guān)聯(lián)沪编。

3.2 圖統(tǒng)計(jì)指標(biāo)

  • 度:是指和該節(jié)點(diǎn)相關(guān)聯(lián)的邊的條數(shù)呼盆,又稱關(guān)聯(lián)度。對(duì)于有向圖蚁廓,節(jié)點(diǎn)的入度 是指進(jìn)入該節(jié)點(diǎn)的邊的條數(shù)访圃;節(jié)點(diǎn)的出度是指從該節(jié)點(diǎn)出發(fā)的邊的條數(shù);

  • 迪杰斯特拉路徑(Dijkstra算法):.從一個(gè)源點(diǎn)到其它各點(diǎn)的最短路徑相嵌,可使用迪杰斯特拉算法來(lái)求最短路徑腿时;
    算法邏輯:


    image.png
  • 連通圖:在一個(gè)無(wú)向圖 G 中况脆,若從頂點(diǎn)i到頂點(diǎn)j有路徑相連,則稱i和j是連通的批糟。如果 G 是有向圖格了,那么連接i和j的路徑中所有的邊都必須同向。如果圖中任意兩點(diǎn)都是連通的徽鼎,那么圖被稱作連通圖盛末。如果此圖是有向圖,則稱為強(qiáng)連通圖否淤。

對(duì)于其他圖算法悄但,可以在networkx和igraph兩個(gè)庫(kù)中找到。

4 具體代碼以及講解

首先讀取我們想要的數(shù)據(jù):

data  = [] #初始化
#使用with語(yǔ)句優(yōu)勢(shì):1.自動(dòng)關(guān)閉文件句柄石抡;2.自動(dòng)顯示(處理)文件讀取數(shù)據(jù)異常
with open("arxiv-metadata-oai-snapshot.json", 'r') as f: 
    for idx, line in enumerate(f): 
        d = json.loads(line)
        d = {'authors_parsed': d['authors_parsed']}
        data.append(d)

data = pd.DataFrame(data) #將list變?yōu)閐ataframe格式檐嚣,方便使用pandas進(jìn)行分析

創(chuàng)建作者鏈接的無(wú)向圖:

import networkx as nx 
# 創(chuàng)建無(wú)向圖
G = nx.Graph()

# 只用五篇論文進(jìn)行構(gòu)建
for row in data.iloc[:5].itertuples():
    authors = row[1]
    authors = [' '.join(x[:-1]) for x in authors]

    # 第一個(gè)作者 與 其他作者鏈接
    for author in authors[1:]:
        G.add_edge(authors[0],author) # 添加節(jié)點(diǎn)2,3并鏈接23節(jié)點(diǎn)

將作者關(guān)系圖進(jìn)行繪制:

nx.draw(G, with_labels=True)
image.png

得到作者之間的距離:

try:
    print(nx.dijkstra_path(G, 'Balázs C.', 'Ziambaras Eleni'))
except:
    print('No path')

如果我們500片論文構(gòu)建圖汁雷,則可以得到更加完整作者關(guān)系净嘀,并選擇最大聯(lián)通子圖進(jìn)行繪制,折線圖為子圖節(jié)點(diǎn)度值侠讯。

計(jì)算論文關(guān)系中有多少個(gè)聯(lián)通子圖

print(len(nx.communicability(G)))

plt.loglog(degree_sequence, "b-", marker="o")
plt.title("Degree rank plot")
plt.ylabel("degree")
plt.xlabel("rank")

# draw graph in inset
plt.axes([0.45, 0.45, 0.45, 0.45])
Gcc = G.subgraph(sorted(nx.connected_components(G), key=len, reverse=True)[0])

pos = nx.spring_layout(Gcc)
plt.axis("off")
nx.draw_networkx_nodes(Gcc, pos, node_size=20)
nx.draw_networkx_edges(Gcc, pos, alpha=0.4)
plt.show()
image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市暑刃,隨后出現(xiàn)的幾起案子厢漩,更是在濱河造成了極大的恐慌,老刑警劉巖岩臣,帶你破解...
    沈念sama閱讀 212,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件溜嗜,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡架谎,警方通過(guò)查閱死者的電腦和手機(jī)炸宵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)谷扣,“玉大人土全,你說(shuō)我怎么就攤上這事』嵯眩” “怎么了裹匙?”我有些...
    開封第一講書人閱讀 158,369評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)末秃。 經(jīng)常有香客問(wèn)我概页,道長(zhǎng),這世上最難降的妖魔是什么练慕? 我笑而不...
    開封第一講書人閱讀 56,799評(píng)論 1 285
  • 正文 為了忘掉前任惰匙,我火速辦了婚禮技掏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘项鬼。我一直安慰自己哑梳,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評(píng)論 6 386
  • 文/花漫 我一把揭開白布秃臣。 她就那樣靜靜地躺著涧衙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪奥此。 梳的紋絲不亂的頭發(fā)上弧哎,一...
    開封第一講書人閱讀 50,096評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音稚虎,去河邊找鬼撤嫩。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蠢终,可吹牛的內(nèi)容都是我干的序攘。 我是一名探鬼主播,決...
    沈念sama閱讀 39,159評(píng)論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼寻拂,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼程奠!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起祭钉,我...
    開封第一講書人閱讀 37,917評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤瞄沙,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后慌核,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體距境,經(jīng)...
    沈念sama閱讀 44,360評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評(píng)論 2 327
  • 正文 我和宋清朗相戀三年垮卓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了垫桂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,814評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡粟按,死狀恐怖诬滩,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情钾怔,我是刑警寧澤碱呼,帶...
    沈念sama閱讀 34,509評(píng)論 4 334
  • 正文 年R本政府宣布,位于F島的核電站宗侦,受9級(jí)特大地震影響愚臀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜矾利,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評(píng)論 3 317
  • 文/蒙蒙 一姑裂、第九天 我趴在偏房一處隱蔽的房頂上張望馋袜。 院中可真熱鬧,春花似錦舶斧、人聲如沸欣鳖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)泽台。三九已至,卻和暖如春矾缓,著一層夾襖步出監(jiān)牢的瞬間怀酷,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工嗜闻, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蜕依,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,641評(píng)論 2 362
  • 正文 我出身青樓琉雳,卻偏偏與公主長(zhǎng)得像样眠,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子翠肘,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容