在經(jīng)過(guò)對(duì)數(shù)據(jù)的采集、清理、存儲(chǔ)以及計(jì)算分析后凡泣,就到了將其可視化的階段。我們?cè)?眾多的可視化工具選擇了 echarts,并且找到與 python 結(jié)合的可直接使用包—pyecharts鞋拟,它 易于使用骂维,且效果圖美觀,為數(shù)據(jù)的可視化提供了很大的方便贺纲。具體使用方法請(qǐng)參考官網(wǎng): http://pyecharts.org/#/航闺。
我們從論文所屬國(guó)家、機(jī)構(gòu)猴誊、關(guān)鍵字潦刃、作者合作關(guān)系四個(gè)角度出發(fā),準(zhǔn)備對(duì)數(shù)據(jù)進(jìn)行分 析懈叹。其中包括柱狀圖福铅、折線圖、餅圖项阴、詞云圖滑黔、關(guān)系圖,對(duì)應(yīng)的名為 Bar环揽、Line略荡、Pie、WordCloud歉胶、 Graph汛兜。
在此介紹一下多圖表Page類,在創(chuàng)建一個(gè) page 實(shí)例后通今,可以將想要列在同一頁(yè)的圖 表實(shí)例添加到該實(shí)例中粥谬。
# 創(chuàng)建 page 實(shí)例
page = Page("AAAI 會(huì)議國(guó)家論文數(shù)據(jù)分析 ")
Bar, Line, Pie = ......
# 添加圖表 Bar, Line, Pie 到 page 中
page.add(Bar)
page.add(Line)
page.add(Pie)
# 將 page 保存為 html 文件
page.render(path='Country_analysis.html')
對(duì)于作圖,要考慮的問(wèn)題是傳入數(shù)據(jù)格式與對(duì)應(yīng)圖表要求的配置相同辫塌。需要將從數(shù)據(jù)庫(kù) 導(dǎo)出的數(shù)據(jù)進(jìn)行計(jì)算以及轉(zhuǎn)換為需要的格式漏策。例如,制作“2010-2017 年發(fā)表論文總數(shù)前 12名國(guó)家 ”柱狀圖時(shí)臼氨,需要數(shù)據(jù)格式為: country = ["國(guó)家 1","國(guó)家 2", ...], 對(duì)應(yīng)的論文總 數(shù) article_num = [1, 2, ...];作者合作關(guān)系圖需要的數(shù)據(jù)格式較為復(fù)雜:
每個(gè)作者的節(jié)點(diǎn)數(shù)據(jù)nodedata=[("作者名字", 貢獻(xiàn)因子,"國(guó)家",(合作者數(shù)據(jù))),...] 其中 合作者數(shù)據(jù) = ("合作者 1", 合作次數(shù)), ("合作者 2", 合作次數(shù)),... 例如:nodedata = [
("Sun", 3, (("Zhao", 2), ("Qian", 3), ("Li", 9))),
("Li", 4, (("Wu", 4), ("Wang", 5), ("Huang", 7), ("Qian", 3))), ("Zhao", 2),
("Qian", 1),
("Wu", 1),
("Wang", 2),
("Huang", 2)
]
在獲得需要的數(shù)據(jù)后掺喻,我們首先對(duì)各國(guó) 2010-2017 年發(fā)表的論文數(shù)進(jìn)行統(tǒng)計(jì)。從下面 三張圖中我們可以看到美國(guó)在AAAI會(huì)議上發(fā)表人工智能方面的論文數(shù)一直處于遙遙領(lǐng)先的 狀態(tài)储矩,我國(guó)則緊隨其后感耙,是發(fā)展勢(shì)頭最猛的第二國(guó)家。
再次持隧,我們將所有論文的第一作者歸屬為其所在機(jī)構(gòu)即硼,分析獲得了以下兩圖÷挪Γ可以看到 我們國(guó)家高等高校及組織對(duì)研究人工智能方向的熱情只酥,有 5 名高校及組織的第一作者發(fā)表論 文數(shù)已經(jīng)躋身世界前列题诵。
聚焦到國(guó)內(nèi)的狀況,我們統(tǒng)計(jì)了各大高校及組織所有發(fā)表的論文數(shù)层皱,并排名選取了前十 名,南京大學(xué)已入圍前四赠潦,可喜可賀叫胖。
再來(lái)對(duì)我南京大學(xué)分析一波。經(jīng)過(guò)篩選統(tǒng)計(jì)她奥,我校在 2010-2017 年間在 AAAI 會(huì)議上發(fā) 表關(guān)于人工智能論文的作者共有 49 位瓮增。我們將 49 位作者選取了前 30 位權(quán)重最高的,并把 他們的合作者(包括校外以及國(guó)外作者)畫入到關(guān)系圖中哩俭。我校貢獻(xiàn)因子最高的兩位是周志 華老師绷跑、李武軍老師。
除此之外凡资,我們對(duì)收集到的關(guān)鍵詞進(jìn)行了統(tǒng)計(jì)分析砸捏,選取了頻次最高的 100 個(gè)詞做成 了一下的詞云圖,字體越大表示出現(xiàn)的頻次越高隙赁】巡兀可以看到最主要的熱詞有 Machine learning (機(jī)器學(xué)習(xí))、Reinforcement learning(強(qiáng)化學(xué)習(xí))伞访、Game theory(博弈論)掂骏、Deep learning (深度學(xué)習(xí))等。