VOSviewer是眾多科學知識圖譜軟件之一辫秧,即通過“網絡數據”(主要是文獻知識單元)的關系構建和可視化分析,實現科學知識圖譜的繪制妻率,展現知識領域的結構乱顾、進化、合作等關系宫静,其突出特點是圖形展示能力強走净,適合大規(guī)模數據。
一孤里、VOSviewer概況
(一)開發(fā)歷程
VOSviewer是荷蘭萊頓大學科技研究中心[1](The Centre for Science and Technology Studies, CWTS)的van Eck 和Waltman[2]于2009年開發(fā)的一款基于JAVA的免費軟件温技,至今已更新至1.6.6版本(2017年10月23日發(fā)布)[3],主要面向文獻數據扭粱,適應于一模無向網絡的分析舵鳞,側重科學知識的可視化。
(二)下載安裝介紹
1琢蛤、本地安裝使用:JAVA(java 6或更高版本) + VOSviewer
(1)安裝JAVA6或更高版本:https://www.java.com/zh_CN/
(2)下載VOSviewer安裝包:http://www.vosviewer.com/download
- 提供windows蜓堕、mac OS X及其他系統三種系統安裝包支持)
(3)運行:解壓VOSviewer安裝包抛虏,直接點擊exe文件運行即可
2、網頁使用:
打開http://www.vosviewer.com/vosviewer.php套才,下載vosviewer.jnlp文件并啟動迂猴。
二、軟件功能介紹
(一)主要功能介紹
VOSviewer軟件設計的核心思想是“共現聚類”背伴,即兩個事物同時出現代表它們之間是相關的沸毁;這種相關關系存在多種類型,它們的強度和方向也不一樣傻寂;基于關系強度與方向的測度指標聚類息尺,可尋找不同類型的團體。
基于共現聚類的分析單元和聚類可視化效果疾掰,VOSviewer的主要功能可歸結如下:
1搂誉、支持多類數據格式
VOSviewer支持文獻數據庫、通用網絡數據及文本數據的導入和分析静檬。其中文獻數據庫指從web of science炭懊、Scopus等主流數據庫中下載文獻著錄數據,在此基礎上提取相應的字段構建共現網絡拂檩,如合作網絡侮腹、共詞網絡、共被引和耦合網絡等稻励;通用網絡數據指用戶可以自建節(jié)點父阻、聯系數據或者直接導入GML或Pajek等網絡數據文件實現共現聚類(附錄二);文本數據指VOSviewer可以從單行文本中提取主題詞钉迷,基于主題詞在單行中的共現進行聚類,其中文本數據可以來自用戶自建文件钠署,也可以來源于相應文獻數據庫中的標題或摘要字段糠聪。
2、提供多類視圖解讀
VOSviewer提供可視化視圖包括三種:network visualization(聚類視圖)谐鼎、overlay visualization(標簽視圖)舰蟆、density visualization(密度視圖)。
(1)Network visualization(聚類視圖)
visualization:圓圈和標簽組成一個元素狸棍,元素的大小取決于節(jié)點的度身害、連線的強度、被引量等草戈,元素的顏色代表其所屬的聚類塌鸯,不同的聚類用不同的顏色表示,通過該視圖可以查看每個單獨的聚類唐片,例如通過主題共現發(fā)現研究熱點的結構分布丙猬、通過作者合作發(fā)現研究小團體涨颜、通過作者耦合網絡發(fā)現學者對研究主題的異同情況等。
(2)Overlay visualization(標簽視圖)
visualization:區(qū)別于Networkvisualization的特點是用戶可以根據自己的研究需要茧球,通過map file文件中的score或顏色(紅庭瑰、綠、藍)字段對節(jié)點賦予不同的顏色抢埋。默認按關鍵詞的平均年份取score值進行顏色映射弹灭。
(3)Density visualization(密度視圖)
visualization:圖譜上每一點都會根據該點周圍元素的密度來填充顏色,密度越大揪垄,越接近紅色穷吮;相反,密度越小福侈,越接近藍色酒来。密度大小依賴于周圍區(qū)域元素的數量以及這些元素的重要性。密度視圖可用來快速觀察重要領域以及某一領域知識及研究密度情況肪凛。
(二)其他功能
1堰汉、數據清洗功能
數據清洗功能主要依賴于Thesaurus file文件,支持文獻數據和文本數據伟墙,不支持自定義網絡數據翘鸭。當基于文獻數據構建網絡時戳葵,Thesaurus file可以被用來合并標題生蚁、作者名志衣、機構名绿店、國家名、被引文獻;當基于文本數據構建網絡時羽戒,Thesaurus file可以用來合并同義詞企量、單詞的不同拼寫形式、縮寫形式等。Thesaurus file每一行都包含一個標簽(如人名、國家名等)和可替代標簽蟀架,如果可替代標簽為空瓣赂,則原本的標簽會被忽略顯示榆骚,這可以被用來當做語料庫的停頓詞片拍,或者忽略無意義的詞。
2妓肢、通用詞匯篩選功能
僅支持文本數據捌省,主要針對數量較大、通用性較強但缺乏研究價值的詞語碉钠,例如結論纲缓、方法等詞匯卷拘,VOSviewer可以計算每個名詞的相關度得分,允許用戶省略較低得分的主題詞祝高,從而只對具有特定意義的詞匯進行共現栗弟。
3、高級功能
(1)支持網頁發(fā)布工闺,節(jié)點及連線信息的顯示可以基于HTML(僅適用于自定義數據)
(2)支持使用命令行
(3)支持內存擴充(解決處理大批量數據內存不足的問題)
三乍赫、工作流程及實現技術
VOSviewer的處理流程與大部分的科學知識圖譜類軟件類似,即文件導入——信息單元抽嚷襟 (如作者雷厂、關鍵詞等)——建立共現矩陣——利用相似度計算對關系進行標準化處理——統計分析(一般描述統計+聚類)——可視化展現(布局+其它圖形屬性映射),其中叠殷,關鍵實現技術包括:
1改鲫、數據標準化:支持不標準化、Association strength林束、Fractionalization LinLog/modularity像棘。
2、聚類算法:VOS聚類
3诊县、布局算法:VOS布局
4讲弄、其它圖形屬性映射:支持用戶對(節(jié)點/標簽/連線/簇)大小/粗細、顏色依痊、形狀避除、標度等圖形屬性的設置。
四胸嘁、案例實踐
(一)基于關鍵詞共現分析信息計量領域的研究結構
1瓶摆、數據來源介紹
(1)檢索平臺:Web of science
(2)檢索式:SO=( SCIENTOMETRICS OR JOURNAL OF INFORMETRICS); 時間跨度: 所有年份性宏;索引: SCI-EXPANDED, SSCI,A&HCI群井;文獻類型不限。
(3)檢索結果:3874篇(檢索時間:2017.11.09)
(4)選取“全紀錄與引用的參考文獻”毫胜,并統一保存為制表符分隔文件(tab delimited)书斜。
2、數據清洗準備工作:編制詞表
(1)需要清洗哪些詞酵使?
A. 人名消歧(本例不需要)
B. 通用性強荐吉、無意義的詞(主要針對標題、摘要等口渔,關鍵詞一般不需要):vosviewer內部提供相應的算法样屠,可以計算出該詞的通用性,但僅適應于文本數據的分析,在文獻著錄信息中不能使用痪欲。
C. 含義相同悦穿、表述相異:縮寫詞(如social network analysis和SNA)、中英混用业踢、單復數(citation/citations)栗柒、同義詞、近義詞等知举。
(2)如何建立詞表
因為建立詞表的成本較高傍衡,如果經常做某個領域的分析或嚴謹性要求較高,可以建立相對完備的詞表负蠕,一般來說蛙埂,可以先將數據導入VOSviewer進行初步觀察和統計,如果發(fā)現干擾詞匯較多遮糖,可以只針對該批文獻集建立詞表绣的。本例利用OpenRefine對關鍵詞字段進行聚類,主要對出現頻次較高欲账、存在單復數或詞性不同的關鍵詞進行了合并屡江,形成如下的用于數據清洗的詞表:
3、數據分析與圖譜解讀
(1)導入數據赛不,并進行功能選擇
A. 分析單元類型:co-occurrence-all keyword(author keyword+keyword plus)
B. 計數方式:full counting
C. 節(jié)點過濾(過濾標準為節(jié)點的出現頻次≥3惩嘉、節(jié)點度排名前800,大約占總節(jié)點的10%) (2)圖譜調整與解讀
調整布局和聚類參數等獲得效果較好的聚類及布局踢故,并導出最終的數據結合圖譜進行分析文黎。
A. 聚類視圖
可以看出,cluster1主要針對專利技術的計量殿较,基于國家耸峭、企業(yè)層面,研究技術創(chuàng)新淋纲、研發(fā)及流動規(guī)律劳闹;cluster2主要是計量理論及方法的研究,其中洽瞬,方法上側重網絡分析本涕、引文分析、共詞分析伙窃、知識圖譜等菩颖,研究對象包括領域結構、發(fā)展演變規(guī)律等对供;cluster3是對計量指標的研究位他,基于引文的數量關系來構建和檢驗指標,從而運用到具體的領域产场,如排名鹅髓、科研評價等;cluster4是對針對傳統科學出版物(期刊京景、論文)的評價研究窿冯,除對基于引文的評價方法外,替代計量等新興指標頻次也較高确徙,此外醒串,對科學出版物的評價也圍繞不同學科和領域展開;cluster5是針對(國家鄙皇、大學芜赌、學者)科研產出的評價研究;cluster6是對科研合作的研究伴逸,主要運用網絡分析的相關方法缠沈,如社會網絡分析中各項測度指標,研究的層面包括學者層次错蝴,也涉及國際層面洲愤,包括簡單網絡分析,也涉及復雜網絡顷锰,不僅設計合作的結構特征柬赐,還包括合作結構的演化,cluster7是對跨學科/領域現象的測度研究官紫,該領域研究規(guī)模較其他領域相對較小肛宋,學者主要納米技術領域切入對學科交叉型進行測度。
B. 密度視圖
密度視圖可以發(fā)現某一研究領域的研究重點和熱點束世,可以看到信息計量領域的研究重點包括引文分析悼吱、科研產出評價、科研合作良狈、計量指標后添、網絡分析和專利技術創(chuàng)新。
此外薪丁,可以通過時間映射的標簽視圖探索該領域研究演化情況遇西。
(二)基于中文多源數據分析情報學近三年研究小團體
大部分文獻網絡可視化的軟件主要分析單一來源數據為主,借助自定義網絡數據的功能严嗜,可以分析來源不同的網絡粱檀,比如多個數據庫的融合,下面以情報學主要的四本中文核心期刊:情報學報(萬方收錄)漫玄、情報科學(CNKI收錄)茄蚯、情報理論與實踐(CNKI和萬方收錄)压彭、情報資料工作(CNKI和萬方收錄)近三年的發(fā)文為數據來源,建立作者合作網絡渗常,進行國內情報學研究小團體發(fā)現壮不。
1、數據來源介紹
(1)檢索平臺:中國知網和萬方
(2)檢索式:中國知網(JN=‘情報科學’+‘情報理論與實踐’+‘情報資料工作’)皱碘;
萬方(刊名:情報學報)询一;起始年:2015 結束年:2017
(3)檢索結果:中國知網(情報科學;情報理論與實踐;情報資料工作):2550篇;萬方(情報學報):335篇
2癌椿、數據格式轉換
將數據導入excel后篩選出作者字段健蕊,然后利用Gephi或bibexcel等工具建立作者的共現網絡,生成節(jié)點數據和關系數據踢俄,并建立VOSviewer的分析文件:AU_map.file和AU_net.file缩功,其中map文件中為作者id、標簽和發(fā)文數量,net為作者的合作關系,導出共現數據后保存在txt文件中宛官。
3没酣、數據分析與圖譜解讀
(三)基于被引文獻DOI分析信息計量領域的知識基礎
在待分析的文獻集中,引文的格式為一般為:(作者, 出版年, 來源期刊信息, DOI)因此在進行共被引分析時只能從被引作者和被引期刊來推測引文的主題(知識基礎),而VOSviewer最新版本推出的DOI數據分析一定程度上可以彌補之前對引文進行主題分析的限制。但該功能存在一定局限,一是并不是所有文獻都有DOI跟压,分析前需要檢測樣本數據的缺失情況,二是VOSviewer在文本數據主題詞提取算法上還存在很大不足歼培,三是VOSviewer在利用DOI進行文本分析時耗時較大震蒋,很多情況下還需要擴容。因此下面的案例主要用來說明該功能的用法躲庄,結果上還有待考量查剖。
1、數據來源介紹
采用案例一中的數據集
2噪窘、數據轉換與分析
(1)利用VOSviewer的共被引分析功能笋庄,提取出所有的參考文獻及被引數量M(dataframe);
(2)將M導入R提取參考文獻中的DOI信息倔监;
3874篇文獻共引用63543篇文獻直砂,但僅有29628篇文獻有DOI數據,這里以被引量在前5%(1500篇)的文獻作為待分析文獻集
(3)將所有參考文獻的DOI保存為txt文件浩习,利用VOSviewer的文本數據分析功能進行分析静暂。
六、參考資源
1谱秽、Manual:VOSviewer_1.6.6;VOSviewer_1.6.5
VOSviewer的官方指南手冊洽蛀,功能介紹詳細
2摹迷、Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.
VOSviewer作者發(fā)布的軟件開發(fā)論文,對軟件的處理流程和實現技術進行了介紹郊供,另外也可以查一下作者的其他論文峡碉,對VOSviewer可以有更好的理解。
3颂碘、Ding Y, Rousseau R, Wolfram D. Measuring Scholarly Impact: Methods and Practice[M]. Springer Publishing Company, Incorporated, 2014.
Chapter 13 Visualizing Bibliometric Networks對主要科學知識圖譜軟件進行了總結和歸納。
4椅挣、Aria M, Cuccurullo C. bibliometrix : An R-tool for comprehensive science mapping analysis[J]. Journal of Informetrics, 2017, 11(4):959-975.
雖然是對bibliometrix的介紹头岔,但可以深入了解知識圖譜類軟件的處理流程。
5鼠证、B?rner K, Chen C, Boyack K W. Visualizing knowledge domains[J]. Annual Review of Information Science & Technology, 2003, 37(1):179-255.
6峡竣、Chaomei, Chen. Science Mapping:A Systematic Review of the Literature[J]. 數據與情報科學學報(英文), 2017(2):1-40.
【參考】
[1] 荷蘭萊頓大學科技研究中心:https://www.cwts.nl/
[2] Eck N J V, Waltman L. Software survey: VOSviewer, a computer program for bibliometric mapping[J]. Scientometrics, 2010, 84(2):523.
[3] VOSviewer官網:http://www.vosviewer.com/