每個入坑的研究生幾乎都是從看綜述開始的,在確定好研究課題后的第一件是也許就是看各種綜述近速。如果把綜述看成一顆樹纯命,那么順著這顆樹的脈絡(luò)免胃,我們可以清楚地看到這個小領(lǐng)域的研究方向和進展。綜述不僅幫我們梳理好了特定領(lǐng)域的研究歷史辣恋、重要研究成果,還有對未來研究展望×莆遥可是扼雏,對于剛?cè)腴T的研究生,對將要進入的領(lǐng)域完全沒有認識携狭,一頭扎進一篇篇綜述里面继蜡,仿佛將一個人突然從空中推下森林里,眼前只有高大的樹木,茂盛的樹葉稀并,對著個森林完全沒有整體的認識仅颇,不知道這個森林有多大,不知道森林里什么地方樹木比較密集碘举,不知道什么地方陽光雨水充足適合樹木發(fā)展忘瓦,更不知道自己將要棲身的那顆樹的發(fā)展前途怎么樣。這些都是綜述給不了的引颈。那么我們?nèi)绾卧陂_始時就對這片小森林有一定的認識呢耕皮?
本文試圖提供一個非常簡單甚至有點天真的想法,具體的想法是在數(shù)據(jù)庫里爬取大量論文的基本信息蝙场,包括題目凌停、通訊作者、發(fā)表年份李丰,論文類型和關(guān)鍵詞苦锨,然后通過文本挖掘來對這片小森林有一個簡單的認識∨棵冢基本分析結(jié)果包括歷年文章發(fā)表數(shù)量和趨勢舟舒,發(fā)表文章比較多的作者是那些人,領(lǐng)域里研究的熱點是什么嗜憔,還有這些關(guān)鍵詞有什么樣的聯(lián)系秃励。
一、數(shù)據(jù)獲燃贰:
sciencedirect是Elsevier旗下的一個數(shù)據(jù)庫網(wǎng)站夺鲜,Elsevier又是荷蘭一家全球著名的學術(shù)期刊出版商,每年出版大量的學術(shù)圖書和期刊呐舔,大部分期刊被SCI币励、SSCI、EI收錄珊拼,是世界上公認的高品位學術(shù)期刊食呻。更重要的是sciencedirect上的數(shù)據(jù)結(jié)構(gòu)非常整齊,關(guān)鍵詞搜索比較準確澎现,只需要非常簡單的爬蟲就可以抓取大量的數(shù)據(jù)仅胞;爬蟲的實現(xiàn)比較簡單,網(wǎng)上有大量教程剑辫。需要說明的是sciencedirect數(shù)據(jù)庫中每篇論文具體頁面的關(guān)鍵詞的位置不固定干旧,而且加載時是動態(tài)加載,反正我這個菜鳥不會妹蔽,所以論文的關(guān)鍵詞用論文標題中的名詞代替椎眯,雖然這樣不是很準確挠将。同時,通訊作者和其單位匹配也比較復雜盅视,沒有規(guī)律捐名,所以只能放棄,最后闹击,論文被引次數(shù)也是動態(tài)加載镶蹋,所以也只能放棄,好在我們只是簡單地看一下這片森林赏半,所以剩余的信息也基本夠用贺归。所以最終的數(shù)據(jù)有論文題目, 論文類型断箫,通訊作者拂酣,期刊名稱,發(fā)表年份和關(guān)鍵詞仲义。這里以關(guān)鍵詞——‘cytoskeleton’為例婶熬,爬取sciencedirect中的結(jié)果,由于只是演示埃撵,所以只爬取搜索結(jié)果的前10頁的內(nèi)容赵颅,共250條記錄。
二暂刘、結(jié)果分析:
1饺谬、最近幾年文章發(fā)表趨勢。
歷年文章發(fā)表趨勢在一定程度上可以說明這個領(lǐng)域的活力程度谣拣。
由于sciencedirect中的搜索結(jié)果并不是以時間來排序募寨,所以前250個記錄中只包含了一部分這些年的數(shù)據(jù),但趨勢還是比較明顯的森缠,每年這個領(lǐng)域的文章都是逐步上升的拔鹰。
2、這個領(lǐng)域里發(fā)表文章數(shù)最多的作者贵涵。
衡量一個作者在這個領(lǐng)域的分量有很多指標列肢,比如比較權(quán)威的H指數(shù)等,但這里僅用發(fā)表文章數(shù)量作一個簡單又天真的替代独悴。
對作者進行分組統(tǒng)計,然后排序锣尉,所以很容易得到一個柱形圖刻炒。可以看到發(fā)表文章最多的前五個作者分別是Regina Pessoa-Pureur自沧、Guangshuo Qu坟奥、Qiang Fu树瞭、Dao-Yi Yu和Alptekin Aksan。值得注意的是爱谁,這里沒有考慮文章的影響因子晒喷,也沒有考慮文章被引數(shù)目,而且數(shù)據(jù)量也非常小访敌,所以這個結(jié)果是演示作用凉敲。
3、領(lǐng)域中的研究熱點寺旺。
這里用論文題目中詞的頻率來表示領(lǐng)域里的研究熱點爷抓,雖然不是很準確,但也有一定的相關(guān)性阻塑。
wordcloud是一款非常簡單的繪制詞云庫蓝撇,具體使用方法參考(https://blog.csdn.net/u01309756/article/details/67637930)。
從圖中可以看出陈莽,actin渤昌、membrane、induced走搁、receptor独柑、effect、regulates朱盐、Rho等出現(xiàn)的頻率相對來說非常的高群嗤,說明這些是人們的研究的熱點。(注意圖中的cytoskeleton出現(xiàn)了兩次兵琳,原因一直沒找出了狂秘,希望有大神能解釋)。
4躯肌、關(guān)鍵詞的聯(lián)系者春。
nltk的全稱是natural language toolkit,是一套基于python的自然語言處理工具集清女。textblob是一款比nltk簡單的文本處理工具钱烟,這里主要是用到其簡單的提取名詞、去除stopword的功能嫡丙。
networkx是python里繪制網(wǎng)絡(luò)圖的重要第三方包拴袭,功能非常強大,coursera上有其使用的簡單實用教程(https://www.coursera.org/learn/python-social-network-analysis/)曙博,這里就不作介紹了拥刻。
關(guān)聯(lián)分析主要是從大規(guī)模數(shù)據(jù)中尋找物品間的隱含關(guān)系,最出名的關(guān)聯(lián)分析實例就是沃爾瑪超市里的啤酒和尿布案例(其真實性在知乎上有討論)父泳。不管怎樣般哼,關(guān)聯(lián)分析為我們提取事物的聯(lián)系提供了很好分析方法吴汪,其中的Apriori算法更是為大規(guī)模數(shù)據(jù)的關(guān)聯(lián)分析提供了強力的支撐。需要說明的是這里用到的關(guān)于關(guān)聯(lián)分析的Apriori算法的代碼來自《machine learning in action》蒸眠。
利用Apriori算法漾橙,提取minSupport大于0.02的frequent item進行分析,圖中實心圓的顏色越深楞卡,代表其和其他詞的關(guān)聯(lián)數(shù)量越多霜运,兩者之間的連線的粗細代表support的大小⊥位危可以看到觉渴,cytoskeleton和cell、actin徽惋、reorganization案淋、effect的關(guān)聯(lián)度比較高,比較有意思的是同屬于骨架的microtubute和cytoskeleton的關(guān)聯(lián)非常的少险绘,也有可能是數(shù)據(jù)量比較小的原因踢京。
這里只是分析了兩個詞之間的兩兩的關(guān)聯(lián)性,更多詞的關(guān)聯(lián)性見sciencedirect.ipynb文件宦棺。
三瓣距、結(jié)論
雖然項目比較簡單,但通過這些基本的分析還是能看到綜述里無法表達的信息代咸,使我們對小森林的認識有一定的幫助蹈丸。
注:由于數(shù)據(jù)集中很多關(guān)鍵信息不是缺少就是用其他信息替代,所以分析的結(jié)果的準確性有一定的限制(反正只是用來練手)呐芥。
文中涉及的詳細代碼見https://github.com/xianyu426/sciencedirect_analysis
最后希望大神多提意見B哒取!思瘟!