研究生入坑只見森林不見樹木

每個入坑的研究生幾乎都是從看綜述開始的,在確定好研究課題后的第一件是也許就是看各種綜述近速。如果把綜述看成一顆樹纯命,那么順著這顆樹的脈絡(luò)免胃,我們可以清楚地看到這個小領(lǐng)域的研究方向和進展。綜述不僅幫我們梳理好了特定領(lǐng)域的研究歷史辣恋、重要研究成果,還有對未來研究展望×莆遥可是扼雏,對于剛?cè)腴T的研究生,對將要進入的領(lǐng)域完全沒有認識携狭,一頭扎進一篇篇綜述里面继蜡,仿佛將一個人突然從空中推下森林里,眼前只有高大的樹木,茂盛的樹葉稀并,對著個森林完全沒有整體的認識仅颇,不知道這個森林有多大,不知道森林里什么地方樹木比較密集碘举,不知道什么地方陽光雨水充足適合樹木發(fā)展忘瓦,更不知道自己將要棲身的那顆樹的發(fā)展前途怎么樣。這些都是綜述給不了的引颈。那么我們?nèi)绾卧陂_始時就對這片小森林有一定的認識呢耕皮?
本文試圖提供一個非常簡單甚至有點天真的想法,具體的想法是在數(shù)據(jù)庫里爬取大量論文的基本信息蝙场,包括題目凌停、通訊作者、發(fā)表年份李丰,論文類型和關(guān)鍵詞苦锨,然后通過文本挖掘來對這片小森林有一個簡單的認識∨棵冢基本分析結(jié)果包括歷年文章發(fā)表數(shù)量和趨勢舟舒,發(fā)表文章比較多的作者是那些人,領(lǐng)域里研究的熱點是什么嗜憔,還有這些關(guān)鍵詞有什么樣的聯(lián)系秃励。
一、數(shù)據(jù)獲燃贰:
sciencedirect是Elsevier旗下的一個數(shù)據(jù)庫網(wǎng)站夺鲜,Elsevier又是荷蘭一家全球著名的學術(shù)期刊出版商,每年出版大量的學術(shù)圖書和期刊呐舔,大部分期刊被SCI币励、SSCI、EI收錄珊拼,是世界上公認的高品位學術(shù)期刊食呻。更重要的是sciencedirect上的數(shù)據(jù)結(jié)構(gòu)非常整齊,關(guān)鍵詞搜索比較準確澎现,只需要非常簡單的爬蟲就可以抓取大量的數(shù)據(jù)仅胞;爬蟲的實現(xiàn)比較簡單,網(wǎng)上有大量教程剑辫。需要說明的是sciencedirect數(shù)據(jù)庫中每篇論文具體頁面的關(guān)鍵詞的位置不固定干旧,而且加載時是動態(tài)加載,反正我這個菜鳥不會妹蔽,所以論文的關(guān)鍵詞用論文標題中的名詞代替椎眯,雖然這樣不是很準確挠将。同時,通訊作者和其單位匹配也比較復雜盅视,沒有規(guī)律捐名,所以只能放棄,最后闹击,論文被引次數(shù)也是動態(tài)加載镶蹋,所以也只能放棄,好在我們只是簡單地看一下這片森林赏半,所以剩余的信息也基本夠用贺归。所以最終的數(shù)據(jù)有論文題目, 論文類型断箫,通訊作者拂酣,期刊名稱,發(fā)表年份和關(guān)鍵詞仲义。這里以關(guān)鍵詞——‘cytoskeleton’為例婶熬,爬取sciencedirect中的結(jié)果,由于只是演示埃撵,所以只爬取搜索結(jié)果的前10頁的內(nèi)容赵颅,共250條記錄。
二暂刘、結(jié)果分析:

1饺谬、最近幾年文章發(fā)表趨勢。
歷年文章發(fā)表趨勢在一定程度上可以說明這個領(lǐng)域的活力程度谣拣。


year.png

由于sciencedirect中的搜索結(jié)果并不是以時間來排序募寨,所以前250個記錄中只包含了一部分這些年的數(shù)據(jù),但趨勢還是比較明顯的森缠,每年這個領(lǐng)域的文章都是逐步上升的拔鹰。

2、這個領(lǐng)域里發(fā)表文章數(shù)最多的作者贵涵。
衡量一個作者在這個領(lǐng)域的分量有很多指標列肢,比如比較權(quán)威的H指數(shù)等,但這里僅用發(fā)表文章數(shù)量作一個簡單又天真的替代独悴。
對作者進行分組統(tǒng)計,然后排序锣尉,所以很容易得到一個柱形圖刻炒。可以看到發(fā)表文章最多的前五個作者分別是Regina Pessoa-Pureur自沧、Guangshuo Qu坟奥、Qiang Fu树瞭、Dao-Yi Yu和Alptekin Aksan。值得注意的是爱谁,這里沒有考慮文章的影響因子晒喷,也沒有考慮文章被引數(shù)目,而且數(shù)據(jù)量也非常小访敌,所以這個結(jié)果是演示作用凉敲。


year.png

3、領(lǐng)域中的研究熱點寺旺。
這里用論文題目中詞的頻率來表示領(lǐng)域里的研究熱點爷抓,雖然不是很準確,但也有一定的相關(guān)性阻塑。
wordcloud是一款非常簡單的繪制詞云庫蓝撇,具體使用方法參考(https://blog.csdn.net/u01309756/article/details/67637930)。

cloud_title.png

從圖中可以看出陈莽,actin渤昌、membrane、induced走搁、receptor独柑、effect、regulates朱盐、Rho等出現(xiàn)的頻率相對來說非常的高群嗤,說明這些是人們的研究的熱點。(注意圖中的cytoskeleton出現(xiàn)了兩次兵琳,原因一直沒找出了狂秘,希望有大神能解釋)。

4躯肌、關(guān)鍵詞的聯(lián)系者春。
nltk的全稱是natural language toolkit,是一套基于python的自然語言處理工具集清女。textblob是一款比nltk簡單的文本處理工具钱烟,這里主要是用到其簡單的提取名詞、去除stopword的功能嫡丙。
networkx是python里繪制網(wǎng)絡(luò)圖的重要第三方包拴袭,功能非常強大,coursera上有其使用的簡單實用教程(https://www.coursera.org/learn/python-social-network-analysis/)曙博,這里就不作介紹了拥刻。
關(guān)聯(lián)分析主要是從大規(guī)模數(shù)據(jù)中尋找物品間的隱含關(guān)系,最出名的關(guān)聯(lián)分析實例就是沃爾瑪超市里的啤酒和尿布案例(其真實性在知乎上有討論)父泳。不管怎樣般哼,關(guān)聯(lián)分析為我們提取事物的聯(lián)系提供了很好分析方法吴汪,其中的Apriori算法更是為大規(guī)模數(shù)據(jù)的關(guān)聯(lián)分析提供了強力的支撐。需要說明的是這里用到的關(guān)于關(guān)聯(lián)分析的Apriori算法的代碼來自《machine learning in action》蒸眠。

network_key_words.png

利用Apriori算法漾橙,提取minSupport大于0.02的frequent item進行分析,圖中實心圓的顏色越深楞卡,代表其和其他詞的關(guān)聯(lián)數(shù)量越多霜运,兩者之間的連線的粗細代表support的大小⊥位危可以看到觉渴,cytoskeleton和cell、actin徽惋、reorganization案淋、effect的關(guān)聯(lián)度比較高,比較有意思的是同屬于骨架的microtubute和cytoskeleton的關(guān)聯(lián)非常的少险绘,也有可能是數(shù)據(jù)量比較小的原因踢京。
這里只是分析了兩個詞之間的兩兩的關(guān)聯(lián)性,更多詞的關(guān)聯(lián)性見sciencedirect.ipynb文件宦棺。
三瓣距、結(jié)論
雖然項目比較簡單,但通過這些基本的分析還是能看到綜述里無法表達的信息代咸,使我們對小森林的認識有一定的幫助蹈丸。
注:由于數(shù)據(jù)集中很多關(guān)鍵信息不是缺少就是用其他信息替代,所以分析的結(jié)果的準確性有一定的限制(反正只是用來練手)呐芥。
文中涉及的詳細代碼見https://github.com/xianyu426/sciencedirect_analysis
最后希望大神多提意見B哒取!思瘟!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末荸百,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子滨攻,更是在濱河造成了極大的恐慌够话,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,816評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件光绕,死亡現(xiàn)場離奇詭異女嘲,居然都是意外死亡,警方通過查閱死者的電腦和手機诞帐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,729評論 3 385
  • 文/潘曉璐 我一進店門欣尼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人景埃,你說我怎么就攤上這事媒至。” “怎么了谷徙?”我有些...
    開封第一講書人閱讀 158,300評論 0 348
  • 文/不壞的土叔 我叫張陵拒啰,是天一觀的道長。 經(jīng)常有香客問我完慧,道長谋旦,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,780評論 1 285
  • 正文 為了忘掉前任屈尼,我火速辦了婚禮册着,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘脾歧。我一直安慰自己甲捏,他們只是感情好,可當我...
    茶點故事閱讀 65,890評論 6 385
  • 文/花漫 我一把揭開白布鞭执。 她就那樣靜靜地躺著司顿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪兄纺。 梳的紋絲不亂的頭發(fā)上大溜,一...
    開封第一講書人閱讀 50,084評論 1 291
  • 那天,我揣著相機與錄音估脆,去河邊找鬼钦奋。 笑死,一個胖子當著我的面吹牛疙赠,可吹牛的內(nèi)容都是我干的付材。 我是一名探鬼主播,決...
    沈念sama閱讀 39,151評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼棺聊,長吁一口氣:“原來是場噩夢啊……” “哼伞租!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起限佩,我...
    開封第一講書人閱讀 37,912評論 0 268
  • 序言:老撾萬榮一對情侶失蹤葵诈,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后祟同,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體作喘,經(jīng)...
    沈念sama閱讀 44,355評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,666評論 2 327
  • 正文 我和宋清朗相戀三年晕城,在試婚紗的時候發(fā)現(xiàn)自己被綠了泞坦。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,809評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡砖顷,死狀恐怖贰锁,靈堂內(nèi)的尸體忽然破棺而出赃梧,到底是詐尸還是另有隱情,我是刑警寧澤豌熄,帶...
    沈念sama閱讀 34,504評論 4 334
  • 正文 年R本政府宣布授嘀,位于F島的核電站,受9級特大地震影響锣险,放射性物質(zhì)發(fā)生泄漏蹄皱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,150評論 3 317
  • 文/蒙蒙 一芯肤、第九天 我趴在偏房一處隱蔽的房頂上張望巷折。 院中可真熱鬧,春花似錦崖咨、人聲如沸锻拘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽逊拍。三九已至,卻和暖如春际邻,著一層夾襖步出監(jiān)牢的瞬間芯丧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,121評論 1 267
  • 我被黑心中介騙來泰國打工世曾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留缨恒,地道東北人。 一個月前我還...
    沈念sama閱讀 46,628評論 2 362
  • 正文 我出身青樓轮听,卻偏偏與公主長得像骗露,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子血巍,可洞房花燭夜當晚...
    茶點故事閱讀 43,724評論 2 351

推薦閱讀更多精彩內(nèi)容