搜索文獻(xiàn)
一般很多已投稿還沒(méi)有發(fā)表的文章會(huì)放到arxiv上讓大家知道這方面的研究?jī)?nèi)容已經(jīng)有人做了野宜,不必再做重復(fù)性的工作室奏。所以arxiv是一個(gè)搜論文的好地方。arxiv-sanity是針對(duì)arxiv的搜索引擎。
arxiv-sanity
優(yōu)點(diǎn):
- 可以預(yù)覽文章
- 可以針對(duì)某個(gè)文章找出類(lèi)似的文章
- 可以將自己感興趣的文章加入自己的library搀突,保存閱讀歷史
- 可以根據(jù)library中的文章推薦文章
- 可以看到其他人對(duì)文章的看法
- 可以看到Twitter上那些人提到了這些文章以及對(duì)該文章的看法
- 可以看哪些文章最多被收藏锰悼,有助于發(fā)現(xiàn)優(yōu)秀的文章
缺點(diǎn):
- 只能搜索到被arxiv收錄的文章
具體可以參考:如何用人工智能幫你找論文柳骄?
NLP領(lǐng)域的文獻(xiàn)檢索
自然語(yǔ)言處理(natural language processing,NLP)在很大程度上與計(jì)算語(yǔ)言學(xué)(computational linguistics箕般,CL)重合耐薯。與其他計(jì)算機(jī)學(xué)科類(lèi)似,NLP/CL有一個(gè)屬于自己的最權(quán)威的國(guó)際專(zhuān)業(yè)學(xué)會(huì)丝里,叫做The Association for Computational Linguistics 即ACL可柿,這個(gè)協(xié)會(huì)主辦了NLP/CL領(lǐng)域最權(quán)威的國(guó)際會(huì)議,即ACL年會(huì)丙者,ACL學(xué)會(huì)還會(huì)在北美和歐洲召開(kāi)分年會(huì)复斥,分別稱(chēng)為NAACL和EACL。除此之外械媒,ACL學(xué)會(huì)下設(shè)多個(gè)特殊興趣小組(special interest groups目锭,SIGs),聚集了NLP/CL不同子領(lǐng)域的學(xué)者纷捞,性質(zhì)類(lèi)似一個(gè)大學(xué)校園的興趣社團(tuán)痢虹。其中比較有名的諸如SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等主儡。這些SIGs也會(huì)召開(kāi)一些國(guó)際學(xué)術(shù)會(huì)議奖唯,其中比較有名的就是SIGDAT組織的 EMNLP (Conference on Empirical Methods on Natural Language Processing)和SIGNLL組織的CoNLL(Conference on Natural Language Learning)。此外還有一個(gè)International Committee on Computational Linguistics的老牌NLP/CL學(xué)術(shù)組織糜值,它每?jī)赡杲M織一個(gè)稱(chēng)為International Conference on Computational Linguistics (COLING)的國(guó)際會(huì)議丰捷,也是NLP/CL的重要學(xué)術(shù)會(huì)議坯墨。NLP/CL的主要學(xué)術(shù)論文就分布在這些會(huì)議上。
作為NLP/CL領(lǐng)域的學(xué)者最大的幸福在于病往,ACL學(xué)會(huì)網(wǎng)站建立了稱(chēng)作ACL Anthology的頁(yè)面捣染,支持該領(lǐng)域絕大部分國(guó)際學(xué)術(shù)會(huì)議論文的免費(fèi)下載,甚至包含了其他組織主辦的學(xué)術(shù)會(huì)議停巷,例如COLING耍攘、IJCNLP等,并支持基于Google的全文檢索功能畔勤,可謂一站在手蕾各,NLP論文我有。由于這個(gè)論文集合非常龐大庆揪,并且可以開(kāi)放獲取示损,很多學(xué)者也基于它開(kāi)展研究,提供了更豐富的檢索支持嚷硫,具體入口可以參考ACL Anthology頁(yè)面上方搜索框右側(cè)的不同檢索按鈕检访。除了獲得論文外還可以看到作者的演講視頻。
下面列出NLP領(lǐng)域的一些頂會(huì)
簡(jiǎn)稱(chēng) | 全稱(chēng) | 地址 | 出版社 |
---|---|---|---|
ACL | Annual Meeting of the Association for Computational Linguistics | http://dblp.uni-trier.de/db/conf/acl/ | ACL |
EMNLP | Conference on Empirical Methods in Natural Language Processing | http://dblp.uni-trier.de/db/conf/emnlp/ | ACL |
NAACL | The Annual Conference of the North American Chapter of the Association for Computational Linguistics | http://dblp.uni-trier.de/db/conf/naacl/ | NAACL |
COLING | International Conference on Computational Linguistics | http://dblp.uni-trier.de/db/conf/coling/ | ACM |
CoNLL | Conference on Computational Natural Language Learning | http://dblp.uni-trier.de/db/conf/conll | Association for Computational Linguistics |
ACL為了擴(kuò)大自己的影響力還創(chuàng)辦了一些期刊:
- Computational Linguistics該期刊每期只有幾篇文章仔掸,平均質(zhì)量高于會(huì)議論文脆贵,時(shí)間允許的話(huà)值得及時(shí)追蹤。
- Transactions of the Association for Computational Linguistics
這兩份期刊也都是開(kāi)放獲取的
國(guó)內(nèi)的一些期刊
序號(hào) | 名稱(chēng) |
---|---|
1 | 中文信息學(xué)報(bào) |
2 | CCL |
3 | NLPCC |
4 | 中國(guó)科學(xué)起暮、計(jì)算機(jī)學(xué)報(bào)卖氨、軟件學(xué)報(bào)、自動(dòng)化學(xué)報(bào)等國(guó)內(nèi)頂級(jí)學(xué)報(bào) |
DBLP
DBLP负懦,即Digital Bibliography & Library Project的縮寫(xiě)筒捺,是計(jì)算機(jī)領(lǐng)域內(nèi)對(duì)研究成果以作者為核心的一個(gè)強(qiáng)大的計(jì)算機(jī)類(lèi)英文文獻(xiàn)的集成數(shù)據(jù)庫(kù)系統(tǒng)。該系統(tǒng)提供根據(jù)作者纸厉、期刊系吭、會(huì)議等進(jìn)行論文的檢索功能,用戶(hù)也可以根據(jù)年份查看會(huì)議颗品、期刊當(dāng)年收錄的論文肯尺,多數(shù)的論文都提供了下載鏈接及Google,Google Scholar躯枢,MS Academic Search等網(wǎng)站的搜索鏈接
更多的相關(guān)會(huì)議及搜索方法可以參考
篩選文獻(xiàn)
-
期刊質(zhì)量
- 被引用次數(shù)
被引用次數(shù)有個(gè)缺陷就是時(shí)代越久遠(yuǎn)则吟,被引用次數(shù)越高。所以可以利用互引分析锄蹂。如果是知網(wǎng)用戶(hù)的話(huà)氓仲,可以參考這篇文章:如何快速篩選到想要的核心文獻(xiàn)? - 發(fā)表組織
比如做某個(gè)課題的組織是業(yè)內(nèi)大牛,那這個(gè)組織發(fā)表的文章多半是高質(zhì)量的 - 是否有源代碼
如果有源代碼敬扛,那文章的可信度更高晰洒,而且有利于復(fù)現(xiàn)
閱讀文獻(xiàn)
閱讀順序
閱讀文獻(xiàn)按照如下順序來(lái)讀
- 摘要
- 引言
- 結(jié)論與圖表
- 文章主體
通過(guò)摘要其實(shí)就大致知道了這個(gè)文章在講什么,如果對(duì)這個(gè)領(lǐng)域不熟舔哪,可以看一下引言欢顷,因?yàn)橐灾v述了領(lǐng)域背景以及要解決的問(wèn)題槽棍。通過(guò)看圖表和結(jié)論可以判斷出是否能解決自己的問(wèn)題捉蚤。如果通過(guò)了前三步的篩選確實(shí)是需要精讀的才去讀主體部分。
閱讀方法
閱讀的時(shí)候帶著問(wèn)題去讀炼七,大膽猜測(cè)缆巧,然后去文章里找能印證你猜測(cè)的依據(jù)。這樣更能明白作者的思想脈絡(luò)豌拙,就算是猜錯(cuò)了也沒(méi)關(guān)系陕悬,可以從文章中找到蛛絲馬跡,糾錯(cuò)后印象更深刻按傅。
進(jìn)入不熟悉的領(lǐng)域怎么辦
1.找出本領(lǐng)域相關(guān)的30-40篇論文捉超。可以通過(guò)關(guān)鍵字+survey / review / tutorial / 來(lái)搜索唯绍。也有一些出版社專(zhuān)門(mén)出版各領(lǐng)域的綜述文章拼岳,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等况芒。它們發(fā)表了很多熱門(mén)方向的綜述惜纸,如文檔摘要、情感分析和意見(jiàn)挖掘绝骚、學(xué)習(xí)排序耐版、語(yǔ)言模型等。
如果方向太新還沒(méi)有相關(guān)綜述压汪,一般還可以查找該方向發(fā)表的最新論文粪牲,閱讀它們的“相關(guān)工作”章節(jié),順著列出的參考文獻(xiàn)止剖,就基本能夠了解相關(guān)研究脈絡(luò)了虑瀑。當(dāng)然,還有很多其他辦法滴须,例如去videolectures.net
上看著名學(xué)者在各大學(xué)術(shù)會(huì)議或暑期學(xué)校上做的tutorial報(bào)告舌狗,去直接咨詢(xún)這個(gè)領(lǐng)域的研究者,等等扔水。
- 反復(fù)讀過(guò)該領(lǐng)域內(nèi)30~40篇論文的Abstract 和 Introduction,回答這兩個(gè)問(wèn)題:
- 在這領(lǐng)域內(nèi)最常被引述的方法有哪些痛侍?
- 這些方法可以分成哪些主要派別?
根據(jù)Abstract 和 Introduction把領(lǐng)域內(nèi)最常被引述的論文補(bǔ)齊,并按照派別把文章歸類(lèi)主届。每一派別的文章都按照日期排好順序赵哲。分好類(lèi)排好序以后。針對(duì)每一派別君丁,閱讀兩邊枫夺,第一遍關(guān)注這一派別要解決的問(wèn)題,方法绘闷,以及優(yōu)點(diǎn)橡庞。但論文本身一般不會(huì)說(shuō)自己的缺點(diǎn),所以再讀第二遍印蔗,看本派別對(duì)其他派別的看法(缺點(diǎn))扒最。這樣兩遍讀完后其實(shí)對(duì)各個(gè)派別的方法,解決的問(wèn)題,優(yōu)點(diǎn)华嘹,缺點(diǎn)都知道了吧趣,一定要記錄下來(lái)。最好是存到excle表里耙厚。
- 做完上面兩步后强挫,其實(shí)對(duì)領(lǐng)域已經(jīng)有個(gè)大致了解了,然后在看看自己搜索的keywords是否準(zhǔn)確薛躬,補(bǔ)全或調(diào)整關(guān)鍵字再次搜索,將文章補(bǔ)齊.并將這30篇論文里與所研究課題離得比較遠(yuǎn)的刪除掉,只保留大約20篇文章做后續(xù)工作
- 根據(jù)第二步整理出來(lái)的東西回答一下問(wèn)題:這個(gè)領(lǐng)域內(nèi)大家認(rèn)為重要的關(guān)鍵問(wèn)題有哪些俯渤?有哪些特性是大家重視的優(yōu)點(diǎn)?有哪些特性是大家在意的缺點(diǎn)泛豪?這些優(yōu)點(diǎn)與缺點(diǎn)通常在哪些應(yīng)用場(chǎng)合時(shí)會(huì)比較被重視稠诲?在哪些應(yīng)用場(chǎng)合時(shí)比較不會(huì)被重視?然后诡曙,你就可以整理出這個(gè)領(lǐng)域(研究題目)主要的應(yīng)用場(chǎng)合臀叙,以及這些應(yīng)用場(chǎng)合上該注意的事項(xiàng)
- 將第三步整理出來(lái)的文章按照派別分好類(lèi),一個(gè)派別一個(gè)派別的按照時(shí)間先后順序讀取論文的main_body.
- 讀取main_body的時(shí)候可能會(huì)有一些文章不那么易懂,沒(méi)有關(guān)系,可以閱讀同派別的其他文章,這些文章在講述同一類(lèi)問(wèn)題,就會(huì)出現(xiàn)有的好懂有的不好懂,讀取好懂的就可以.
對(duì)文獻(xiàn)做筆記
可以建一個(gè)excel表格,表格里面列出文章的發(fā)表地价卤,發(fā)表組織劝萤,文章題目,主題慎璧,目的床嫌,要解決的問(wèn)題,解決方案胸私,優(yōu)點(diǎn)厌处,缺點(diǎn),使用的數(shù)據(jù)集岁疼,在數(shù)據(jù)集上的表現(xiàn)阔涉,code。有了這些以后方便后續(xù)查看,也有助于按照自己感興趣的點(diǎn)對(duì)文章組織分類(lèi)瑰排。
值得觀看的視頻或閱讀的文章
怎樣閱讀NLP論文:這是重慶大學(xué)的一個(gè)老師發(fā)表的一個(gè)視頻贯要,視頻里從文獻(xiàn)查找,篩選椭住,閱讀崇渗,記錄等各方面介紹了NLP領(lǐng)域應(yīng)該如何閱讀論文
臺(tái)灣清華彭明輝教授的研究生手冊(cè):很好的一篇文章,強(qiáng)烈推薦
如何高效讀論文京郑?:本篇文章中引用了它比較多的內(nèi)容
如何有針對(duì)地高效地閱讀一篇學(xué)術(shù)論文宅广?:知乎上大家的看法