比較全的NLP參考資源

NLP

自然語(yǔ)言處理(Natural Language Processing)是深度學(xué)習(xí)的主要應(yīng)用領(lǐng)域之一。

教程

http://cs224d.stanford.edu/

CS224d: Deep Learning for Natural Language Processing

http://web.stanford.edu/class/cs224n/syllabus.html

cs224d課程的課件

http://demo.clab.cs.cmu.edu/NLP/

CMU的NLP教程蜀备。該網(wǎng)頁(yè)下方還有美國(guó)其他高校的NLP課程的鏈接奸鸯。

http://ccl.pku.edu.cn/alcourse/nlp/

北京大學(xué)的NLP教程或油,特色:中文處理。缺點(diǎn):傳統(tǒng)方法居多,深度學(xué)習(xí)未涉及停忿。

http://www.cs.columbia.edu/~cs4705/

COMS W4705: Natural Language Processing

https://mp.weixin.qq.com/s/TSc4E8lKwgc-EvzP8OlJeg

初學(xué)者如何查閱自然語(yǔ)言處理(NLP)領(lǐng)域?qū)W術(shù)資料

https://zhuanlan.zhihu.com/kb-qa

揭開(kāi)知識(shí)庫(kù)問(wèn)答KB-QA的面紗(知識(shí)圖譜方面的系列專欄)

http://web.stanford.edu/~jurafsky/slp3/ed3book.pdf

《語(yǔ)音與語(yǔ)言處理》第三版,NLP和語(yǔ)音合成方面的專著

https://mp.weixin.qq.com/s/5KhTWdOk-b84DXmoVr68-A

CIPS ATT 2017 文本分析和自然語(yǔ)言課程PPT

http://phontron.com/class/nn4nlp2017/assets/slides/

CMU NN for NLP

http://phontron.com/class/mtandseq2seq2017/

CMU Machine Translation and Sequence to Sequence Models

https://github.com/oxford-cs-deepnlp-2017/lectures

Oxford Deep NLP 2017 course

書籍

http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Natural%20Language%20Processing%20with%20Python.pdf

《Natural Language Processing with Python》蚊伞,Steven Bird瞎嬉、Ewan Klein、Edward Loper著厚柳。這本書的作者們創(chuàng)建了著名的NLTK工具庫(kù)氧枣。

注:Steven Bird,愛(ài)丁堡大學(xué)博士别垮,墨爾本大學(xué)副教授便监。

http://www.stevenbird.net/about.html

Ewan Klein,蘇格蘭人碳想,哥倫比亞大學(xué)博士(1978年)烧董,愛(ài)丁堡大學(xué)教授。

Edward Loper胧奔,賓夕法尼亞大學(xué)博士逊移。

https://mp.weixin.qq.com/s/0HmsMytif3INqAX1Si5ukA

推薦5本經(jīng)典自然語(yǔ)言處理書籍

網(wǎng)站

http://www.52nlp.cn/

一個(gè)自然語(yǔ)言處理愛(ài)好者的群體博客。包括52nlp龙填、rickjin胳泉、liwei等國(guó)內(nèi)外華人大牛。

http://www.shareditor.com/bloglistbytag/?tagname=%E8%87%AA%E5%B7%B1%E5%8A%A8%E6%89%8B%E5%81%9A%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA

實(shí)戰(zhàn)課程:自己動(dòng)手做聊天機(jī)器人

http://www.icst.pku.edu.cn/lcwm/

北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所語(yǔ)言計(jì)算與互聯(lián)網(wǎng)挖掘研究室

https://github.com/rockingdingo/deepnlp

NLP深度學(xué)習(xí)方面的代碼庫(kù)

https://liweinlp.com/

NLP專家李維的blog

http://www.shuang0420.com/

一個(gè)NLP方面的blog

http://www.cnblogs.com/Determined22/

一個(gè)DL+ML+NLP的blog

http://www.cnblogs.com/robert-dlut/

一個(gè)NLP方面的blog

blog.csdn.net/hellonlp/

一個(gè)NLP方面的blog

工具

Natural Language Toolkit(NLTK)

官網(wǎng):

http://www.nltk.org/

可使用nltk.download()下載相關(guān)nltk官方提供的各種資源岩遗。

參考:

http://www.cnblogs.com/baiboy/p/nltk3.html

OpenNLP

http://opennlp.apache.org/

FudanNLP

https://github.com/FudanNLP/fnlp

Stanford CoreNLP

http://stanfordnlp.github.io/CoreNLP/

THUCTC

THUCTC(THU Chinese Text Classification)是由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出的中文文本分類工具包扇商。

http://thuctc.thunlp.org/

gensim

gensim是Python語(yǔ)言的計(jì)算文本相似度的程序包。

http://radimrehurek.com/gensim/index.html

pip install –upgrade gensim

GitHub:

https://github.com/RaRe-Technologies/gensim

參考:

http://www.open-open.com/lib/view/open1444351655682.html

情感分析的新方法——基于Word2Vec/Doc2Vec/Python

http://blog.csdn.net/Star_Bob/article/details/47808499

Gensim Word2vec使用教程

GloVe

GloVe:Global Vectors for Word Representation

https://nlp.stanford.edu/projects/glove/

textsum

textsum是一個(gè)基于深度學(xué)習(xí)的文本自動(dòng)摘要工具宿礁。

代碼:

https://github.com/tensorflow/models/tree/master/textsum

參考:

http://www.jiqizhixin.com/article/1449

谷歌開(kāi)源新的TensorFlow文本自動(dòng)摘要代碼

http://blog.csdn.net/tensorflowshizhan/article/details/69230070

TensorFlow文本摘要生成 - 基于注意力的序列到序列模型

jieba

https://github.com/fxsjy/jieba

NLPIR

NLPIR漢語(yǔ)分詞系統(tǒng)(又名ICTCLAS2013)案铺,是中科院張華平博士的作品。官網(wǎng):

http://ictclas.nlpir.org/

參考:

http://ictclas.nlpir.org/nlpir/

這個(gè)網(wǎng)頁(yè)對(duì)于NLP的大多數(shù)功能進(jìn)行了可視化的展示梆靖。NLP入門必看控汉。

snownlp

https://github.com/isnowfy/snownlp

HanLP

HanLP是一個(gè)目前留學(xué)日本的中國(guó)學(xué)生的作品笔诵。

官網(wǎng):

http://hanlp.linrunsoft.com/

作者blog:

http://www.hankcs.com/

Github:

https://github.com/hankcs/HanLP/

從作者的名氣來(lái)說(shuō),HanLP無(wú)疑是最低的姑子,性能也不見(jiàn)得有多好乎婿。然而對(duì)于初學(xué)者來(lái)說(shuō),這卻是最適合的工具壁酬。這主要體現(xiàn)在以下幾個(gè)方面:

1.中文處理能力次酌。NLTK和OpenNLP對(duì)中文支持非常差,這里不光是中文分詞的問(wèn)題舆乔,有些NLP算法需要一定的語(yǔ)言模型數(shù)據(jù)岳服,但瀏覽NLTK官方的模型庫(kù),基本找不到中文模型數(shù)據(jù)希俩。

2.jieba吊宋、IK之類的功能太單一,多數(shù)局限在中文分詞方面領(lǐng)域颜武。gensim璃搜、THUCTC專注于NLP的某一方面,也不是通用工具鳞上。

3.NLPIR和Stanford CoreNLP算是功能最強(qiáng)的工具包了这吻。前者的問(wèn)題在于收費(fèi)不開(kāi)源,后者的問(wèn)題在于缺少中文文檔篙议。FudanNLP的相關(guān)文檔較少唾糯,文檔友好度不如HanLP。

4.HanLP在主頁(yè)上提供了相關(guān)算法的blog鬼贱,便于初學(xué)者快速掌握相關(guān)概念移怯。其詞典是明文發(fā)布,便于用戶修改这难。HanLP執(zhí)行時(shí)舟误,會(huì)將明文詞典以特定結(jié)構(gòu)緩存,以提高執(zhí)行效率姻乓。

注:不要以為中文有分詞問(wèn)題嵌溢,就比別的語(yǔ)言復(fù)雜,英文還有詞根問(wèn)題呢糖权。堵腹。。每種語(yǔ)言都不簡(jiǎn)單星澳。

AllenNLP

AllenNLP是Allen AI實(shí)驗(yàn)室的作品,采用深度學(xué)習(xí)技術(shù)旱易,基于PyTorch開(kāi)發(fā)禁偎。

官網(wǎng):

http://allennlp.org/

Allen AI實(shí)驗(yàn)室由微軟聯(lián)合創(chuàng)始人Paul G. Allen投資創(chuàng)立腿堤。

官網(wǎng):

http://allenai.org/

其他

https://github.com/mozillazg/python-pinyin

python版的漢字轉(zhuǎn)拼音軟件

https://github.com/ysc/word

Java分布式中文分詞組件-word分詞

http://jena.apache.org/

jena是一個(gè)語(yǔ)義網(wǎng)絡(luò)、知識(shí)圖譜相關(guān)的軟件如暖。

NLPchina

NLPchina(中國(guó)自然語(yǔ)言處理開(kāi)源組織)旗下有許多好用的工具笆檀。

官網(wǎng):

http://www.nlpcn.org/

Github:

https://github.com/NLPchina

Ansj

Ansj是一個(gè)NLPchina旗下的開(kāi)源的Java中文分詞工具,基于中科院的ictclas中文分詞算法盒至,比其他常用的開(kāi)源分詞工具(如mmseg4j)的分詞準(zhǔn)確率更高酗洒。

https://github.com/NLPchina/ansj_seg

Word2VEC_java

word2vec java版本的一個(gè)實(shí)現(xiàn)。

https://github.com/NLPchina/Word2VEC_java

doc2vec java版本的一個(gè)實(shí)現(xiàn)枷遂,基于Word2VEC_java樱衷。

https://github.com/yao8839836/doc2vec_java

ansj_fast_lda

LDA算法的Java包。

https://github.com/NLPchina/ansj_fast_lda

nlp-lang

這個(gè)項(xiàng)目是一個(gè)基本包.封裝了大多數(shù)nlp項(xiàng)目中常用工具

https://github.com/NLPchina/nlp-lang

詞性標(biāo)注

http://jacoxu.com/ictpos3-0%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86/

ICTPOS3.0漢語(yǔ)詞性標(biāo)記集

Word Hashing

Word Hashing是非常重要的一個(gè)trick酒唉,以英文單詞來(lái)說(shuō)矩桂,比如good,他可以寫成#good#痪伦,然后按tri-grams來(lái)進(jìn)行分解為#go goo ood od#侄榴,再將這個(gè)tri-grams灌入到bag-of-word中,這種方式可以非常有效的解決vocabulary太大的問(wèn)題(因?yàn)樵谡鎸?shí)的web search中vocabulary就是異常的大)网沾,另外也不會(huì)出現(xiàn)oov問(wèn)題癞蚕,因此英文單詞才26個(gè),3個(gè)字母的組合都是有限的辉哥,很容易枚舉光桦山。

那么問(wèn)題就來(lái)了,這樣兩個(gè)不同的單詞會(huì)不會(huì)產(chǎn)出相同的tri-grams证薇,paper里面做了統(tǒng)計(jì)度苔,說(shuō)了這個(gè)沖突的概率非常的低,500K個(gè)word可以降到30k維浑度,沖突的概率為0.0044%寇窑。

但是在中文場(chǎng)景下,這個(gè)Word Hashing估計(jì)沒(méi)有這么有效了箩张。

詞匯共現(xiàn)

詞匯共現(xiàn)是指詞匯在文檔集中共同出現(xiàn)甩骏。以一個(gè)詞為中心,可以找到一組經(jīng)常與之搭配出現(xiàn)的詞先慷,作為它的共現(xiàn)詞匯集饮笛。

詞匯共現(xiàn)的其中一種用例:

有若干關(guān)鍵詞,比如:水果论熙、天氣福青、風(fēng),有若干描述詞,比如无午,很甜媒役、晴朗、很大宪迟,然后現(xiàn)在要找出他們之間的搭配酣衷,在這個(gè)例子里,我們最終要找到:水果很甜次泽、天氣晴朗穿仪、風(fēng)很大

http://sewm.pku.edu.cn/TianwangLiterature/SEWM/2005(5)/%5b%b3%c2%c1%88,%20et%20al.,2005%5d/050929.pdf

關(guān)鍵詞提取

主要三種方法:

1.基于統(tǒng)計(jì)特征,如TF-IDF意荤。

2.基于詞圖模型啊片,如TextRank。

3.基于主題模型袭异,如LDA钠龙。

自然語(yǔ)言理解

Natural language understanding(NLU)屬于NLP的一個(gè)分支,屬于人工智能的一個(gè)部分御铃,用來(lái)解決機(jī)器理解人類語(yǔ)言的問(wèn)題碴里,屬于人工智能的核心難題。

上圖是語(yǔ)義理解中上真,最有實(shí)用價(jià)值的框架語(yǔ)義表示(frame semantics representation)的原理簡(jiǎn)圖咬腋。

參考:

http://www.shuang0420.com/2017/04/27/NLP%E7%AC%94%E8%AE%B0%20-%20NLU%E4%B9%8B%E6%84%8F%E5%9B%BE%E5%88%86%E7%B1%BB/

NLU之意圖分類

論文

《Distant Supervision for relation extraction without labeled data》

《Using Recurrent Neural Networks for Slot Filling in Spoken Language Understanding》

《Convolutional Neural Networks for Sentence Classification》:TextCNN的開(kāi)山之作

知識(shí)圖譜參考資源

https://wenku.baidu.com/view/38ad3ef7e109581b6bd97f19227916888586b959.html

知識(shí)圖譜構(gòu)建技術(shù)綜述

https://wenku.baidu.com/view/e69a3619fe00bed5b9f3f90f76c66137ee064f15.html

知識(shí)圖譜技術(shù)綜述

https://wenku.baidu.com/view/b3858227c5da50e2534d7f08.html

知識(shí)圖譜技術(shù)原理介紹

https://mp.weixin.qq.com/s/JLYegFP7kEg6n34crgP09g

基于知識(shí)圖譜的問(wèn)答系統(tǒng)關(guān)鍵技術(shù)研究

https://mp.weixin.qq.com/s/XgKvh63wgEe-CR9bchp03Q

什么是知識(shí)圖譜?

https://mp.weixin.qq.com/s/iqFXvhvYfOejaeNAhXxJEg

當(dāng)知識(shí)圖譜遇上聊天機(jī)器人

https://mp.weixin.qq.com/s/U-dlYhnaR8OQw2UKYKUWKQ

知識(shí)圖譜前沿技術(shù)課程實(shí)錄

https://mp.weixin.qq.com/s/MZE_SXsNg6Yt4dz2fmB1sA

阿里知識(shí)圖譜首次曝光:每天千萬(wàn)級(jí)攔截量睡互,億級(jí)別全量智能審核

https://mp.weixin.qq.com/s/WIro7pk7kboMvdwpZOSdQA

東南大學(xué)漆桂林:知識(shí)圖譜的應(yīng)用

https://mp.weixin.qq.com/s/z1hhG4GaBQXPHHt9UGZPnA

東南大學(xué)高桓:知識(shí)圖譜表示學(xué)習(xí)

https://mp.weixin.qq.com/s/JZYH_m1eS93KRjkWA82GoA

復(fù)旦肖仰華:基于知識(shí)圖譜的問(wèn)答系統(tǒng)

https://mp.weixin.qq.com/s/cEmtOAtfP2gSBlaPfGXb3w

多源信息表示學(xué)習(xí)在知識(shí)圖譜中的應(yīng)用

https://mp.weixin.qq.com/s/cL1aKdu8ig8-ocOPirXk2w

如何構(gòu)建知識(shí)圖譜

https://mp.weixin.qq.com/s/Nh7XJOLNBDdpibopVG4MrQ

中文通用百科知識(shí)圖譜(CN-DBpedia)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末根竿,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子就珠,更是在濱河造成了極大的恐慌寇壳,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件妻怎,死亡現(xiàn)場(chǎng)離奇詭異壳炎,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)逼侦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門匿辩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人榛丢,你說(shuō)我怎么就攤上這事铲球。” “怎么了晰赞?”我有些...
    開(kāi)封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵稼病,是天一觀的道長(zhǎng)选侨。 經(jīng)常有香客問(wèn)我,道長(zhǎng)溯饵,這世上最難降的妖魔是什么侵俗? 我笑而不...
    開(kāi)封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任锨用,我火速辦了婚禮丰刊,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘增拥。我一直安慰自己啄巧,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布掌栅。 她就那樣靜靜地躺著秩仆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪猾封。 梳的紋絲不亂的頭發(fā)上澄耍,一...
    開(kāi)封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音晌缘,去河邊找鬼齐莲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛磷箕,可吹牛的內(nèi)容都是我干的选酗。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼岳枷,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼芒填!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起空繁,我...
    開(kāi)封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤殿衰,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體畦木,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡仰挣,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蜀踏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡掰吕,死狀恐怖果覆,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情殖熟,我是刑警寧澤局待,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響钳榨,放射性物質(zhì)發(fā)生泄漏舰罚。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一薛耻、第九天 我趴在偏房一處隱蔽的房頂上張望营罢。 院中可真熱鬧,春花似錦饼齿、人聲如沸饲漾。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)考传。三九已至,卻和暖如春证鸥,著一層夾襖步出監(jiān)牢的瞬間僚楞,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工枉层, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留泉褐,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓返干,卻偏偏與公主長(zhǎng)得像兴枯,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子矩欠,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容