NLP
自然語(yǔ)言處理(Natural Language Processing)是深度學(xué)習(xí)的主要應(yīng)用領(lǐng)域之一。
教程
CS224d: Deep Learning for Natural Language Processing
http://web.stanford.edu/class/cs224n/syllabus.html
cs224d課程的課件
http://demo.clab.cs.cmu.edu/NLP/
CMU的NLP教程蜀备。該網(wǎng)頁(yè)下方還有美國(guó)其他高校的NLP課程的鏈接奸鸯。
http://ccl.pku.edu.cn/alcourse/nlp/
北京大學(xué)的NLP教程或油,特色:中文處理。缺點(diǎn):傳統(tǒng)方法居多,深度學(xué)習(xí)未涉及停忿。
http://www.cs.columbia.edu/~cs4705/
COMS W4705: Natural Language Processing
https://mp.weixin.qq.com/s/TSc4E8lKwgc-EvzP8OlJeg
初學(xué)者如何查閱自然語(yǔ)言處理(NLP)領(lǐng)域?qū)W術(shù)資料
https://zhuanlan.zhihu.com/kb-qa
揭開(kāi)知識(shí)庫(kù)問(wèn)答KB-QA的面紗(知識(shí)圖譜方面的系列專欄)
http://web.stanford.edu/~jurafsky/slp3/ed3book.pdf
《語(yǔ)音與語(yǔ)言處理》第三版,NLP和語(yǔ)音合成方面的專著
https://mp.weixin.qq.com/s/5KhTWdOk-b84DXmoVr68-A
CIPS ATT 2017 文本分析和自然語(yǔ)言課程PPT
http://phontron.com/class/nn4nlp2017/assets/slides/
CMU NN for NLP
http://phontron.com/class/mtandseq2seq2017/
CMU Machine Translation and Sequence to Sequence Models
https://github.com/oxford-cs-deepnlp-2017/lectures
Oxford Deep NLP 2017 course
http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Natural%20Language%20Processing%20with%20Python.pdf
《Natural Language Processing with Python》蚊伞,Steven Bird瞎嬉、Ewan Klein、Edward Loper著厚柳。這本書的作者們創(chuàng)建了著名的NLTK工具庫(kù)氧枣。
注:Steven Bird,愛(ài)丁堡大學(xué)博士别垮,墨爾本大學(xué)副教授便监。
http://www.stevenbird.net/about.html
Ewan Klein,蘇格蘭人碳想,哥倫比亞大學(xué)博士(1978年)烧董,愛(ài)丁堡大學(xué)教授。
Edward Loper胧奔,賓夕法尼亞大學(xué)博士逊移。
https://mp.weixin.qq.com/s/0HmsMytif3INqAX1Si5ukA
推薦5本經(jīng)典自然語(yǔ)言處理書籍
一個(gè)自然語(yǔ)言處理愛(ài)好者的群體博客。包括52nlp龙填、rickjin胳泉、liwei等國(guó)內(nèi)外華人大牛。
實(shí)戰(zhàn)課程:自己動(dòng)手做聊天機(jī)器人
http://www.icst.pku.edu.cn/lcwm/
北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所語(yǔ)言計(jì)算與互聯(lián)網(wǎng)挖掘研究室
https://github.com/rockingdingo/deepnlp
NLP深度學(xué)習(xí)方面的代碼庫(kù)
NLP專家李維的blog
一個(gè)NLP方面的blog
http://www.cnblogs.com/Determined22/
一個(gè)DL+ML+NLP的blog
http://www.cnblogs.com/robert-dlut/
一個(gè)NLP方面的blog
blog.csdn.net/hellonlp/
一個(gè)NLP方面的blog
Natural Language Toolkit(NLTK)
官網(wǎng):
可使用nltk.download()下載相關(guān)nltk官方提供的各種資源岩遗。
參考:
http://www.cnblogs.com/baiboy/p/nltk3.html
https://github.com/FudanNLP/fnlp
http://stanfordnlp.github.io/CoreNLP/
THUCTC(THU Chinese Text Classification)是由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出的中文文本分類工具包扇商。
gensim是Python語(yǔ)言的計(jì)算文本相似度的程序包。
http://radimrehurek.com/gensim/index.html
pip install –upgrade gensim
GitHub:
https://github.com/RaRe-Technologies/gensim
參考:
http://www.open-open.com/lib/view/open1444351655682.html
情感分析的新方法——基于Word2Vec/Doc2Vec/Python
http://blog.csdn.net/Star_Bob/article/details/47808499
Gensim Word2vec使用教程
GloVe:Global Vectors for Word Representation
https://nlp.stanford.edu/projects/glove/
textsum是一個(gè)基于深度學(xué)習(xí)的文本自動(dòng)摘要工具宿礁。
代碼:
https://github.com/tensorflow/models/tree/master/textsum
參考:
http://www.jiqizhixin.com/article/1449
谷歌開(kāi)源新的TensorFlow文本自動(dòng)摘要代碼
http://blog.csdn.net/tensorflowshizhan/article/details/69230070
TensorFlow文本摘要生成 - 基于注意力的序列到序列模型
https://github.com/fxsjy/jieba
NLPIR漢語(yǔ)分詞系統(tǒng)(又名ICTCLAS2013)案铺,是中科院張華平博士的作品。官網(wǎng):
參考:
http://ictclas.nlpir.org/nlpir/
這個(gè)網(wǎng)頁(yè)對(duì)于NLP的大多數(shù)功能進(jìn)行了可視化的展示梆靖。NLP入門必看控汉。
https://github.com/isnowfy/snownlp
HanLP是一個(gè)目前留學(xué)日本的中國(guó)學(xué)生的作品笔诵。
官網(wǎng):
作者blog:
Github:
https://github.com/hankcs/HanLP/
從作者的名氣來(lái)說(shuō),HanLP無(wú)疑是最低的姑子,性能也不見(jiàn)得有多好乎婿。然而對(duì)于初學(xué)者來(lái)說(shuō),這卻是最適合的工具壁酬。這主要體現(xiàn)在以下幾個(gè)方面:
1.中文處理能力次酌。NLTK和OpenNLP對(duì)中文支持非常差,這里不光是中文分詞的問(wèn)題舆乔,有些NLP算法需要一定的語(yǔ)言模型數(shù)據(jù)岳服,但瀏覽NLTK官方的模型庫(kù),基本找不到中文模型數(shù)據(jù)希俩。
2.jieba吊宋、IK之類的功能太單一,多數(shù)局限在中文分詞方面領(lǐng)域颜武。gensim璃搜、THUCTC專注于NLP的某一方面,也不是通用工具鳞上。
3.NLPIR和Stanford CoreNLP算是功能最強(qiáng)的工具包了这吻。前者的問(wèn)題在于收費(fèi)不開(kāi)源,后者的問(wèn)題在于缺少中文文檔篙议。FudanNLP的相關(guān)文檔較少唾糯,文檔友好度不如HanLP。
4.HanLP在主頁(yè)上提供了相關(guān)算法的blog鬼贱,便于初學(xué)者快速掌握相關(guān)概念移怯。其詞典是明文發(fā)布,便于用戶修改这难。HanLP執(zhí)行時(shí)舟误,會(huì)將明文詞典以特定結(jié)構(gòu)緩存,以提高執(zhí)行效率姻乓。
注:不要以為中文有分詞問(wèn)題嵌溢,就比別的語(yǔ)言復(fù)雜,英文還有詞根問(wèn)題呢糖权。堵腹。。每種語(yǔ)言都不簡(jiǎn)單星澳。
AllenNLP是Allen AI實(shí)驗(yàn)室的作品,采用深度學(xué)習(xí)技術(shù)旱易,基于PyTorch開(kāi)發(fā)禁偎。
官網(wǎng):
Allen AI實(shí)驗(yàn)室由微軟聯(lián)合創(chuàng)始人Paul G. Allen投資創(chuàng)立腿堤。
官網(wǎng):
其他
https://github.com/mozillazg/python-pinyin
python版的漢字轉(zhuǎn)拼音軟件
Java分布式中文分詞組件-word分詞
jena是一個(gè)語(yǔ)義網(wǎng)絡(luò)、知識(shí)圖譜相關(guān)的軟件如暖。
NLPchina(中國(guó)自然語(yǔ)言處理開(kāi)源組織)旗下有許多好用的工具笆檀。
官網(wǎng):
Github:
Ansj是一個(gè)NLPchina旗下的開(kāi)源的Java中文分詞工具,基于中科院的ictclas中文分詞算法盒至,比其他常用的開(kāi)源分詞工具(如mmseg4j)的分詞準(zhǔn)確率更高酗洒。
https://github.com/NLPchina/ansj_seg
word2vec java版本的一個(gè)實(shí)現(xiàn)。
https://github.com/NLPchina/Word2VEC_java
doc2vec java版本的一個(gè)實(shí)現(xiàn)枷遂,基于Word2VEC_java樱衷。
https://github.com/yao8839836/doc2vec_java
LDA算法的Java包。
https://github.com/NLPchina/ansj_fast_lda
這個(gè)項(xiàng)目是一個(gè)基本包.封裝了大多數(shù)nlp項(xiàng)目中常用工具
https://github.com/NLPchina/nlp-lang
http://jacoxu.com/ictpos3-0%E6%B1%89%E8%AF%AD%E8%AF%8D%E6%80%A7%E6%A0%87%E8%AE%B0%E9%9B%86/
Word Hashing
Word Hashing是非常重要的一個(gè)trick酒唉,以英文單詞來(lái)說(shuō)矩桂,比如good,他可以寫成#good#痪伦,然后按tri-grams來(lái)進(jìn)行分解為#go goo ood od#侄榴,再將這個(gè)tri-grams灌入到bag-of-word中,這種方式可以非常有效的解決vocabulary太大的問(wèn)題(因?yàn)樵谡鎸?shí)的web search中vocabulary就是異常的大)网沾,另外也不會(huì)出現(xiàn)oov問(wèn)題癞蚕,因此英文單詞才26個(gè),3個(gè)字母的組合都是有限的辉哥,很容易枚舉光桦山。
那么問(wèn)題就來(lái)了,這樣兩個(gè)不同的單詞會(huì)不會(huì)產(chǎn)出相同的tri-grams证薇,paper里面做了統(tǒng)計(jì)度苔,說(shuō)了這個(gè)沖突的概率非常的低,500K個(gè)word可以降到30k維浑度,沖突的概率為0.0044%寇窑。
但是在中文場(chǎng)景下,這個(gè)Word Hashing估計(jì)沒(méi)有這么有效了箩张。
詞匯共現(xiàn)
詞匯共現(xiàn)是指詞匯在文檔集中共同出現(xiàn)甩骏。以一個(gè)詞為中心,可以找到一組經(jīng)常與之搭配出現(xiàn)的詞先慷,作為它的共現(xiàn)詞匯集饮笛。
詞匯共現(xiàn)的其中一種用例:
有若干關(guān)鍵詞,比如:水果论熙、天氣福青、風(fēng),有若干描述詞,比如无午,很甜媒役、晴朗、很大宪迟,然后現(xiàn)在要找出他們之間的搭配酣衷,在這個(gè)例子里,我們最終要找到:水果很甜次泽、天氣晴朗穿仪、風(fēng)很大
關(guān)鍵詞提取
主要三種方法:
1.基于統(tǒng)計(jì)特征,如TF-IDF意荤。
2.基于詞圖模型啊片,如TextRank。
3.基于主題模型袭异,如LDA钠龙。
自然語(yǔ)言理解
Natural language understanding(NLU)屬于NLP的一個(gè)分支,屬于人工智能的一個(gè)部分御铃,用來(lái)解決機(jī)器理解人類語(yǔ)言的問(wèn)題碴里,屬于人工智能的核心難題。
上圖是語(yǔ)義理解中上真,最有實(shí)用價(jià)值的框架語(yǔ)義表示(frame semantics representation)的原理簡(jiǎn)圖咬腋。
參考:
論文
《Distant Supervision for relation extraction without labeled data》
《Using Recurrent Neural Networks for Slot Filling in Spoken Language Understanding》
《Convolutional Neural Networks for Sentence Classification》:TextCNN的開(kāi)山之作
https://wenku.baidu.com/view/38ad3ef7e109581b6bd97f19227916888586b959.html
知識(shí)圖譜構(gòu)建技術(shù)綜述
https://wenku.baidu.com/view/e69a3619fe00bed5b9f3f90f76c66137ee064f15.html
知識(shí)圖譜技術(shù)綜述
https://wenku.baidu.com/view/b3858227c5da50e2534d7f08.html
知識(shí)圖譜技術(shù)原理介紹
https://mp.weixin.qq.com/s/JLYegFP7kEg6n34crgP09g
基于知識(shí)圖譜的問(wèn)答系統(tǒng)關(guān)鍵技術(shù)研究
https://mp.weixin.qq.com/s/XgKvh63wgEe-CR9bchp03Q
什么是知識(shí)圖譜?
https://mp.weixin.qq.com/s/iqFXvhvYfOejaeNAhXxJEg
當(dāng)知識(shí)圖譜遇上聊天機(jī)器人
https://mp.weixin.qq.com/s/U-dlYhnaR8OQw2UKYKUWKQ
知識(shí)圖譜前沿技術(shù)課程實(shí)錄
https://mp.weixin.qq.com/s/MZE_SXsNg6Yt4dz2fmB1sA
阿里知識(shí)圖譜首次曝光:每天千萬(wàn)級(jí)攔截量睡互,億級(jí)別全量智能審核
https://mp.weixin.qq.com/s/WIro7pk7kboMvdwpZOSdQA
東南大學(xué)漆桂林:知識(shí)圖譜的應(yīng)用
https://mp.weixin.qq.com/s/z1hhG4GaBQXPHHt9UGZPnA
東南大學(xué)高桓:知識(shí)圖譜表示學(xué)習(xí)
https://mp.weixin.qq.com/s/JZYH_m1eS93KRjkWA82GoA
復(fù)旦肖仰華:基于知識(shí)圖譜的問(wèn)答系統(tǒng)
https://mp.weixin.qq.com/s/cEmtOAtfP2gSBlaPfGXb3w
多源信息表示學(xué)習(xí)在知識(shí)圖譜中的應(yīng)用
https://mp.weixin.qq.com/s/cL1aKdu8ig8-ocOPirXk2w
如何構(gòu)建知識(shí)圖譜
https://mp.weixin.qq.com/s/Nh7XJOLNBDdpibopVG4MrQ
中文通用百科知識(shí)圖譜(CN-DBpedia)