Text-CNN房待、Word2Vec、RNN、NLP吴攒、Keras、fast.ai-20180504

本文集僅為收錄自己感興趣砂蔽、感覺不錯的文章與資源洼怔，方便日后查找和閱讀，所以排版可能會讓人覺得亂左驾。內(nèi)容會不斷更新與調(diào)整镣隶。文中涉及公眾號的文章鏈接可以會失效，知道如何生成永久鏈接的小伙伴還望告知诡右。

此前更新的不頻繁安岂，盡量之后多更文。另外歡迎加群“Python交友娛樂會所”（QQ群：613176398）帆吻。

本文關(guān)鍵詞：Text-CNN域那、Word2Vec、Keras猜煮、RNN次员、NLP、fast.ai

2017知乎看山杯從入門到第二

利用一個暑假的時間王带，做了研究生生涯中的第一個正式比賽淑蔚，最終排名第二，有些小遺憾愕撰，但收獲更多的是成長和經(jīng)驗刹衫。我們之前沒有參加過機(jī)器學(xué)習(xí)和文本相關(guān)的比賽，只是學(xué)過一些理論基礎(chǔ)知識搞挣，沒有付諸過實踐带迟，看過的幾篇論文也多虧前輩的分享（一個是用深度學(xué)習(xí)（CNN RNN Attention）解決大規(guī)模文本分類問題 - 綜述和實踐，另一個是brightmart的 text_classification囱桨，里面用Keras實現(xiàn)了很多文本分類的模型）邮旷。
下面對在這次比賽中用到的方法和收獲的經(jīng)驗，做一個簡單的總結(jié)和分享蝇摸。

image

基于 word2vec 和 CNN 的文本分類：綜述 & 實踐

傳統(tǒng)的向量空間模型（VSM）假設(shè)特征項之間相互獨立婶肩，這與實際情況是不相符的，為了解決這個問題貌夕，可以采用文本的分布式表示方式(例如 word embedding形式)律歼，通過文本的分布式表示，把文本表示成類似圖像和語音的連續(xù)啡专、稠密的數(shù)據(jù)险毁。
這樣我們就可以把深度學(xué)習(xí)方法遷移到文本分類領(lǐng)域了。基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法不僅考慮了詞語之間的相關(guān)性畔况，而且還考慮了詞語在文本中的相對位置鲸鹦，這無疑會提升在分類任務(wù)中的準(zhǔn)確率。經(jīng)過實驗跷跪，該方法在驗證數(shù)據(jù)集上的F1-score值達(dá)到了0.9372馋嗜，相對于原來業(yè)務(wù)中所采用的分類方法，有20%的提升吵瞻。

Text-CNN

Text-CNN 文本分類

TextCNN 是利用卷積神經(jīng)網(wǎng)絡(luò)對文本進(jìn)行分類的算法葛菇，由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Classification” 一文 (見參考[1]) 中提出. 是2014年的算法.

TextCNN-1

TextCNN-2

文本分類需要CNN？No橡羞！fastText完美解決你的需求（后篇）

想必通過前一篇的介紹眯停，各位小主已經(jīng)對word2vec以及CBOW和Skip-gram有了比較清晰的了解。在這一篇中卿泽，小編帶大家走進(jìn)業(yè)內(nèi)最新潮的文本分類算法莺债，也就是fastText分類器。fastText與word2vec的提出者之所以會想到用fastText取代CNN(卷積神經(jīng)網(wǎng)絡(luò))等深度學(xué)習(xí)模型签夭，目的是為了在大數(shù)據(jù)情況下提高運算速度九府。

使用Keras進(jìn)行深度學(xué)習(xí)：（三）使用text-CNN處理自然語言（上）

CNN模型首次使用在文本分類，是Yoon Kim發(fā)表的“Convolutional Neural Networks for Sentence Classification”論文中覆致。在講解text-CNN之前侄旬，先介紹自然語言處理和Keras對自然語言的預(yù)處理。

fastText煌妈、TextCNN儡羔、TextRNN……這里有一套NLP文本分類深度學(xué)習(xí)方法庫供你選擇

brightmart的 text_classification

[站外圖片上傳中...(image-dd1d2e-1525483118820)]
Another Twitter sentiment analysis with Python?—?Part 11 (CNN + Word2Vec)

This is the 11th and the last part of my Twitter sentiment analysis project.
挺不錯的系列

Part 1: Data cleaning
Part 2: EDA, Data visualisation
Part 3: Zipf’s Law, Data visualisation
Part 4: Feature extraction (count vectorizer), N-gram, confusion matrix
Part 5: Feature extraction (Tfidf vectorizer), machine learning model comparison, lexical approach
Part 6: Doc2Vec
Part 7: Phrase modeling + Doc2Vec
Part 8: Dimensionality reduction (Chi2, PCA)
Part 9: Neural Networks with Tfidf vectors
Part 10: Neural Networks with Doc2Vec/Word2Vec/GloVe

Dive Into NLTK, Part XI: From Word2Vec to WordNet
挺不錯的系列

spacy.io

Using pre-trained word embeddings in a Keras model

In this tutorial, we will walk you through the process of solving a text classification problem using pre-trained word embeddings and a convolutional neural network.
The full code for this tutorial is available on Github.

Keras-RNN

結(jié)合DL with python的書一起看

image

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)介紹2：keras代碼分析
目標(biāo)：使用keras搭建RNN網(wǎng)路，使用推文數(shù)據(jù)訓(xùn)練模型

思路：準(zhǔn)備工作 -> 數(shù)據(jù)序列化 -> 得到詞嵌入矩陣 -> 訓(xùn)練網(wǎng)絡(luò)

準(zhǔn)備工作：讀取相關(guān)庫函數(shù)璧诵，讀入數(shù)據(jù)集汰蜘，劃分訓(xùn)練集和測試集，
數(shù)據(jù)序列化：將文本轉(zhuǎn)換為數(shù)字序列
得到詞嵌入矩陣：讀取glove模型之宿，得到詞嵌入矩陣
訓(xùn)練網(wǎng)絡(luò)：劃分訓(xùn)練集和驗證集族操，搭建簡單的RNN網(wǎng)絡(luò),訓(xùn)練網(wǎng)絡(luò)

100行深度學(xué)習(xí)文本分類

深度學(xué)習(xí)常用的文本分類網(wǎng)絡(luò)有LSTM和GRU，同時CNN在文本分類中也有一定的效果比被。本文將簡單實現(xiàn)一個LSTM文本分類框架色难。
NLP文本分類實戰(zhàn): 傳統(tǒng)方法與深度學(xué)習(xí)
文檔分類是指給定文檔p（可能含有標(biāo)題t），將文檔分類為n個類別中的一個或多個等缀，本文以人機(jī)寫作為例子枷莉，針對有監(jiān)督學(xué)習(xí)簡單介紹傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。
包含數(shù)據(jù)預(yù)處理：jieba尺迂、gensim特征提取笤妙，傳統(tǒng)ML方法Adaboost以及深度學(xué)習(xí)方法
本文嘗試了多層CNN冒掌、并行CNN、RNN與CNN的結(jié)合蹲盘、基于Hierarchical Attention的RNN股毫、遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)召衔、聯(lián)合模型學(xué)習(xí)铃诬。在單模型和聯(lián)合模型學(xué)習(xí)上，我們復(fù)現(xiàn)薄嫡、借鑒了2017知乎看山杯比賽第一名陳云的方案氧急，在此表示感謝颗胡。深度學(xué)習(xí)部分代碼都是使用Keras框架實現(xiàn)的毫深。

NLP

image

用深度學(xué)習(xí)（CNN RNN Attention）解決大規(guī)模文本分類問題 - 綜述和實踐

近來在同時做一個應(yīng)用深度學(xué)習(xí)解決淘寶商品的類目預(yù)測問題的項目，恰好碩士畢業(yè)時論文題目便是文本分類問題毒姨，趁此機(jī)會總結(jié)下文本分類領(lǐng)域特別是應(yīng)用深度學(xué)習(xí)解決文本分類的相關(guān)的思路哑蔫、做法和部分實踐的經(jīng)驗。

從CNN視角看在自然語言處理上的應(yīng)用

本文主要以CMU CS 11-747（Neural Networks for NLP）課程中Convolutional Networks for Text這一章節(jié)的內(nèi)容作為主線進(jìn)行講解弧呐。本文主要包括了對如下幾塊內(nèi)容的講解闸迷，第一部分是對于常見的語言模型在進(jìn)行文本表示時遇到的問題以及引入卷積神經(jīng)網(wǎng)絡(luò)的意義，第二部分是對于卷積神經(jīng)網(wǎng)絡(luò)模塊的介紹俘枫，第三部分主要是介紹一些卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于自然語言處理中的論文腥沽，第四部分主要是對這一篇綜述進(jìn)行總結(jié)。

深度學(xué)習(xí)在文本分類中的應(yīng)用

本文總結(jié)了文本分類相關(guān)的深度學(xué)習(xí)模型鸠蚪、優(yōu)化思路以及今后可以進(jìn)行的一些工作今阳。

鵝廠優(yōu)文 | 小姐姐如何利用TextCNN識別臟話

長文本的向量表達(dá)技術(shù)綜述

DL4NLP —— 序列標(biāo)注：BiLSTM-CRF模型做基于字的中文命名實體識別
這個博客也可以看看
Determined22

image

TextBoxes: 一個快速文本檢測器

NLP中自動生產(chǎn)文摘（auto text summarization）

用CNN分100,000類圖像
在這篇文章中我們嘗試了用CNN分類113,287類圖像(MSCOCO)。

實際上我們將每張訓(xùn)練集中的圖像認(rèn)為成一類茅信。（當(dāng)然, 如果只用一張圖像一類盾舌，CNN肯定會過擬合）。同時蘸鲸，我們利用了5句圖像描述(文本)妖谴，加入了訓(xùn)練。所以每一類相當(dāng)于有6個樣本（1張圖像+5句描述）酌摇。
文章想解決的問題是instance-level的retrieval膝舅，也就是說如果你在5000張圖的image pool中，要找“一個穿藍(lán)色衣服的金發(fā)女郎在打車窑多≈罚” 實際上你只有一個正確答案。不像class-level 或category-level的要找“女性“可能有很多個正確答案怯伊。所以這個問題更細(xì)粒度琳轿，也更需要detail的視覺和文本特征判沟。

fast.ai

image

Fast.ai 最實戰(zhàn)深度學(xué)習(xí)在線課程 Lesson1
Fast.ai 最實戰(zhàn)深度學(xué)習(xí)在線課程 Lesson1-7-搜狗微信
Fast.ai 深度學(xué)習(xí)實戰(zhàn)課程-騰訊視頻
在 fast.ai 課堂上，我總結(jié)的 8 個深度學(xué)習(xí)最佳實踐

深度學(xué)習(xí)+自然語言處理（NLP）”專欄索引
 CRF和LSTM 模型在序列標(biāo)注上的優(yōu)劣崭篡？

句法分析（使用NLTK+Stanford nlp挪哄、LTP）
劉兵《Entity and aspect extraction for opinion mining 》翻譯筆記
 哈工大車萬翔：NLP中的深度學(xué)習(xí)模型是否依賴于樹結(jié)構(gòu)？

Word2vec

image

無痛理解word2vec
大白話講解word2vec到底在做些什么
Deep Learning in NLP （一）詞向量和語言模型-來博士
NLP 秒懂詞向量Word2vec的本質(zhì)
word2vec前世今生
word2vec 中的數(shù)學(xué)原理詳解（一）目錄和前言
詞向量-paddlepaddle
詞向量-paddlepaddle-極客學(xué)院

回望2017琉闪，基于深度學(xué)習(xí)的NLP研究大盤點
 張鈸院士：AI科學(xué)突破的前夜迹炼，教授們應(yīng)當(dāng)看到什么？
NLP 解決方案是如何被深度學(xué)習(xí)改寫的颠毙？
Semantic Data Retrieval: Search, Ranking, and Summarization-講義網(wǎng)站
 神經(jīng)機(jī)器翻譯綜述
 SEE: Syntax-aware Entity Embedding for Neural Relation Extraction
https://arxiv.org/abs/1801.03603

image

Word embeddings in 2017: Trends and future directions

這個博客也是很多綜述斯入、NLP前沿、全面的涉獵
Deep Learning for NLP Best Practices

(Stanford CS224d) Deep Learning and NLP課程筆記（二）：word2vec

wordNet的缺點
one-hot encoding所有詞相似度都是0蛀蜜，且存在數(shù)據(jù)稀疏性和維度災(zāi)難的問題刻两；
Distributional Representation。從大量語料中構(gòu)建一個co-occurrence矩陣來定義word representation滴某。矩陣的構(gòu)造通常有兩種方式：基于document和基于windows磅摹。通過統(tǒng)計word與document共現(xiàn)的次數(shù)得到的矩陣被稱為word-document矩陣。這個矩陣一般被用于主題模型霎奢。相同主題的word之間往往有著較高的相似度户誓。但該矩陣很難描述word的語法信息（例如POS tag）。我們在課堂上主要講授的是第二類矩陣：word-context矩陣幕侠。通過統(tǒng)計一個事先指定大小的窗口內(nèi)的word共現(xiàn)次數(shù)帝美，不僅可以刻畫word的語義信息，還在一定程度上反應(yīng)了word的語法結(jié)構(gòu)信息晤硕。co-occurrence矩陣定義的詞向量在一定程度上緩解了one-hot向量相似度為0的問題悼潭，但沒有解決數(shù)據(jù)稀疏性和維度災(zāi)難的問題。
SVD分解：低維詞向量的間接學(xué)習(xí)窗骑∨穑基于co-occurrence矩陣得到的離散詞向量存在著高維和稀疏性的問題，一個自然而然的解決思路是對原始詞向量進(jìn)行降維创译，從而得到一個稠密的連續(xù)詞向量抵知。然而，高昂的計算復(fù)雜度（O(mn**2)）是SVD算法的性能瓶頸软族。每一個新詞的加入都需要在一個新的矩陣上重新運行一遍SVD分解刷喜。
word2vec：低維詞向量的直接學(xué)習(xí)。word2vec模型背后的基本思想是對出現(xiàn)在上下文環(huán)境里的詞進(jìn)行預(yù)測（事實上立砸，后面會看到掖疮，這種對上下文環(huán)境的預(yù)測本質(zhì)上也是一種對co-occurrence統(tǒng)計特征的學(xué)習(xí)）。梯度計算需要對每個上下文窗口都計算出訓(xùn)練集中所有單詞的條件概率颗祝。這對于動輒上百萬的詞典而言浊闪，幾乎是一件不可能完成的任務(wù)恼布。因此，Mikolov在他2013年發(fā)表的論文里提出了一些性能優(yōu)化的Hacks搁宾，包括近似歸一化的層次Softmax折汞，和避免歸一化的負(fù)采樣技術(shù)。
下一節(jié)課盖腿，學(xué)習(xí)結(jié)合二者優(yōu)勢的新的詞向量模型——Glove模型爽待。

(Stanford CS224d) Deep Learning and NLP課程筆記（三）：GloVe與模型的評估

本節(jié)課繼續(xù)講授word2vec模型的算法細(xì)節(jié)，并介紹一種新的基于共現(xiàn)矩陣的詞向量模型——GloVe模型翩腐。最后鸟款，重點介紹word2vec模型評估的兩種方式。
負(fù)采樣（Negative Sampling）的似然函數(shù)茂卦，避免了歸一化概率的計算何什。
GloVe模型
上節(jié)課比較了基于統(tǒng)計的詞向量模型和基于預(yù)測的詞向量模型。前者以基于SVD分解技術(shù)的LSA模型為代表疙筹，通過構(gòu)建一個共現(xiàn)矩陣得到隱層的語義向量富俄，充分利用了全局的統(tǒng)計信息禁炒。然而這類模型得到的語義向量往往很難把握詞與詞之間的線性關(guān)系（例如著名的King而咆、Queen、Man幕袱、Woman等式）暴备。后者則以基于神經(jīng)網(wǎng)絡(luò)的Skip-gram模型為代表，通過預(yù)測一個詞出現(xiàn)在上下文里的概率得到embedding詞向量们豌。這類模型的缺陷在于其對統(tǒng)計信息的利用不充分涯捻，訓(xùn)練時間與語料大小息息相關(guān)。不過望迎，其得到的詞向量能夠較好地把握詞與詞之間的線性關(guān)系障癌，因此在很多任務(wù)上的表現(xiàn)都要略優(yōu)于SVD模型。既然兩種模型各有優(yōu)劣辩尊，那么能不能二者各取其長涛浙，構(gòu)造一個更強(qiáng)大的詞向量模型呢？這就是接下來要介紹的GloVe模型摄欲。在GloVe的原始論文里轿亮，作者首先分析了Skip-gram模型能夠挖掘出詞與詞之間線性關(guān)系的背后成因，然后通過在共現(xiàn)矩陣上構(gòu)造相似的條件胸墙，得到一個基于全局信息的詞向量模型——GloVe模型我注。
模型的評估：在NLP的研究領(lǐng)域里，一個模型的評估通常有兩種方式：Intrinsic 和 Extrinsic迟隅。

Kaggle

數(shù)據(jù)挖掘進(jìn)階：kaggle競賽top代碼分享

怎樣使用github

MarkDown入門指南

最后編輯于：2018.05.05 09:19:51

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末但骨，一起剝皮案震驚了整個濱河市励七，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌奔缠，老刑警劉巖呀伙，帶你破解...
沈念sama閱讀 216,591評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異添坊，居然都是意外死亡剿另，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,448評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門贬蛙，熙熙樓的掌柜王于貴愁眉苦臉地迎上來雨女，“玉大人，你說我怎么就攤上這事阳准》斩椋” “怎么了？”我有些...
開封第一講書人閱讀 162,823評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵野蝇，是天一觀的道長讼稚。經(jīng)常有香客問我，道長绕沈，這世上最難降的妖魔是什么锐想？我笑而不...
開封第一講書人閱讀 58,204評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮乍狐，結(jié)果婚禮上赠摇，老公的妹妹穿的比我還像新娘。我一直安慰自己浅蚪，他們只是感情好藕帜，可當(dāng)我...
茶點故事閱讀 67,228評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著惜傲，像睡著了一般洽故。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上盗誊，一...
開封第一講書人閱讀 51,190評論 1贊 299
城市分裂傳說
那天时甚，我揣著相機(jī)與錄音，去河邊找鬼浊伙。笑死撞秋，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的嚣鄙。我是一名探鬼主播吻贿，決...
沈念sama閱讀 40,078評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼哑子！你這毒婦竟也來了舅列？” 一聲冷哼從身側(cè)響起肌割，我...
開封第一講書人閱讀 38,923評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎帐要，沒想到半個月后把敞，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,334評論 1贊 310
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡榨惠，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,550評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年奋早，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赠橙。...
茶點故事閱讀 39,727評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡耽装，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出期揪，到底是詐尸還是另有隱情掉奄，我是刑警寧澤，帶...
沈念sama閱讀 35,428評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布凤薛，位于F島的核電站浊猾，受9級特大地震影響羹呵，放射性物質(zhì)發(fā)生泄漏幕与。R本人自食惡果不足惜坛怪，卻給世界環(huán)境...
茶點故事閱讀 41,022評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望榨馁。院中可真熱鬧憨栽，春花似錦帜矾、人聲如沸翼虫。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,672評論 0贊 22
一樁弒父案屡萤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽珍剑。三九已至，卻和暖如春死陆，著一層夾襖步出監(jiān)牢的瞬間招拙，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,826評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工措译，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留别凤，地道東北人。一個月前我還...
沈念sama閱讀 47,734評論 2贊 368
代替公主和親
正文我出身青樓领虹，卻偏偏與公主長得像规哪，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子塌衰，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,619評論 2贊 354

Text-CNN、Word2Vec窘茁、RNN怀伦、NLP、Keras山林、fast.ai-20180504

Text-CNN房待、Word2Vec、RNN、NLP吴攒、Keras、fast.ai-20180504

Text-CNN

Keras-RNN

NLP

fast.ai

Word2vec

Kaggle

推薦閱讀更多精彩內(nèi)容