NLP系列學(xué)習(xí):CNN文本分類

這一篇文章主要是記錄下自己閱讀《Convolutional Neural Networks for Sentence Classification》這篇文章思路的一個(gè)整理蛋欣。這篇文章也可以算是CNN用于文本分類的開山之作了拇砰,盡管第一個(gè)使用CNN進(jìn)行文本分類的不是Yoon Kim,但是Kim在這篇文章里提出來不少的方法唱捣,并且調(diào)參的過程也很詳細(xì),這些是我們應(yīng)該學(xué)習(xí)的番舆。

1:Introduction

這部分主要還是講了講前人使用CNN的一些工作贫橙,這部分暫且不提,主要思考的一個(gè)問題是為什么選用CNN畅姊,在這里論文里也沒有詳細(xì)講咒钟,我寫寫我的想法,如果不對(duì)若未,歡迎指教朱嘴。

我們傳統(tǒng)的分類器比如樸素貝葉斯和SVM這樣的,大多數(shù)將文本表示的方法是將其轉(zhuǎn)換為“詞袋模型”粗合,主要還是根據(jù)在文本中出現(xiàn)的詞頻來做的萍嬉,這樣也會(huì)導(dǎo)致詞與詞之間的序列信息丟失,我們分詞之后隙疚,句子本身相當(dāng)于切成一塊一塊壤追,詞和詞組合之后往往會(huì)有局部語意。這里一個(gè)重要的問題就是粒度和語意的矛盾供屉。如果粒度過大行冰,則太稀疏就跟強(qiáng)行使用N-gram一樣溺蕉,意義不大,粒度過小那么意思就不對(duì)了悼做。而使用CNN的話疯特, 通過卷積層之后,把每 k 個(gè)詞組合之后的語意放在一起贿堰,得到比較準(zhǔn)確的句向量辙芍。

2:模型輸入的數(shù)據(jù)格式

文章中模型的輸入的格式進(jìn)行了四種嘗試,然后進(jìn)行對(duì)比羹与,有以下四種:

CNN-rand: 所有的 word vector 都是隨機(jī)初始化的故硅,同時(shí)當(dāng)做訓(xùn)練過程中優(yōu)化的參數(shù);

CNN-static: 所有的 word vector 直接使用 Word2Vec 工具得到的結(jié)果纵搁,并且是固定不變的吃衅;

CNN-non-static: 所有的 word vector 直接使用 Word2Vec 工具得到的結(jié)果,這些 word vector 也當(dāng)做是可優(yōu)化的參數(shù)腾誉,在訓(xùn)練過程中被 Fine tuned徘层;

CNN-multichannel: CNN-static 和 CNN-non-static 的混合版本,即兩種類型的輸入利职;

3:模型介紹

這個(gè)模型結(jié)構(gòu)還是比較簡單的趣效,主要目的應(yīng)該還是簡單計(jì)算吧.說說他的結(jié)構(gòu):

模型的主要結(jié)構(gòu):

輸入層+第一層卷積層+池化層+全連接+softmax層

輸入層

從圖上看,輸入層就是句子中詞語對(duì)應(yīng)的詞向量依次從上到下排列的猪贪,比如有n個(gè)詞跷敬,詞向量的維度是K,則這個(gè)矩陣就是n*k的矩陣热押。至于這個(gè)矩陣是靜態(tài)和動(dòng)態(tài)都可以西傀,這個(gè)我查了一些博客,其中有個(gè)解釋是說static是說詞向量的大小是固定不變的桶癣,non-static的意思是指通過反向傳播之后拥褂,產(chǎn)生的誤差導(dǎo)致詞向量發(fā)生fine tuned,對(duì)于未登錄的詞牙寞,這里padding一下饺鹃。

第一層卷積層

輸入層通過h*k的卷積核的卷積層之后得到列數(shù)為1的Feature Map,其中h表示縱向詞語的個(gè)數(shù),k表示詞向量的維度间雀。

卷積之后通過激活函數(shù)f得到feature悔详。記為ci。它是由xi:i+h?1相鄰的 h 個(gè)詞語卷積得到的值雷蹂,再 activation 之后的值,也是當(dāng)前層的輸出杯道。

卷積之后的值:w?xi:i+h?1+b

輸出的 feature 值 ci=f(w?xi:i+h?1+b),也就是sentence embedding

窗口大蟹嘶汀:h

這樣之后责蝠,一個(gè) n 長度的sentence就有[x1:h,x2:h+1萎庭,x3:h+2霜医,…,xn?h+1:n]這些 word windows驳规,卷積后的結(jié)果就是 c = [c1,c2,…,cn?h+1]肴敛,維度為(1,n-h+1)

然后進(jìn)行池化 max pooling吗购,選出最重要的 feature医男。

pooling scheme可以根據(jù)句子的長度來選擇。

池化層

這里池化層說是用Max-over-time Pooling的方法捻勉,這種方法其實(shí)就是從之前的Feature Map中提取最大的值镀梭,我們?cè)谑褂米畲蟪鼗ǖ臅r(shí)候一般認(rèn)為池化層中提取的最大,一般是最具有代表意義的或者是最重要的踱启。最終提取出來成為一個(gè)一維向量报账。

全連接層+softmax層

池化之后的一維向量通過全連接的方式接入一個(gè)softmax層進(jìn)行分類,并且在全連接部分使用Dropout,減少過擬合埠偿。

最后的結(jié)果

從結(jié)果看

CNN-static較與CNN-rand好透罢,說明pre-training的word vector確實(shí)有較大的提升作用(這也難怪,因?yàn)閜re-training的word vector顯然利用了更大規(guī)模的文本數(shù)據(jù)信息)冠蒋;

CNN-non-static較于CNN-static大部分要好羽圃,說明適當(dāng)?shù)腇ine tune也是有利的,是因?yàn)槭沟胿ectors更加貼近于具體的任務(wù)浊服;

CNN-multichannel較于CNN-single在小規(guī)模的數(shù)據(jù)集上有更好的表現(xiàn)统屈,實(shí)際上CNN-multichannel體現(xiàn)了一種折中思想,即既不希望Fine tuned的vector距離原始值太遠(yuǎn)牙躺,但同時(shí)保留其一定的變化空間愁憔。

下面總結(jié)一下Ye Zhang等人基于Kim Y的模型做了大量的調(diào)參實(shí)驗(yàn)之后的結(jié)論(核心)

由于模型訓(xùn)練過程中的隨機(jī)性因素,如隨機(jī)初始化的權(quán)重參數(shù)孽拷,mini-batch吨掌,隨機(jī)梯度下降優(yōu)化算法等,會(huì)造成模型在數(shù)據(jù)集上的結(jié)果有一定的浮動(dòng)

詞向量是使用word2vec還是GloVe脓恕,對(duì)實(shí)驗(yàn)結(jié)果有一定的影響膜宋,具體哪個(gè)更好依賴于任務(wù)本身;

Filter的大小對(duì)模型性能有較大的影響炼幔,并且Filter的參數(shù)應(yīng)該是可以更新的秋茫;

Feature Map的數(shù)量也有一定影響,但是需要兼顧模型的訓(xùn)練效率乃秀;

1-max pooling的方式已經(jīng)足夠好了肛著,相比于其他的pooling方式而言圆兵;

正則化的作用微乎其微。

調(diào)參建議

1:word2vec和Glove比單純的one-hot效果好的多(似乎沒毛彩嗷摺)

2:最優(yōu)的Filter的大小可以通過線性搜索確定殉农,但是過濾器的大小在1-10口味食用最佳。

3:Feature Map在100-600之間

4:激活函數(shù)tanh和Relu效果很好

5:最大池化效果就很不錯(cuò)了

6:適當(dāng)使用正則化手段局荚,比如調(diào)節(jié)dropout的概率

7:反復(fù)交叉驗(yàn)證檢驗(yàn)?zāi)P偷乃健?/p>

參考資料:

1:Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint arXiv:1408.5882, 2014.

2:A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification Ye Zhang, Byron Wallace

3:Convolutional Neural Networks for Sentence Classification

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末超凳,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子耀态,更是在濱河造成了極大的恐慌轮傍,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,544評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件茫陆,死亡現(xiàn)場離奇詭異金麸,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)簿盅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,430評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門挥下,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人桨醋,你說我怎么就攤上這事棚瘟。” “怎么了喜最?”我有些...
    開封第一講書人閱讀 162,764評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵偎蘸,是天一觀的道長。 經(jīng)常有香客問我瞬内,道長迷雪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,193評(píng)論 1 292
  • 正文 為了忘掉前任虫蝶,我火速辦了婚禮章咧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘能真。我一直安慰自己赁严,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,216評(píng)論 6 388
  • 文/花漫 我一把揭開白布粉铐。 她就那樣靜靜地躺著疼约,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蝙泼。 梳的紋絲不亂的頭發(fā)上程剥,一...
    開封第一講書人閱讀 51,182評(píng)論 1 299
  • 那天,我揣著相機(jī)與錄音汤踏,去河邊找鬼织鲸。 笑死哨免,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的昙沦。 我是一名探鬼主播,決...
    沈念sama閱讀 40,063評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼载荔,長吁一口氣:“原來是場噩夢啊……” “哼盾饮!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起懒熙,我...
    開封第一講書人閱讀 38,917評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤丘损,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后工扎,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體徘钥,經(jīng)...
    沈念sama閱讀 45,329評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,543評(píng)論 2 332
  • 正文 我和宋清朗相戀三年肢娘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了呈础。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,722評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡橱健,死狀恐怖而钞,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拘荡,我是刑警寧澤臼节,帶...
    沈念sama閱讀 35,425評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站珊皿,受9級(jí)特大地震影響网缝,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜蟋定,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,019評(píng)論 3 326
  • 文/蒙蒙 一粉臊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧溢吻,春花似錦维费、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,671評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蝇狼,卻和暖如春阅畴,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背迅耘。 一陣腳步聲響...
    開封第一講書人閱讀 32,825評(píng)論 1 269
  • 我被黑心中介騙來泰國打工贱枣, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留监署,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,729評(píng)論 2 368
  • 正文 我出身青樓纽哥,卻偏偏與公主長得像钠乏,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子春塌,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,614評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 一些廢話好久沒有更新了晓避,簡書上公式編輯實(shí)在是讓我不舒服~發(fā)現(xiàn),不寫下來自己的金魚腦袋太容易忘記只壳。ok俏拱,繼續(xù)記錄。由...
    是neinei啊閱讀 7,908評(píng)論 0 13
  • 卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)在數(shù)字圖像處理領(lǐng)域取得了巨大的成功吼句,...
    MiracleJQ閱讀 7,509評(píng)論 0 6
  • 需求 最近項(xiàng)目需求需要模擬微信的朋友圈功能惕艳,實(shí)現(xiàn)可以發(fā)送圖文消息搞隐,好友可以查看,滿足添加新的好友之后远搪,可以在朋友圈...
    真老根兒閱讀 10,113評(píng)論 11 5
  • 有一段時(shí)間沒有用簡書了尔许。前幾天無聊又開始看看簡書的文章。然后受到了點(diǎn)啟發(fā)终娃。我發(fā)現(xiàn)有好些人會(huì)在這個(gè)平臺(tái)上寫一些他們的...
    Richardo92閱讀 680評(píng)論 12 1
  • 本文首發(fā)微信公眾號(hào):相遇小ying 2016-06-13王躍英相遇小ying 只要出現(xiàn)一例安全事故味廊,安監(jiān)局叫...
    我愛刨根問底閱讀 411評(píng)論 0 2