CNN在NLP中的應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network, CNN）在數(shù)字圖像處理領(lǐng)域取得了巨大的成功乾胶，從而掀起了深度學(xué)習(xí)在自然語言處理領(lǐng)域（Natural Language Processing, NLP）的狂潮抖剿。2015年以來，有關(guān)深度學(xué)習(xí)在NLP領(lǐng)域的論文層出不窮识窿。盡管其中必定有很多附庸風(fēng)雅的水文斩郎，但是也存在很多經(jīng)典的應(yīng)用型文章。筆者在2016年也發(fā)表過一篇關(guān)于CNN在文本分類方面的論文喻频，今天寫這篇博客的目的甥温，是希望能對(duì)CNN的結(jié)構(gòu)做一個(gè)比較清晰的闡述，同時(shí)就目前的研究現(xiàn)狀做一個(gè)簡單的總結(jié)，并對(duì)未來的發(fā)展方向做一個(gè)小小的期望跺讯。由于筆者在深度學(xué)習(xí)方面的資歷尚淺超凳，因此如文中出現(xiàn)錯(cuò)誤，請(qǐng)不吝賜教。

一. CNN的結(jié)構(gòu)闡述（以LeNet-5為例）

我寫這一節(jié)的目的系奉，并不是從頭到尾的對(duì)CNN做一個(gè)詳細(xì)的描述萌踱，如果你對(duì)CNN的結(jié)構(gòu)不清楚，我建議還是先去看LeCun大神的論文Gradient-based learning applied to document recognition赁严，而且程剥，網(wǎng)上也有很多經(jīng)典的博客，對(duì)CNN的結(jié)構(gòu)和原理都做了比較深入的闡述，這里推薦zouxy大神的博客扳还。這里對(duì)結(jié)構(gòu)進(jìn)行重新闡述棘劣，主要是對(duì)一些入門的同學(xué)可能會(huì)碰到的問題進(jìn)行一些突出和討論，并且主要圍繞以下幾個(gè)問題展開（一看就懂得大神請(qǐng)繞道）：

CNN中的卷積的數(shù)學(xué)實(shí)現(xiàn)是什么？這里的卷積和數(shù)字信號(hào)處理的卷積是相同的嗎？

CNN中哪些層需要進(jìn)行激活？

在LeNet-5中，C1和C3最大的區(qū)別是什么？

CNN是如何進(jìn)行訓(xùn)練的？

我們先來看LeNet-5的結(jié)構(gòu)圖（LeNet共有3個(gè)C層2個(gè)S層，故被稱為LeNet-5，如果算上F6和輸出層，則可以被稱為LeNet-7）：

首先，我們先對(duì)CNN中的一些概念做一遍梳理。尤其需要注意的是Filter Window（卷積核的size惕艳，數(shù)字圖像處理中一般為正方形）谁鳍，Feature Map（特征圖志于，一般來說奈应，對(duì)于每一個(gè)Filter Window有幾個(gè)Feature Map程梦，以捕捉不同的特征）。從圖中我們可以看出，C1層的Feature Map是6抡医，C3層的Feature Map是16,C5層的Feature Map是120镰矿，最后的F6相當(dāng)于普通神經(jīng)網(wǎng)絡(luò)的隱層够委，通過全連接和C5相連，最后通過Gaussian Connection將其轉(zhuǎn)換為一個(gè)10分類的問題。

針對(duì)第1個(gè)問題算谈，卷積究竟是什么屿岂。卷積這個(gè)玩意兒在數(shù)字信號(hào)處理中經(jīng)常被提及磺浙，它的數(shù)學(xué)表達(dá)式如下：

看到公式一般都比較頭疼锦溪，所以在這里貼出來一個(gè)關(guān)于數(shù)字信號(hào)處理中的卷積的形象比喻：

比如說你的老板命令你干活复局，你卻到樓下打臺(tái)球去了，后來被老板發(fā)現(xiàn)易迹，他非常氣憤窘疮，扇了你一巴掌（注意弟翘，這就是輸入信號(hào)，脈沖）辟癌，于是你的臉上會(huì)漸漸地（賤賤地）鼓起來一個(gè)包，你的臉就是一個(gè)系統(tǒng)，而鼓起來的包就是你的臉對(duì)巴掌的響應(yīng)醉顽，好，這樣就和信號(hào)系統(tǒng)建立起來意義對(duì)應(yīng)的聯(lián)系。下面還需要一些假設(shè)來保證論證的嚴(yán)謹(jǐn)：假定你的臉是線性時(shí)不變系統(tǒng)，也就是說煞茫，無論什么時(shí)候老板打你一巴掌，打在你臉的同一位置（這似乎要求你的臉足夠光滑，如果你說你長了很多青春痘糊识，甚至整個(gè)臉皮處處連續(xù)處處不可導(dǎo)，那難度太大了龄毡，我就無話可說了哈哈）疾渴，你的臉上總是會(huì)在相同的時(shí)間間隔內(nèi)鼓起來一個(gè)相同高度的包來，并且假定以鼓起來的包的大小作為系統(tǒng)輸出融师。好了，那么吴攒，下面可以進(jìn)入核心內(nèi)容——卷積了！

如果你每天都到地下去打臺(tái)球帆吻，那么老板每天都要扇你一巴掌市殷，不過當(dāng)老板打你一巴掌后邮旷，你5分鐘就消腫了，所以時(shí)間長了鲸鹦，你甚至就適應(yīng)這種生活了……如果有一天，老板忍無可忍莺债，以0.5秒的間隔開始不間斷的扇你的過程煌妈，這樣問題就來了比被，第一次扇你鼓起來的包還沒消腫，第二個(gè)巴掌就來了辜限，你臉上的包就可能鼓起來兩倍高哑蔫，老板不斷扇你，脈沖不斷作用在你臉上墓臭，效果不斷疊加了鼻疮，這樣這些效果就可以求和了迹炼，結(jié)果就是你臉上的包的高度隨時(shí)間變化的一個(gè)函數(shù)了（注意理解）磅摹；如果老板再狠一點(diǎn)硕旗，頻率越來越高刷喜，以至于你都辨別不清時(shí)間間隔了，那么翩腐，求和就變成積分了而咆×柰猓可以這樣理解，在這個(gè)過程中的某一固定的時(shí)刻呀伙，你的臉上的包的鼓起程度和什么有關(guān)呢？和之前每次打你都有關(guān)帮寻！但是各次的貢獻(xiàn)是不一樣的，越早打的巴掌，貢獻(xiàn)越小舅列，所以這就是說，某一時(shí)刻的輸出是之前很多次輸入乘以各自的衰減系數(shù)之后的疊加而形成某一點(diǎn)的輸出姓建，然后再把不同時(shí)刻的輸出點(diǎn)放在一起珍剑，形成一個(gè)函數(shù)，這就是卷積，卷積之后的函數(shù)就是你臉上的包的大小隨時(shí)間變化的函數(shù)。本來你的包幾分鐘就可以消腫昼伴，可是如果連續(xù)打覆山，幾個(gè)小時(shí)也消不了腫了魏割，這難道不是一種平滑過程么须揣？反映到劍橋大學(xué)的公式上溃卡，f(a)就是第a個(gè)巴掌粘昨，g(x-a)就是第a個(gè)巴掌在x時(shí)刻的作用程度进统，乘起來再疊加就ok了，大家說是不是這個(gè)道理呢浪听？我想這個(gè)例子已經(jīng)非常形象了螟碎，你對(duì)卷積有了更加具體深刻的了解了嗎？（轉(zhuǎn)自GSDzone論壇）

其實(shí)迹栓，在數(shù)字信號(hào)處理中掉分，卷積就是信號(hào)B與信號(hào)A錯(cuò)開時(shí)間的內(nèi)積，錯(cuò)開的時(shí)間長度就是卷積結(jié)果的自變量克伊。但是酥郭，CNN中，卷積操作的作用是突出特征愿吹，將更明顯的特征提取出來不从。那么這兩個(gè)卷積是一樣的嗎？其實(shí)犁跪，在CNN中（尤其在自然語言處理的過程中）椿息，卷積的操作也是用一個(gè)公式來表示的：

至于這個(gè)公式中為什么會(huì)有連加，我在接下來的問題中進(jìn)行闡述坷衍。f是一個(gè)激活函數(shù)寝优，從這里我們可以看出，CNN中的卷積層最后也是需要激活的枫耳。而w和x之間的點(diǎn)乘符號(hào)乏矾，其實(shí)就是兩個(gè)矩陣之間普通的點(diǎn)乘操作。所以，在LeNet5中妻熊，卷積其實(shí)就是要卷積的區(qū)域和卷積核的點(diǎn)乘和夸浅，加上偏置之后的激活輸出。但是這里和數(shù)字信號(hào)處理中的卷積有什么聯(lián)系扔役，以及為什么取名為卷積帆喇，在這里暫不討論，不過知道的朋友可以留言亿胸，不勝感激坯钦。

針對(duì)第2個(gè)問題，CNN中哪些層是需要激活函數(shù)的侈玄？剛才我已經(jīng)說了婉刀，在C層確實(shí)是需要激活函數(shù)的，那么在其他層需要嗎序仙？且看下面的圖：

在這個(gè)圖里主要展現(xiàn)的是卷積操作和池化操作突颊，但是都沒有體現(xiàn)f函數(shù)，即激活函數(shù)潘悼。其實(shí)律秃，在卷積層和池化層，在最后都是需要加上偏置激活輸出的治唤。但是棒动，有些神經(jīng)網(wǎng)絡(luò)在實(shí)現(xiàn)的時(shí)候，可能并不會(huì)去實(shí)現(xiàn)激活宾添。比如船惨，卷積操作直接將w和x的點(diǎn)積和作為輸出，而池化操作直接使用1-max將top1的值輸出缕陕，而不進(jìn)行激活操作粱锐。要知道，sigmoid榄檬，tanh以及ReLU等激活函數(shù)卜范，可以非常好的捕捉到非線性的特征。因此鹿榜，在LeNet5中，卷積層和池化層都會(huì)進(jìn)行偏置激活锦爵。全連接層F6和普通神經(jīng)網(wǎng)絡(luò)的隱層是一樣的舱殿，也是最后要激活輸出的，因此也需要激活函數(shù)险掀。其實(shí)沪袭，CNN可以理解為，除了卷積操作和池化操作樟氢，其余的和NN沒有區(qū)別冈绊，最后只是跟了一個(gè)多分類器侠鳄。因此，CNN的訓(xùn)練也是基于BP算法死宣，利用隨機(jī)梯度下降（SGD）進(jìn)行參數(shù)訓(xùn)練伟恶。

針對(duì)第3個(gè)問題，C1和C3有什么區(qū)別毅该？其實(shí)沒有區(qū)別博秫，但是有一點(diǎn)需要注意（這一點(diǎn)剛?cè)腴T的同學(xué)可能會(huì)忽略哪廓，容易想當(dāng)然）波闹。其實(shí)卷積操作都可以用上面的那個(gè)公式進(jìn)行表示，但是公式里的連加符號(hào)表示什么呢称簿？我們先來看C1朴爬，C1的卷積想必非常好理解即寒，對(duì)于每個(gè)卷積核，會(huì)生成一個(gè)Feature Map召噩，這個(gè)Feature Map在生成的過程中母赵，只用到了輸入圖像這一個(gè)Feature Map，而不涉及連加操作蚣常。但是市咽，從S2到C3，由于S2的Feature Map的數(shù)量是6抵蚊，因此這時(shí)我們不再對(duì)S2的每一個(gè)Feature Map都在C3生成Feature Map施绎。C3中的每個(gè)Feature Map是連接到S2中的所有6個(gè)或者幾個(gè)Feature Map的，表示本層的Feature Map是上一層提取到的Feature Map的不同組合贞绳。這好比人的視覺系統(tǒng)谷醉，底層的結(jié)構(gòu)構(gòu)成上層更抽象的結(jié)構(gòu)，例如邊緣構(gòu)成形狀或者目標(biāo)的部分冈闭。同樣的原理俱尼，如果應(yīng)用在NLP上，那么在對(duì)一篇文檔進(jìn)行分類的時(shí)候萎攒，這個(gè)操作可以類比為從句子級(jí)別的篇章理解上升到了從段落上的級(jí)別理解遇八。理解了這一點(diǎn)，我們可以計(jì)算出每層所需要的參數(shù)耍休，如下所示：

C1：6*(5*5+1) = 156, 對(duì)于每一個(gè)Filter來說刃永，卷積之后，要加一個(gè)bias羊精，因此每一個(gè)Filter會(huì)多一個(gè)bias斯够；Map大小（32-5+1）*（32-5+1）=28*28

S2：6*(1+1) = 12, 在LeNet中，會(huì)通過avg pooling取出平均值读规，然后針對(duì)該值抓督，進(jìn)行加權(quán)偏置，激活輸出束亏，因此1個(gè)Feature Map的pooling只需要2個(gè)參數(shù)铃在；Map Size 14*14；

C3：C3層共有16個(gè)Feature Map枪汪，F(xiàn)ilter Window的大小依舊是5*5涌穆，并且每一個(gè)Feature Map和S2層的Map形成了全連接或者部分連接，因此需要根據(jù)情況進(jìn)行計(jì)算雀久。例如宿稀，假若在C3層，前6個(gè)Feature Map和S2層的4個(gè)Map相連赖捌，中間6個(gè)和S2層的4個(gè)Feature Map相連祝沸，最后4個(gè)和S2層的3個(gè)Feature Map相連，那么總共需要的參數(shù)個(gè)數(shù)為：6*(4*5*5+1)+6*(4*5*5+1)+4*(3*5*5+1) = 1440個(gè)參數(shù)越庇。注意罩锐，這里在組合的時(shí)候，是對(duì)S2每一個(gè)相連的Map都訓(xùn)練了一個(gè)單獨(dú)的w卤唉，最后在所有的wx的和上添加偏置涩惑。Map Size為（14-5+1）*（14-5+1） = 10*10；如下所示：

S4：pooling size的大小依舊是2*2桑驱，則16個(gè)Feature Map的參數(shù)個(gè)數(shù)竭恬，同S2的計(jì)算方式，為16*（1+1）=32個(gè)熬的；Map Size為5*5痊硕；

C5：C5層有120個(gè)Feature Map，F(xiàn)ilter Window的大小依舊是5*5押框，并且要注意的是岔绸，C5和S4之間是全連接的，這是第一個(gè)全連接層橡伞，也就是C5中的每一個(gè)1*1大小的Feature Map盒揉，和S4中16個(gè)Feature Map都有連接，那么參數(shù)個(gè)數(shù)也可以很容易的計(jì)算出來：120*（16*5*5+1）= 48120兑徘；此時(shí)预烙，F(xiàn)eature Map的大小為1*1，在這里道媚，這120個(gè)1*1大小的特征圖，連接成一個(gè)向量，這便組成了C5最域；

F6：F6層就是普通神經(jīng)網(wǎng)絡(luò)里面的隱層谴分，在這里是為了將120維的C5降維成84維的F6。F6中的每一個(gè)神經(jīng)元和C5也形成了全連接镀脂，這是第二個(gè)全連接層牺蹄，因此需要訓(xùn)練的參數(shù)個(gè)數(shù)為：84*（120+1）=10164個(gè)；

Output層：輸出層由歐式徑向基函數(shù)（Euclidean Radial Basis Function）單元組成薄翅，每類一個(gè)單元沙兰，每個(gè)有84個(gè)輸入。換句話說翘魄，每個(gè)輸出RBF單元計(jì)算輸入向量和參數(shù)向量之間的歐式距離鼎天。輸入離參數(shù)向量越遠(yuǎn)，RBF輸出的越大暑竟。一個(gè)RBF輸出可以被理解為衡量輸入模式和與RBF相關(guān)聯(lián)類的一個(gè)模型的匹配程度的懲罰項(xiàng)斋射。用概率術(shù)語來說，RBF輸出可以被理解為F6層配置空間的高斯分布的負(fù)log-likelihood但荤。

針對(duì)第4個(gè)問題罗岖，CNN如何進(jìn)行訓(xùn)練？卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練其實(shí)和NN的訓(xùn)練過程大體類似腹躁，都是采用基于BP算法的訓(xùn)練方式桑包，進(jìn)行隨機(jī)梯度下降。首先纺非，通過前向傳播計(jì)算各層節(jié)點(diǎn)的激活值哑了，然后，通過后向傳播計(jì)算各層之間的誤差铐炫，如果遇到了pooling垒手，若采用的是avg pooling，那么相應(yīng)的也就將誤差進(jìn)行均分倒信，反向傳播科贬；如果是max pooling，那么可以只將相連的最大節(jié)點(diǎn)的誤差進(jìn)行傳播鳖悠，其他節(jié)點(diǎn)誤差為0榜掌；至于卷積操作，其實(shí)你仔細(xì)想一下的話乘综，和普通的神經(jīng)網(wǎng)絡(luò)沒啥子大的區(qū)別憎账，無非就是權(quán)值共享了，因?yàn)槿绻瞧胀ǖ纳窠?jīng)網(wǎng)絡(luò)卡辰，那么w一般針對(duì)的是全連接胞皱；而CNN是應(yīng)用了權(quán)值共享減少參數(shù)個(gè)數(shù)邪意，并且還進(jìn)行了Feature Map之間的組合。

二. CNN在自然語言處理中的應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理中又是如何應(yīng)用的呢反砌？接下來雾鬼，我也想圍繞幾個(gè)問題作幾個(gè)比較基本的闡述：

在NLP中CNN的輸入可以是什么？

如果輸入是詞向量宴树，每一行代表一個(gè)詞策菜，那么如何解決不同的文本長度不統(tǒng)一的問題？

NLP中CNN的常用超參數(shù)設(shè)置都有哪些酒贬？

接下來CNN在NLP的研究還可以從哪個(gè)方向進(jìn)行又憨？

首先，針對(duì)第1個(gè)問題锭吨，NLP中CNN的輸入可以是什么蠢莺？其實(shí)，任何矩陣都可以作為CNN的輸入耐齐，關(guān)鍵是采用什么樣的方法浪秘。如果你使用one-hot represention，那其實(shí)就是0-gram埠况，這樣輸入的矩陣的大小肯定也是固定的（整個(gè)詞表的長度）耸携；如果采用word2vec，那么每一行代表一個(gè)詞語辕翰，文檔中有多少個(gè)詞語夺衍，就有多少行。這里喜命，我們?cè)賮砘仡櫼幌略~向量：其實(shí)它是神經(jīng)語言概率模型[1]的一個(gè)副產(chǎn)品沟沙，不過可以反映出詞語的語義信息。word embedding技術(shù)壁榕，主要分為兩種思想矛紫，Hierarchical Softmax和Negative Sampling兩種，其中每種思想下又分為兩種方法牌里，CBow模型和Skip-Gram模型颊咬，關(guān)于word embedding的數(shù)學(xué)原理，這里不再贅述牡辽，可以參考word2vec中的數(shù)學(xué)原理一文喳篇，這篇博文講的很清楚。這里需要注意的是态辛，word2vec一般通過pre-training的方式獲得麸澜，比如google的word2vec就是從大量的文本中預(yù)訓(xùn)練得到的。你在CNN中使用的使用奏黑，可以按照static和non-static兩種方式炊邦，如果是non-static的話编矾，則表明你在訓(xùn)練CNN的時(shí)候，需要對(duì)使用的word2vec做一個(gè)輕微的tuning铣耘。word2vec可以算是CNN進(jìn)行NLP應(yīng)用時(shí)候的標(biāo)配洽沟。

針對(duì)第2個(gè)問題，如何解決不同的文本長度不統(tǒng)一的問題蜗细？這是一個(gè)非常顯然的問題，在LeNet-5中怒详，每個(gè)輸入都是32*32的圖像文件炉媒，這樣我們才能設(shè)置固定大小和數(shù)量的filters，如果圖像分辨率發(fā)生了變化昆烁，那么就會(huì)造成多余的conv操作的結(jié)果丟失吊骤，從而對(duì)模型的結(jié)果產(chǎn)生影響，或者會(huì)使得網(wǎng)絡(luò)內(nèi)部狀態(tài)發(fā)生混亂静尼。在圖像處理中白粉，可以通過固定輸入的圖像的分辨率來解決，但是在自然語言處理中鼠渺，由于輸入的是文檔或者sentence鸭巴，而輸入的長度是不固定的，那么如何解決這個(gè)問題呢拦盹？其實(shí)鹃祖，在NLP中，研究人員一般都采用的是“單層CNN結(jié)構(gòu)”普舆，這里的單層并不是只有一層恬口，而是只有一對(duì)卷積層和池化層。目前有兩篇論文做的不錯(cuò)沼侣，一個(gè)是NYU的Yoon祖能，另一個(gè)是Zhang Ye的分析報(bào)告[3]，參看下面的圖（圖來自Yoon的論文[2]蛾洛，該論文的代碼地址：yoon kim的github）

可以看到养铸，每次在卷積的時(shí)候，都是整行整行的進(jìn)行的雅潭。這好比是n-gram模型揭厚，如果每兩行conv一次，那么就是2-gram扶供，要知道筛圆，google最多也不過使用了5-gram模型，因?yàn)檫@種模型計(jì)算量非常大椿浓，但是如果在CNN中進(jìn)行類似的操作太援，計(jì)算量反而減小了闽晦。在第二層的卷積層中，我們可以看到提岔，每次得到的Feature Map的行數(shù)仙蛉，是和輸入的sentence的長度相關(guān)的。但是碱蒙，在池化層荠瘪，采用了1-max pooling的技術(shù)，從而將每個(gè)Feature Map的維度全部下降為1赛惩，因此哀墓，pooling結(jié)束之后，得到的向量的維度喷兼，就是卷積層Feature Map的數(shù)量篮绰。這樣也便解決了輸入長度的問題。但是季惯，接下來無法再進(jìn)行conv操作了吠各，而且，在這個(gè)應(yīng)用里勉抓，也不會(huì)出現(xiàn)像LeNet-5那樣的Feature Map的組合輸出的現(xiàn)象贾漏，因?yàn)橹挥幸粚泳矸e層。那么這里問題就來了琳状，這樣單層的結(jié)構(gòu)到底效果如何磕瓷？能不能擴(kuò)展成多層的結(jié)構(gòu)呢？能不能使用Feature Map的組合策略呢念逞？單從Yoon的paper來看困食，結(jié)果是不錯(cuò)的，可是這樣的結(jié)構(gòu)一定適合其他應(yīng)用問題嗎翎承？如果我們?cè)赾onv操作的時(shí)候硕盹，不整行整行的卷積，那么這樣就無法用n-gram去解釋了叨咖，但是這樣的效果如何呢瘩例？其實(shí)也有人做過了，是Nal的Paper甸各，參考文獻(xiàn)[4]. 個(gè)人不推薦這種部分卷積的做法垛贤。

針對(duì)第3個(gè)問題，CNN在應(yīng)用的時(shí)候趣倾，超參數(shù)如何設(shè)定聘惦？下面，我們從幾個(gè)方面進(jìn)行闡述儒恋。首先是Filter Window的大小善绎，由于在卷積的時(shí)候是整行整行的卷積的黔漂，因此只需要確定每次卷積的行數(shù)即可，而這個(gè)行數(shù)禀酱，其實(shí)就是n-gram模型中的n炬守。一般來講，n一般按照2剂跟，3减途，4這樣來取值，這也和n-gram模型中n的取值相照應(yīng)浩聋；當(dāng)然观蜗，在文獻(xiàn)[3]還詳細(xì)分析了Filter Window大小對(duì)實(shí)驗(yàn)結(jié)果的影響，并且一直取值到7衣洁；其次是Feature Map的數(shù)量，在文獻(xiàn)[2]中抖仅，針對(duì)2坊夫，3，4每一個(gè)Filter Window撤卢，都設(shè)置了100個(gè)环凿，這樣經(jīng)過池化層之后，得到的向量是300維的放吩；還有一些其他的超參數(shù)智听，比如為了防止過擬合，在全連接層加入了Dropout渡紫，從而隨機(jī)地舍棄一部分連接到推，Dropout的參數(shù)為0.5；在Softmax分類時(shí)使用L2正則項(xiàng)惕澎，正則項(xiàng)的系數(shù)是3莉测；訓(xùn)練的時(shí)候，SGD的mini-batchsize是50等唧喉。另外還有一個(gè)問題是捣卤，當(dāng)訓(xùn)練的word embedding不足時(shí)，也就是待分類的document中包含沒有被pre-training出來的詞時(shí)八孝，需要在某個(gè)區(qū)間上董朝，對(duì)該詞的詞向量進(jìn)行隨機(jī)的初始化。

針對(duì)第4個(gè)問題干跛，CNN在NLP的研究方向還可以從哪些地方進(jìn)行子姜？首先，我們來簡要列舉2015年CNN在NLP的應(yīng)用研究列表（2016的paper還沒有出來驯鳖，等出來之后會(huì)在這里補(bǔ)上）：

擴(kuò)展CNN的輸入闲询，擴(kuò)充詞向量的維度久免，加入新特征[5]；將RNN的輸出作為CNN的輸入[6]扭弧，

卷積層的改造阎姥。如：將word2vec橫向組合，以發(fā)現(xiàn)句子層級(jí)的特征[7]鸽捻；卷積層的非線性化改造[8]呼巴；

Pooling層的改造。使用k-Max pooling以保留更多的特征[9]御蒲；分段pooling[10]衣赶；

CNN模型的組合。對(duì)同一輸入做多重cnn分類厚满，組合結(jié)果[11]府瞄；一個(gè)句子一個(gè)CNN[12]；

PS：這里有幾個(gè)問題供讀者思考，也是我正在思考的問題：目前我們所看到的CNN在NLP中的應(yīng)用，大部分的網(wǎng)絡(luò)結(jié)構(gòu)都非常淺蜜另，主要是對(duì)于文本的不定長的特點(diǎn)，不好用多層CNN網(wǎng)絡(luò)去訓(xùn)練货邓，但是如果網(wǎng)絡(luò)不夠深，似乎又無法捕捉到更深層次的特征四濒。因此换况，我們到底應(yīng)不應(yīng)該在NLP中應(yīng)用多層CNN結(jié)構(gòu)？如果應(yīng)該盗蟆，應(yīng)采取怎樣的策略戈二？可不可以把S2到C3的Feature Map的組合卷積過程應(yīng)用到NLP中？這都是我們都應(yīng)該考慮的問題姆涩，如果您對(duì)這些問題有任何想法挽拂，歡迎留言交流。

參考文獻(xiàn)：

[1] ?A neural probabilistic language model,?Yoshua, Ducharme et al.

[2] ?Yoon Kim. Convolutional Neural Networks for Sentence Classification.

[3] ?Zhang Ye, et al.?A Sensitivity Analysis of (and Practitioners' Guide to) Convolutional Neural Networks for Sentence Classification.

[4] ?Kalchbrenner N, Grefenstette E, Blunsom P. A Convolutional Neural Network for Modelling Sentences[J]. Eprint Arxiv, 2014, 1.

[5] ?Event Detection and Domain Adaptation with Convolutional Neural Networks,?TH Nguyen骨饿，R Grishman.

[6] Recurrent Convolutional Neural Network for Text Classification, Siwei Lai etc.

[7] Chen Y, Xu L, Liu K, et al. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks[C]// The, Meeting of the Association for Computational Linguistics. 2015.

[8]?Lei T, Barzilay R, Jaakkola T. Molding CNNs for text: non-linear, non-consecutive convolutions[J]. Computer Science, 2015, 58:págs. 1151-1186.

[9]?Yin W, Schütze H. MultiGranCNN: An Architecture for General Matching of Text Chunks on Multiple Levels of Granularity[C]// Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. 2015.

[10]?Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks Daojian Zeng, Kang Liu, Yubo Chen and Jun Zhao.

[11]?Question Answering over Freebase with Multi-Column Convolutional Neural Networks,?Li Dong etc.

[12]?Severyn A, Moschitti A. Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks[C]// The, International ACM SIGIR Conference. 2015.

[13] Wang P, Xu J, Xu B, et al. Semantic Clustering and Convolutional Neural Network for Short Text Categorization[C]// Meeting of the Association for Computational Linguistics and the, International Joint Conference on Natural Language Processing. 2015.

原文參考：http://www.cnblogs.com/yelbosh/p/5808706.html

最后編輯于：2017.12.11 06:49:16

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末亏栈，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子宏赘，更是在濱河造成了極大的恐慌绒北，老刑警劉巖，帶你破解...
沈念sama閱讀 217,542評(píng)論 6贊 504
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件察署，死亡現(xiàn)場離奇詭異闷游，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,822評(píng)論 3贊 394
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門脐往，熙熙樓的掌柜王于貴愁眉苦臉地迎上來休吠，“玉大人，你說我怎么就攤上這事业簿×鼋福” “怎么了？”我有些...
開封第一講書人閱讀 163,912評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵梅尤，是天一觀的道長柜思。經(jīng)常有香客問我，道長巷燥，這世上最難降的妖魔是什么赡盘？我笑而不...
開封第一講書人閱讀 58,449評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮缰揪，結(jié)果婚禮上陨享，老公的妹妹穿的比我還像新娘。我一直安慰自己钝腺，他們只是感情好霉咨，可當(dāng)我...
茶點(diǎn)故事閱讀 67,500評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著拍屑，像睡著了一般。火紅的嫁衣襯著肌膚如雪坑傅。梳的紋絲不亂的頭發(fā)上僵驰，一...
開封第一講書人閱讀 51,370評(píng)論 1贊 302
城市分裂傳說
那天，我揣著相機(jī)與錄音唁毒，去河邊找鬼蒜茴。笑死，一個(gè)胖子當(dāng)著我的面吹牛浆西，可吹牛的內(nèi)容都是我干的粉私。我是一名探鬼主播，決...
沈念sama閱讀 40,193評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼近零，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼诺核！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起久信，我...
開封第一講書人閱讀 39,074評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤窖杀，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后裙士，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體入客，經(jīng)...
沈念sama閱讀 45,505評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,722評(píng)論 3贊 335
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了桌硫。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夭咬。...
茶點(diǎn)故事閱讀 39,841評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖铆隘，靈堂內(nèi)的尸體忽然破棺而出卓舵，到底是詐尸還是另有隱情，我是刑警寧澤咖驮，帶...
沈念sama閱讀 35,569評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布边器，位于F島的核電站，受9級(jí)特大地震影響托修，放射性物質(zhì)發(fā)生泄漏忘巧。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,168評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一睦刃、第九天我趴在偏房一處隱蔽的房頂上張望砚嘴。院中可真熱鬧，春花似錦涩拙、人聲如沸际长。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,783評(píng)論 0贊 22
一樁弒父案兴泥，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽工育。三九已至，卻和暖如春搓彻，著一層夾襖步出監(jiān)牢的瞬間如绸，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,918評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工旭贬，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留怔接，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,962評(píng)論 2贊 370
代替公主和親
正文我出身青樓稀轨，卻偏偏與公主長得像扼脐，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子奋刽，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,781評(píng)論 2贊 354

CNN在NLP中的應(yīng)用

推薦閱讀更多精彩內(nèi)容