一 寫在前面
未經(jīng)允許,不得轉(zhuǎn)載,謝謝~~
這篇主要是我這學(xué)期深度學(xué)習(xí)課程的作業(yè),所以選了一篇NLP方向的簡(jiǎn)單學(xué)習(xí)一下及皂。接下來有時(shí)間的話再整理一篇關(guān)于用DPCNN模型在AG news數(shù)據(jù)集上進(jìn)行新聞?lì)悇e分類任務(wù)的實(shí)驗(yàn)復(fù)現(xiàn)情況~~~
文章基本信息:
- ACL2017
- 原文鏈接
這篇文章的主要任務(wù)是做文本分類的甫男,主要貢獻(xiàn)在于提出了一個(gè)簡(jiǎn)單有效的深度金字塔神經(jīng)卷積網(wǎng)絡(luò)DPCNN模型。
關(guān)鍵詞:text categorization, DPCNN;
二 基本背景介紹
1. 任務(wù)描述
- 文本分類是一個(gè)十分重要的任務(wù)验烧,其應(yīng)用場(chǎng)景包括垃圾郵件檢測(cè)板驳,情感和主題分類等。
- 近幾年碍拆,神經(jīng)網(wǎng)絡(luò)利用詞序進(jìn)行文本分類的方法非常有效若治。最早是簡(jiǎn)單的淺層卷積神經(jīng)網(wǎng)絡(luò),最近提出了更為復(fù)雜的深層神經(jīng)網(wǎng)絡(luò)感混,需要大概一百萬的文檔作為訓(xùn)練數(shù)據(jù)端幼;
2. 論文動(dòng)機(jī)
- 之前的實(shí)驗(yàn)已經(jīng)證實(shí)單詞級(jí)別的CNNs比字符級(jí)別的CNNs能更有效表達(dá)信息;
- 論文作者想為文本分類任務(wù)設(shè)計(jì)一個(gè)高效的深層單詞級(jí)別的 CNNs 架構(gòu)弧满;
- 所以文章提出了一個(gè)DPCNN深層金字塔卷積神經(jīng)網(wǎng)絡(luò)婆跑,至于為什么叫深層金字塔以及這個(gè)模型有哪些優(yōu)點(diǎn)會(huì)在接下來的模型結(jié)構(gòu)分析中給出解釋。
三 模型及方法介紹
1 DPCNN模型簡(jiǎn)介
先來看一波模型結(jié)構(gòu)圖:
我們自下而上看網(wǎng)絡(luò)的處理過程:
- 輸入一個(gè)句子"a good buy. ”, 先不管虛線框內(nèi)的'unsupervised embedding'部分庭呜,直接到網(wǎng)絡(luò)的第一個(gè)文本區(qū)域嵌入層 ( region embedding) 滑进,這個(gè)層就是用在自然語言領(lǐng)域通常使用的詞嵌入 (word embedding) 方式為句子中的每個(gè)詞都生成向量表示;
- 在得到文本的向量表示之后募谎,將這些特征向量依次輸入到后面的卷積塊中進(jìn)行卷積操作提取文本信息扶关,每個(gè)卷積塊都由兩個(gè)卷積層以及從輸入直接到輸出的 shortcut 殘差連接構(gòu)成。而卷積塊與卷積塊之間又由步長(zhǎng)為 2 的池化層進(jìn)行連接数冬。
- 網(wǎng)絡(luò)模型的最后一個(gè)池化層用于接受最后一個(gè)卷積塊的輸入(模型中所有的池化層均采用max pooling)节槐,最終得到表示文本的特征向量。
注: 關(guān)于文中的unsupervised embeddng
層是作者使用的一種訓(xùn)練技巧,對(duì)整個(gè)網(wǎng)絡(luò)影響不大地来,關(guān)于具體的細(xì)節(jié)我看的不是很懂戳玫,從實(shí)驗(yàn)復(fù)現(xiàn)的情況來看這個(gè)部分的影響應(yīng)該也不是很大,所以就不在這里描述了未斑,這個(gè)部分感興趣的可以去看一看原文(o?▽?)o
我們從網(wǎng)絡(luò)層的設(shè)計(jì)情況也分析可以得到DPCNN 的關(guān)鍵特性:
-
在特征圖維度固定的情況下降采樣:
- 在每個(gè)卷積塊之后都用大小為 3 的卷積核進(jìn)行步長(zhǎng)為 2 的最大池化操作咕宿。這樣既可以得到相鄰3個(gè)文本區(qū)域的中間特征表示,步長(zhǎng)為2的池化操作又將每個(gè)文本的中間表示直接減少了一半蜡秽。
- 很多現(xiàn)有模型都會(huì)在降采樣的過程中增加特征圖的維度府阀,這會(huì)直接影響模型的計(jì)算復(fù)雜性。文章發(fā)現(xiàn)這些增加的維度除了增大計(jì)算復(fù)雜度外并沒有帶來模型準(zhǔn)確度上的提升芽突,因此文章采用了保持特征圖維度不變(channel_size=250)的方式试浙。
- 在此基礎(chǔ)上,每次進(jìn)行補(bǔ)償為2的降采樣操作都會(huì)導(dǎo)致卷積層的操作時(shí)間直接減半寞蚌,這也是為什么本文將之稱之為金字塔 (pyramid) 卷積神經(jīng)網(wǎng)絡(luò)的原因田巴。如下圖 2所示即為金字塔計(jì)算時(shí)間示意圖钠糊。
- 基于以上的原理,DPCNN 網(wǎng)絡(luò)模型能夠保證總的計(jì)算時(shí)間也是固定不變的壹哺,其值等于單個(gè)卷積塊計(jì)算時(shí)間的兩倍抄伍,這在計(jì)算時(shí)間上非常具有友好性。
- 另外管宵,步長(zhǎng)為2的降采樣操作可 以是得卷積操作的有效覆蓋面積加倍截珍。具體來說,經(jīng)過 L 次這樣的降采樣操作后可以建立 起相鄰 2L 個(gè)單詞之間的聯(lián)系得到特征表示箩朴。
- 因此岗喉,DPCNN 模型不僅在模型計(jì)算上具有有 效性,還能更好的表示長(zhǎng)距離的關(guān)系隧饼,從而學(xué)習(xí)到更多的全局信息沈堡。
-
使用shortcut,且不需要做維度匹配:
- 在卷積塊的設(shè)計(jì)中使用了 shorcut連接的方式燕雁,使得網(wǎng)絡(luò)可以擴(kuò)展為深層網(wǎng)絡(luò)進(jìn)行參數(shù)的訓(xùn)練诞丽。
- 雖然 shortcut 的用法是從 ResNet中借鑒過來的,但是 DPCNN模型比 ResNet 更加簡(jiǎn)單拐格,因?yàn)?DCPNN 中的 shortcut 連接接近等值連接, 這個(gè)過程不需要做任何的維度匹配工作僧免。
- 在DPCNN中,當(dāng) shortcut 碰上主流 (main street) 的時(shí)候捏浊,兩邊的數(shù)據(jù)維度是一樣的侣夷,所以可以直接進(jìn)行相加操作夸研。當(dāng) shortout 中使用了類似于降采樣等其他不同維度的特征圖的時(shí)候就需要面臨維度不匹配的問題,通常情況下需要在相加之前進(jìn)行維度增加工作,這就會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練參數(shù)的增加和計(jì)算量的增大地回。
- 所以本文采用固定維度且不在卷積塊內(nèi)部采用降采樣的方式,避免了維度不匹配以及由于維度不匹配帶來的 網(wǎng)絡(luò)參數(shù)增加的問題摄乒。整個(gè)網(wǎng)絡(luò)會(huì)比較簡(jiǎn)單而且計(jì)算高效歹袁。
2 文本區(qū)域嵌入
這個(gè)部分我省略了unsupervised embedding的部分。
基于 CNN 卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法通常從詞嵌入(word embedding)靶瘸,即將文本中的每個(gè)單詞轉(zhuǎn)換為向量這一步工作開始苫亦。本文采用了一種更加通用的文本區(qū)域嵌入(region embedding)方法。
在區(qū)域嵌入層 (region embedding) 為文檔中的每一個(gè)單詞都計(jì)算 Wx+b怨咪,其中 x 表示 k個(gè)單 詞的區(qū)域屋剑,權(quán)重參數(shù) W 以及偏置參數(shù) b 都由神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)得到。定義 v 為單詞詞匯庫的大小诗眨,即單詞個(gè)數(shù)唉匾,那么對(duì)于 k 個(gè)單詞區(qū)域具有如下三種典型的表示方法:
- 順序輸入:由 k 個(gè)單詞的 one-hot 形式的向量 (維度為 v) 堆疊而成;
- 詞袋模型:由 v 維的詞袋向量構(gòu)成匠楚;
- n-gram 模型:由區(qū)域中的單個(gè)詞肄鸽、兩個(gè)詞組或者三個(gè)詞組構(gòu)成的詞袋表示卫病;
用順序輸入的區(qū)域嵌入方式跟直接將一個(gè)卷積層應(yīng)用在一系列 one-hot 向量上來表示一個(gè)文 檔的效果是一樣的。當(dāng)k設(shè)置為1典徘,即只有一個(gè)單詞的時(shí)候蟀苛,以上三種方式都退化成詞嵌入。
區(qū)域嵌入層旨在獲取比單個(gè)獨(dú)立單詞更加更復(fù)雜的語義信息逮诲,因此也有一些網(wǎng)絡(luò)會(huì)用多層卷積來提取詞嵌入中的特征帜平,但通常情況下更少的層數(shù)意味著網(wǎng)絡(luò)更加容易優(yōu)化。
除此之外梅鹦,最佳輸入類型和最佳的區(qū)域大小只能通過經(jīng)驗(yàn)來判定裆甩。
四 寫在最后
我的方向是CV的,雖然選擇了一篇結(jié)構(gòu)和方法都較為簡(jiǎn)單的論文齐唆,但是也不能保證沒有解讀有偏頗甚至是錯(cuò)誤的地方嗤栓,路過的NLP大佬們還請(qǐng)多多包涵嘻嘻~~
有什么不對(duì)的歡迎評(píng)論或者簡(jiǎn)信,感謝箍邮。
文章在AG news上復(fù)現(xiàn)的實(shí)驗(yàn)?zāi)軌蜻_(dá)到91.49%的準(zhǔn)確度茉帅,所以后面準(zhǔn)備再整理一篇具體的實(shí)驗(yàn)過程的博客,歡迎關(guān)注嘍ヾ(?°?°?)??
最后感謝閱讀~~~