學(xué)習(xí)Attention機(jī)制
1、什么是Attention?
注意力機(jī)制和人類視覺的注意力類似,比如人們看某張圖片或者關(guān)注某件事情的時(shí)候练链,不會(huì)每一個(gè)場(chǎng)景都看,而是會(huì)對(duì)某一個(gè)目標(biāo)區(qū)域奴拦,也就是注意力焦點(diǎn)媒鼓,投入更多的注意力資源,以獲取更多的目標(biāo)資源信息错妖,從而抑制無用信息绿鸣。
2、Attention的起源
最早應(yīng)用在視覺圖像領(lǐng)域暂氯,在九幾年就提出來了潮模,真正火起來的是在2014年 google mind團(tuán)隊(duì)的這篇論文《Recurrent Models of Visual Attention》,在RNN模型上使用Attention機(jī)制來進(jìn)行圖片分類痴施,之后第一次應(yīng)用在NLP領(lǐng)域的是Bahdanau等人在論文《Neural Machine Translation by Jointly Learning to Align and Translate》擎厢,使用類似Attention機(jī)制在機(jī)器翻譯上將翻譯和對(duì)齊同時(shí)進(jìn)行,然后CNN中使用Attention成為研究熱點(diǎn)辣吃,《ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs》這篇論文是CNN中使用Attention比較早的探索动遭,之后在2017年,由Google機(jī)器翻譯團(tuán)隊(duì)在arxiv預(yù)發(fā)的《Attention is all you need》中大量使用Self-Attention,自此以后神得,自注意力機(jī)制成為研究熱點(diǎn)沽损。
3、Encoder-Decoder框架
目前大多數(shù)注意力模型附著在Encoder-Decoder框架下循头,其實(shí)注意力模型可以看作一種通用的思想,本身并不依賴于特定框架炎疆,這點(diǎn)需要注意卡骂。Encoder-Decoder框架可以看作是一種深度學(xué)習(xí)領(lǐng)域的研究模式,應(yīng)用場(chǎng)景異常廣泛形入。下圖是文本處理領(lǐng)域里常用的Encoder-Decoder框架最抽象的一種表示全跨。
文本處理領(lǐng)域的Encoder-Decoder框架可以這么直觀地去理解:可以把它看作適合處理由一個(gè)句子(或篇章)生成另外一個(gè)句子(或篇章)的通用處理模型。對(duì)于句子對(duì)<Source,Target>亿遂,我們的目標(biāo)是給定輸入句子Source浓若,期待通過Encoder-Decoder框架來生成目標(biāo)句子Target渺杉。Source和Target可以是同一種語言,也可以是兩種不同的語言挪钓。而Source和Target分別由各自的單詞序列構(gòu)成:
Encoder顧名思義就是對(duì)輸入句子Source進(jìn)行編碼是越,將輸入句子通過非線性變換轉(zhuǎn)化為中間語義表示C:
對(duì)于解碼器Decoder來說,其任務(wù)是根據(jù)句子Source的中間語義表示C和之前已經(jīng)生成的歷史信息來生成i時(shí)刻要生成的單詞:
每個(gè)yi都依次這么產(chǎn)生碌上,那么看起來就是整個(gè)系統(tǒng)根據(jù)輸入句子Source生成了目標(biāo)句子Target倚评。如果Source是中文句子,Target是英文句子馏予,那么這就是解決機(jī)器翻譯問題的Encoder-Decoder框架天梧;如果Source是一篇文章,Target是概括性的幾句描述語句霞丧,那么這是文本摘要的Encoder-Decoder框架呢岗;如果Source是一句問句,Target是一句回答蛹尝,那么這是問答系統(tǒng)或者對(duì)話機(jī)器人的Encoder-Decoder框架后豫。由此可見,在文本處理領(lǐng)域箩言,Encoder-Decoder的應(yīng)用領(lǐng)域相當(dāng)廣泛硬贯。
Encoder-Decoder框架不僅僅在文本領(lǐng)域廣泛使用,在語音識(shí)別陨收、圖像處理等領(lǐng)域也經(jīng)常使用饭豹。比如對(duì)于語音識(shí)別來說,上圖所示的框架完全適用务漩,區(qū)別無非是Encoder部分的輸入是語音流拄衰,輸出是對(duì)應(yīng)的文本信息;而對(duì)于“圖像描述”任務(wù)來說饵骨,Encoder部分的輸入是一副圖片翘悉,Decoder的輸出是能夠描述圖片語義內(nèi)容的一句描述語。一般而言居触,文本處理和語音識(shí)別的Encoder部分通常采用RNN模型妖混,圖像處理的Encoder一般采用CNN模型。
4轮洋、Soft Attention 模型
之前展示的Encoder-Decoder框架是沒有體現(xiàn)出“注意力模型”的制市,所以可以把它看作是注意力不集中的分心模型。為什么說它注意力不集中呢弊予?請(qǐng)觀察下目標(biāo)句子Target中每個(gè)單詞的生成過程如下:
其中f是Decoder的非線性變換函數(shù)祥楣。從這里可以看出,在生成目標(biāo)句子的單詞時(shí),不論生成哪個(gè)單詞误褪,它們使用的輸入句子Source的語義編碼C都是一樣的责鳍,沒有任何區(qū)別。
而語義編碼C是由句子Source的每個(gè)單詞經(jīng)過Encoder 編碼產(chǎn)生的兽间,這意味著不論是生成哪個(gè)單詞历葛,還是,其實(shí)句子Source中任意單詞對(duì)生成某個(gè)目標(biāo)單詞yi來說影響力都是相同的渡八,這是為何說這個(gè)模型沒有體現(xiàn)出注意力的緣由啃洋。這類似于人類看到眼前的畫面,但是眼中卻沒有注意焦點(diǎn)一樣屎鳍。
如果拿機(jī)器翻譯來解釋這個(gè)分心模型的Encoder-Decoder框架更好理解怕轿,比如輸入的是英文句子:Tom chase Jerry垛吗,Encoder-Decoder框架逐步生成中文單詞:“湯姆”羡宙,“追逐”徐矩,“杰瑞”。
在翻譯“杰瑞”這個(gè)中文單詞的時(shí)候窥淆,分心模型里面的每個(gè)英文單詞對(duì)于翻譯目標(biāo)單詞“杰瑞”貢獻(xiàn)是相同的卖宠,很明顯這里不太合理,顯然“Jerry”對(duì)于翻譯成“杰瑞”更重要忧饭,但是分心模型是無法體現(xiàn)這一點(diǎn)的扛伍,這就是為何說它沒有引入注意力的原因。
沒有引入注意力的模型在輸入句子比較短的時(shí)候問題不大词裤,但是如果輸入句子比較長(zhǎng)刺洒,此時(shí)所有語義完全通過一個(gè)中間語義向量來表示,單詞自身的信息已經(jīng)消失吼砂,可想而知會(huì)丟失很多細(xì)節(jié)信息逆航,這也是為何要引入注意力模型的重要原因。
上面的例子中渔肩,如果引入Attention模型的話因俐,應(yīng)該在翻譯“杰瑞”的時(shí)候,體現(xiàn)出英文單詞對(duì)于翻譯當(dāng)前中文單詞不同的影響程度周偎,比如給出類似下面一個(gè)概率分布值:
(Tom,0.3)(Chase,0.2) (Jerry,0.5)
每個(gè)英文單詞的概率代表了翻譯當(dāng)前單詞“杰瑞”時(shí)抹剩,注意力分配模型分配給不同英文單詞的注意力大小。這對(duì)于正確翻譯目標(biāo)語單詞肯定是有幫助的蓉坎,因?yàn)橐肓诵碌男畔ⅰ?/p>
同理吧兔,目標(biāo)句子中的每個(gè)單詞都應(yīng)該學(xué)會(huì)其對(duì)應(yīng)的源語句子中單詞的注意力分配概率信息。這意味著在生成每個(gè)單詞的時(shí)候袍嬉,原先都是相同的中間語義表示C會(huì)被替換成根據(jù)當(dāng)前生成單詞而不斷變化的。理解Attention模型的關(guān)鍵就是這里,即由固定的中間語義表示C換成了根據(jù)當(dāng)前輸出單詞來調(diào)整成加入注意力模型的變化的伺通。增加了注意力模型的Encoder-Decoder框架理解起來如下圖所示箍土。
即生成目標(biāo)句子單詞的過程成了下面的形式:
而每個(gè)可能對(duì)應(yīng)著不同的源語句子單詞的注意力分配概率分布,比如對(duì)于上面的英漢翻譯來說罐监,其對(duì)應(yīng)的信息可能如下:
其中吴藻,f2函數(shù)代表Encoder對(duì)輸入英文單詞的某種變換函數(shù),比如如果Encoder是用的RNN模型的話弓柱,這個(gè)f2函數(shù)的結(jié)果往往是某個(gè)時(shí)刻輸入后隱層節(jié)點(diǎn)的狀態(tài)值沟堡;g代表Encoder根據(jù)單詞的中間表示合成整個(gè)句子中間語義表示的變換函數(shù),一般的做法中矢空,g函數(shù)就是對(duì)構(gòu)成元素加權(quán)求和航罗,即下列公式:
其中,代表輸入句子Source的長(zhǎng)度屁药,代表在Target輸出第i個(gè)單詞時(shí)Source輸入句子中第j個(gè)單詞的注意力分配系數(shù)粥血,而則是Source輸入句子中第j個(gè)單詞的語義編碼。假設(shè)下標(biāo)i就是上面例子所說的“ 湯姆” 酿箭,那么就是3复亏,h1=f(“Tom”),h2=f(“Chase”),h3=f(“Jerry”)分別是輸入句子每個(gè)單詞的語義編碼缭嫡,對(duì)應(yīng)的注意力模型權(quán)值則分別是0.6,0.2,0.2缔御,所以g函數(shù)本質(zhì)上就是個(gè)加權(quán)求和函數(shù)。如果形象表示的話妇蛀,翻譯中文單詞“湯姆”的時(shí)候耕突,數(shù)學(xué)公式對(duì)應(yīng)的中間語義表示的形成過程類似下圖。
這里還有一個(gè)問題:生成目標(biāo)句子某個(gè)單詞讥耗,比如“湯姆”的時(shí)候有勾,如何知道Attention模型所需要的輸入句子單詞注意力分配概率分布值呢?就是說“湯姆”對(duì)應(yīng)的輸入句子Source中各個(gè)單詞的概率分布:(Tom,0.6)(Chase,0.2) (Jerry,0.2) 是如何得到的呢古程?
為了便于說明蔼卡,我們假設(shè)對(duì)圖2的非Attention模型的Encoder-Decoder框架進(jìn)行細(xì)化,Encoder采用RNN模型挣磨,Decoder也采用RNN模型雇逞,這是比較常見的一種模型配置
較為便捷地說明注意力分配概率分布值的通用計(jì)算過程:
對(duì)于采用RNN的Decoder來說,在時(shí)刻i茁裙,如果要生成yi單詞塘砸,我們是可以知道Target在生成之前的時(shí)刻i-1時(shí),隱層節(jié)點(diǎn)i-1時(shí)刻的輸出值的晤锥,而我們的目的是要計(jì)算生成時(shí)輸入句子中的單詞“Tom”掉蔬、“Chase”廊宪、“Jerry”對(duì)來說的注意力分配概率分布,那么可以用Target輸出句子i-1時(shí)刻的隱層節(jié)點(diǎn)狀態(tài)去一一和輸入句子Source中每個(gè)單詞對(duì)應(yīng)的RNN隱層節(jié)點(diǎn)狀態(tài)hj進(jìn)行對(duì)比女轿,即通過函數(shù)F(,)來獲得目標(biāo)單詞和每個(gè)輸入單詞對(duì)應(yīng)的對(duì)齊可能性箭启,這個(gè)F函數(shù)在不同論文里可能會(huì)采取不同的方法,然后函數(shù)F的輸出經(jīng)過Softmax進(jìn)行歸一化就得到了符合概率分布取值區(qū)間的注意力分配概率分布數(shù)值蛉迹。
上述內(nèi)容就是經(jīng)典的Soft Attention模型的基本思想傅寡,那么怎么理解Attention模型的物理含義呢?一般在自然語言處理應(yīng)用里會(huì)把Attention模型看作是輸出Target句子中某個(gè)單詞和輸入Source句子每個(gè)單詞的對(duì)齊模型北救,這是非常有道理的荐操。
目標(biāo)句子生成的每個(gè)單詞對(duì)應(yīng)輸入句子單詞的概率分布可以理解為輸入句子單詞和這個(gè)目標(biāo)生成單詞的對(duì)齊概率,這在機(jī)器翻譯語境下是非常直觀的:傳統(tǒng)的統(tǒng)計(jì)機(jī)器翻譯一般在做的過程中會(huì)專門有一個(gè)短語對(duì)齊的步驟珍策,而注意力模型其實(shí)起的是相同的作用托启。
5、Attention機(jī)制的本質(zhì)思想
如果把Attention機(jī)制從上文講述例子中的Encoder-Decoder框架中剝離膛壹,并進(jìn)一步做抽象驾中,可以更容易看懂Attention機(jī)制的本質(zhì)思想。
我們可以這樣來看待Attention機(jī)制:將Source中的構(gòu)成元素想象成是由一系列的<Key,Value>數(shù)據(jù)對(duì)構(gòu)成模聋,此時(shí)給定Target中的某個(gè)元素Query肩民,通過計(jì)算Query和各個(gè)Key的相似性或者相關(guān)性,得到每個(gè)Key對(duì)應(yīng)Value的權(quán)重系數(shù)链方,然后對(duì)Value進(jìn)行加權(quán)求和持痰,即得到了最終的Attention數(shù)值。所以本質(zhì)上Attention機(jī)制是對(duì)Source中元素的Value值進(jìn)行加權(quán)求和祟蚀,而Query和Key用來計(jì)算對(duì)應(yīng)Value的權(quán)重系數(shù)工窍。即可以將其本質(zhì)思想改寫為如下公式:
其中,=||Source||代表Source的長(zhǎng)度前酿,公式含義即如上所述患雏。上文所舉的機(jī)器翻譯的例子里,因?yàn)樵谟?jì)算Attention的過程中罢维,Source中的Key和Value合二為一淹仑,指向的是同一個(gè)東西,也即輸入句子中每個(gè)單詞對(duì)應(yīng)的語義編碼肺孵,所以可能不容易看出這種能夠體現(xiàn)本質(zhì)思想的結(jié)構(gòu)匀借。
當(dāng)然,從概念上理解平窘,把Attention仍然理解為從大量信息中有選擇地篩選出少量重要信息并聚焦到這些重要信息上吓肋,忽略大多不重要的信息,這種思路仍然成立瑰艘。聚焦的過程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上是鬼,權(quán)重越大越聚焦于其對(duì)應(yīng)的Value值上肤舞,即權(quán)重代表了信息的重要性,而Value是其對(duì)應(yīng)的信息屑咳。
從圖9可以引出另外一種理解萨赁,也可以將Attention機(jī)制看作一種軟尋址(Soft? Addressing):Source可以看作存儲(chǔ)器內(nèi)存儲(chǔ)的內(nèi)容,元素由地址Key和值Value組成兆龙,當(dāng)前有個(gè)Key=Query的查詢,目的是取出存儲(chǔ)器中對(duì)應(yīng)的Value值敲董,即Attention數(shù)值紫皇。通過Query和存儲(chǔ)器內(nèi)元素Key的地址進(jìn)行相似性比較來尋址,之所以說是軟尋址腋寨,指的不像一般尋址只從存儲(chǔ)內(nèi)容里面找出一條內(nèi)容聪铺,而是可能從每個(gè)Key地址都會(huì)取出內(nèi)容,取出內(nèi)容的重要性根據(jù)Query和Key的相似性來決定萄窜,之后對(duì)Value進(jìn)行加權(quán)求和铃剔,這樣就可以取出最終的Value值,也即Attention值查刻。所以不少研究人員將Attention機(jī)制看作軟尋址的一種特例键兜,這也是非常有道理的。
至于Attention機(jī)制的具體計(jì)算過程穗泵,如果對(duì)目前大多數(shù)方法進(jìn)行抽象的話普气,可以將其歸納為兩個(gè)過程:第一個(gè)過程是根據(jù)Query和Key計(jì)算權(quán)重系數(shù),第二個(gè)過程根據(jù)權(quán)重系數(shù)對(duì)Value進(jìn)行加權(quán)求和佃延。而第一個(gè)過程又可以細(xì)分為兩個(gè)階段:第一個(gè)階段根據(jù)Query和Key計(jì)算兩者的相似性或者相關(guān)性现诀;第二個(gè)階段對(duì)第一階段的原始分值進(jìn)行歸一化處理;這樣履肃,可以將Attention的計(jì)算過程抽象為如下圖展示的三個(gè)階段仔沿。
在第一個(gè)階段,可以引入不同的函數(shù)和計(jì)算機(jī)制尺棋,根據(jù)Query和某個(gè)封锉,計(jì)算兩者的相似性或者相關(guān)性,最常見的方法包括:求兩者的向量點(diǎn)積陡鹃、求兩者的向量Cosine相似性或者通過再引入額外的神經(jīng)網(wǎng)絡(luò)來求值烘浦,即如下方式:
第一階段產(chǎn)生的分值根據(jù)具體產(chǎn)生的方法不同其數(shù)值取值范圍也不一樣,第二階段引入類似SoftMax的計(jì)算方式對(duì)第一階段的得分進(jìn)行數(shù)值轉(zhuǎn)換萍鲸,一方面可以進(jìn)行歸一化闷叉,將原始計(jì)算分值整理成所有元素權(quán)重之和為1的概率分布;另一方面也可以通過SoftMax的內(nèi)在機(jī)制更加突出重要元素的權(quán)重脊阴。即一般采用如下公式計(jì)算:
第二階段的計(jì)算結(jié)果即為對(duì)應(yīng)的權(quán)重系數(shù)握侧,然后進(jìn)行加權(quán)求和即可得到Attention數(shù)值:
通過如上三個(gè)階段的計(jì)算蚯瞧,即可求出針對(duì)Query的Attention數(shù)值,目前絕大多數(shù)具體的注意力機(jī)制計(jì)算方法都符合上述的三階段抽象計(jì)算過程品擎。
6埋合、Self-Attention機(jī)制
通過上述對(duì)Attention本質(zhì)思想的梳理,我們可以更容易理解本節(jié)介紹的Self? Attention模型萄传。Self Attention也經(jīng)常被稱為intra? Attention(內(nèi)部Attention)甚颂,最近一年也獲得了比較廣泛的使用,比如Google最新的機(jī)器翻譯模型內(nèi)部大量采用了Self? Attention模型秀菱。
在一般任務(wù)的Encoder-Decoder框架中振诬,輸入Source和輸出Target內(nèi)容是不一樣的,比如對(duì)于英-中機(jī)器翻譯來說衍菱,Source是英文句子赶么,Target是對(duì)應(yīng)的翻譯出的中文句子,Attention機(jī)制發(fā)生在Target的元素Query和Source中的所有元素之間脊串。而Self? Attention顧名思義辫呻,指的不是Target和Source之間的Attention機(jī)制,而是Source內(nèi)部元素之間或者Target內(nèi)部元素之間發(fā)生的Attention機(jī)制琼锋,也可以理解為Target=Source這種特殊情況下的注意力計(jì)算機(jī)制放闺。其具體計(jì)算過程是一樣的,只是計(jì)算對(duì)象發(fā)生了變化而已斩例,所以此處不再贅述其計(jì)算過程細(xì)節(jié)雄人。
如果是常規(guī)的Target不等于Source情形下的注意力計(jì)算,其物理含義正如上文所講念赶,比如對(duì)于機(jī)器翻譯來說础钠,本質(zhì)上是目標(biāo)語單詞和源語單詞之間的一種單詞對(duì)齊機(jī)制。那么如果是Self Attention機(jī)制叉谜,一個(gè)很自然的問題是:通過Self Attention到底學(xué)到了哪些規(guī)律或者抽取出了哪些特征呢旗吁?或者說引入Self? Attention有什么增益或者好處呢?我們?nèi)匀灰詸C(jī)器翻譯中的Self Attention來說明停局,圖11和圖12是可視化地表示Self? Attention在同一個(gè)英語句子內(nèi)單詞間產(chǎn)生的聯(lián)系很钓。
從兩張圖可以看出,Self Attention可以捕獲同一個(gè)句子中單詞之間的一些句法特征(比如第一張圖展示的有一定距離的短語結(jié)構(gòu))或者語義特征(比如第2張圖展示的its的指代對(duì)象Law)董栽。
很明顯码倦,引入Self Attention后會(huì)更容易捕獲句子中長(zhǎng)距離的相互依賴的特征,因?yàn)槿绻荝NN或者LSTM锭碳,需要依次序序列計(jì)算袁稽,對(duì)于遠(yuǎn)距離的相互依賴的特征,要經(jīng)過若干時(shí)間步步驟的信息累積才能將兩者聯(lián)系起來擒抛,而距離越遠(yuǎn)推汽,有效捕獲的可能性越小补疑。
但是Self? Attention在計(jì)算過程中會(huì)直接將句子中任意兩個(gè)單詞的聯(lián)系通過一個(gè)計(jì)算步驟直接聯(lián)系起來,所以遠(yuǎn)距離依賴特征之間的距離被極大縮短歹撒,有利于有效地利用這些特征莲组。除此外,Self Attention對(duì)于增加計(jì)算的并行性也有直接幫助作用暖夭。這是為何Self Attention逐漸被廣泛使用的主要原因锹杈。
7、畢設(shè)可能用到的Attention
(1) Deep Semantic Role Labeling with Self-Attention
這篇論文來自AAAI2018迈着,廈門大學(xué)Tan等人的工作嬉橙。(Tan Z, Wang M, Xie J, et al. Deep Semantic Role Labeling with Self-Attention. AAAI 2018. )他們將self-attention應(yīng)用到了語義角色標(biāo)注任務(wù)(SRL)上,并取得了先進(jìn)的結(jié)果寥假。這篇論文中,作者將SRL作為一個(gè)序列標(biāo)注問題霞扬,使用BIO標(biāo)簽進(jìn)行標(biāo)注糕韧。然后提出使用深度注意力網(wǎng)絡(luò)(Deep Attentional Neural Network)進(jìn)行標(biāo)注,網(wǎng)絡(luò)結(jié)構(gòu)如下喻圃。在每一個(gè)網(wǎng)絡(luò)塊中萤彩,有一個(gè)RNN/CNN/FNN子層和一個(gè)self-attention子層組成。最后直接利用softmax當(dāng)成標(biāo)簽分類進(jìn)行序列標(biāo)注斧拍。
該模型在CoNLL-2005和CoNll-2012的SRL數(shù)據(jù)集上都取得了先進(jìn)結(jié)果雀扶。我們知道序列標(biāo)注問題中,標(biāo)簽之間是有依賴關(guān)系的肆汹,比如標(biāo)簽I愚墓,應(yīng)該是出現(xiàn)在標(biāo)簽B之后,而不應(yīng)該出現(xiàn)在O之后昂勉。目前主流的序列標(biāo)注模型是BiLSTM-CRF模型浪册,利用CRF進(jìn)行全局標(biāo)簽優(yōu)化。在對(duì)比實(shí)驗(yàn)中岗照,He et al和Zhou and Xu的模型分別使用了CRF和constrained decoding來處理這個(gè)問題村象。可以看到本論文僅使用self-attention攒至,作者認(rèn)為在模型的頂層的attention層能夠?qū)W習(xí)到標(biāo)簽潛在的依賴信息厚者。
(2)Simultaneously Self-Attending to All Mentions for Full-Abstract Biological Relation Extraction
這篇論文是Andrew McCallum團(tuán)隊(duì)?wèi)?yīng)用self-attention在生物醫(yī)學(xué)關(guān)系抽取任務(wù)上的一個(gè)工作,應(yīng)該是已經(jīng)被NAACL2018接收迫吐。這篇論文作者提出了一個(gè)文檔級(jí)別的生物關(guān)系抽取模型库菲,里面做了不少工作,感興趣的讀者可以更深入閱讀原文渠抹。我們這里只簡(jiǎn)單提一下他們self-attention的應(yīng)用部分蝙昙。論文模型的整體結(jié)構(gòu)如下圖闪萄,他們也是使用google提出包含self-attention的transformer來對(duì)輸入文本進(jìn)行表示學(xué)習(xí),和原始的transformer略有不同在于他們使用了窗口大小為5的CNN代替了原始FNN奇颠。
我們關(guān)注一下attention這部分的實(shí)驗(yàn)結(jié)果败去。他們?cè)谏镝t(yī)學(xué)藥物致病數(shù)據(jù)集上(Chemical Disease Relations,CDR)取得了先進(jìn)結(jié)果烈拒。去掉self-attention這層以后可以看到結(jié)果大幅度下降圆裕,而且使用窗口大小為5的CNN比原始的FNN在這個(gè)數(shù)據(jù)集上有更突出的表現(xiàn)。