2021-A Survey of Transformers

1. 作者以及單位

Tianyang Lin(復(fù)旦邱錫鵬組)

2. 解決問(wèn)題

對(duì)各種各樣的 Transformer 變體(又名 X-former)分了2類4種優(yōu)化派別:
2.1 原版類 Transformer樊零。
2.2 變種 X-former類:2.2.1架構(gòu)修改、2.2.2預(yù)訓(xùn)練、2.2.3應(yīng)用蜂怎。

下面是4種類的對(duì)應(yīng)的文章:


transform分類圖taxonomy

3. 研究動(dòng)機(jī)

這應(yīng)該是第一篇關(guān)于Transformers結(jié)構(gòu)的綜述(之前有類似A Survey on Visual Transformer纪岁、Efficient Transformers: A Survey類似的文章)与柑。但是本文注重是結(jié)構(gòu)伦乔,主要?jiǎng)訖C(jī)是把變種X-former根據(jù)優(yōu)化目的分了3類蔬捷。這3類比較有概括性垄提。

  1. 模型效率榔袋。應(yīng)用 Transformer 的一個(gè)關(guān)鍵挑戰(zhàn)是其處理長(zhǎng)序列的效率較低,這主要是由于 self-attention 的計(jì)算和內(nèi)存復(fù)雜性铡俐。改進(jìn)方法包括輕量化注意力模塊(例如稀疏注意力)和分而治之的方法(例如循環(huán)和分層機(jī)制)凰兑。

  2. 模型泛化。由于 Transformer 是一種靈活的架構(gòu)审丘,并且對(duì)輸入數(shù)據(jù)的結(jié)構(gòu)偏差幾乎沒(méi)有假設(shè)吏够,因此很難在小規(guī)模數(shù)據(jù)上進(jìn)行訓(xùn)練。改進(jìn)方法包括引入結(jié)構(gòu)偏差或正則化备恤,對(duì)大規(guī)模未標(biāo)記數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練等稿饰。我看BERT(時(shí)序優(yōu)化)都在這一層。

  3. 模型適配露泊。這一系列工作旨在使 Transformer 適應(yīng)特定的下游任務(wù)和應(yīng)用程序喉镰。

根據(jù)以上3個(gè)方面,改進(jìn)原版 Transformer 的方式提出新的分類法惭笑,架構(gòu)修改侣姆,預(yù)訓(xùn)練和應(yīng)用

4. 研究方法

下面就按照4個(gè)種類:2.1原版沉噩,2.2架構(gòu)修改捺宗,2.3預(yù)訓(xùn)練,2.4應(yīng)用川蒙,分別講究規(guī)律(左是原版蚜厉,右是架構(gòu)修改,預(yù)訓(xùn)練畜眨,應(yīng)用)昼牛。


左邊1類+右邊3類分別對(duì)應(yīng)修改的分類
4.1原版Attention

原版我準(zhǔn)備掰開(kāi)揉碎了說(shuō)一下,把Attention和Transformer關(guān)系也說(shuō)一下(文章沒(méi)有提及)康聂。本部分分兩節(jié):第一部分介紹一下Transformers之前的Attention是怎么演變過(guò)來(lái)的(我發(fā)現(xiàn)很多分析這個(gè)文章的blog都沒(méi)有介紹清楚)贰健。第二部分在說(shuō)transformer在文章中談到的問(wèn)題。

4.1.1 Attention到底是什么

Attention的經(jīng)典定義恬汁,是來(lái)源于Attention is all you need這篇曠世奇作(Transformer也是這個(gè)文章提出的)伶椿。這個(gè)公式看似復(fù)雜,但是理解了之后就會(huì)發(fā)現(xiàn)非常的簡(jiǎn)單和基本氓侧。先講一下每個(gè)字母的含義脊另。字面意思:Q表示query,表示的是K表示key约巷,V表示value尝蠕, d_k是K的維度。如果類比QKV在推薦系統(tǒng)中:在淘寶買(mǎi)東西载庭,key就是淘寶數(shù)據(jù)庫(kù)中所有的商品信息,query就是你最近關(guān)注到的商品信息,比如高跟鞋囚聚、緊身褲靖榕,value就是推送給你的商品信息。這個(gè)例子比較的具體顽铸,但是往往在人工智能運(yùn)用中茁计,key,query谓松,value都是隱變量特征星压。因此,他們的含義往往不那么顯然鬼譬,我們需要把握的是這種計(jì)算結(jié)構(gòu)娜膘。

QKV定義

回到公式本身,這個(gè)公式本質(zhì)上就是表示按照關(guān)系矩陣進(jìn)行加權(quán)平均优质。關(guān)系矩陣就是QK^T 竣贪,而softmax就是把關(guān)系矩陣歸一化到概率分布,然后按照這個(gè)概率分布對(duì)V進(jìn)行重新采樣巩螃,最終得到新的attention的結(jié)果演怎。

transformer

拆開(kāi)看的話主要有以下幾個(gè)模塊(重點(diǎn)是2和3):

  1. 左右分別是encoder(enc)和decoder(dec)。encoder對(duì)輸入序列進(jìn)行編碼避乏,即X=(x_0,x_1,x_2...x_n)變成H=(h_0,h_1,h_2...h_n)爷耀;decoder對(duì)H=(h_0,h_1,h_2...h_n)進(jìn)行解碼,得到X=(x_0,x_1,x_2...x_n)拍皮。但encoder和decoder都不用RNN歹叮,而且換成了多個(gè)attention。
  2. enc和dec的底部是embedding春缕;而embedding又分為兩部分:input embedding和positional embedding盗胀;其中input embedding就是seq2seq中的embedding。而為什么要positional embedding呢锄贼?因?yàn)閠ransformer中只有attention票灰;回想一下attention,任意一對(duì)(query, key)的計(jì)算都是完全一樣的宅荤,不像CNN和RNN屑迂,有一個(gè)位置或者時(shí)序的差異:CNN框住一塊區(qū)域,隨著卷積核移動(dòng)冯键,邊緣的少量點(diǎn)會(huì)跟著有序變化惹盼;因此為了體現(xiàn)出時(shí)序或者在序列中的位置差異,要對(duì)input加入一定的位置信息惫确,即positional embedding手报。
  3. enc和dec的中部分別是兩個(gè)block蚯舱,分別輸入一個(gè)序列、輸出一個(gè)序列掩蛤;這兩個(gè)block分別重復(fù)N次枉昏。enc的每個(gè)block里有兩個(gè)子網(wǎng),分別是multihead attention和feedforward network(ffn)揍鸟;dec的block里有三個(gè)子網(wǎng)兄裂,分別是兩個(gè)multihead attention和一個(gè)ffn。這些子網(wǎng)后面都跟了一個(gè)add&norm阳藻,即像resnet一樣加一個(gè)跳邊晰奖,然后做一個(gè)layer norm。難理解是ffn和multihead attention腥泥。先說(shuō)ffn:就是對(duì)一個(gè)輸入序列X=(x_0,x_1,x_2...x_n)匾南,對(duì)每個(gè)x_i進(jìn)行一次channel的重組,512→2048→512道川,也可以理解為對(duì)整個(gè)序列做一個(gè)1X1的卷積 午衰。再說(shuō)*multihead attention:原始的attention, 就是一個(gè)query (以下簡(jiǎn)稱Q) 和一組key (以下簡(jiǎn)稱K) 算相似度, 然后對(duì)一組value (以下簡(jiǎn)稱V) 做加權(quán)和; 假如每個(gè)Q和K都是512維的向量, 那么這就相當(dāng)于在512維的空間里比較了兩個(gè)向量的相似度. 而multihead就相當(dāng)于把這個(gè)512維的空間人為地拆成了多個(gè)子空間, 比如head number=8, 就是把一個(gè)高維空間分成了8個(gè)子空間, 相應(yīng)地V也要分成8個(gè)head; 然后在這8個(gè)子空間里分別計(jì)算Q和K的相似度, 再分別組合V. 這樣可以讓attention能從多個(gè)不同的角度進(jìn)行結(jié)合, 這對(duì)于NMT是很有幫助的,
  4. dec最后還有一個(gè)linear和softmax。這個(gè)就無(wú)需解釋了冒萄。

我起初一直沒(méi)有看懂Attention上面那個(gè)圖臊岸,為什么左邊是Encoder?右邊是Decoder尊流,他輸入輸出走勢(shì)為什么這樣的帅戒?我覺(jué)得看下面圖就明白了,Decoder生成輸出序列的過(guò)程是逐個(gè)進(jìn)行的崖技,已經(jīng)生成的子序列會(huì)指導(dǎo)新的item的生成逻住。如圖所示,輸入的序列是法語(yǔ)的我是一個(gè)學(xué)生迎献,翻譯成英語(yǔ)的時(shí)候, Decoder的輸入是Encoder的輸出瞎访,輸出第一個(gè)item “I”,然后再將 I 和Encoder的輸出輸入到Decoder吁恍,輸出“am”扒秸,之后依次類推。所以冀瓦,圖中Decoder的輸入有兩個(gè)伴奥,一個(gè)是output embedding,另外一個(gè)是Encoder的輸出翼闽。

實(shí)例對(duì)應(yīng)(注意Encoder和Decoder的多層堆砌)

很多文章都說(shuō)Attention吊打cnn拾徙,總結(jié)一下有2個(gè)優(yōu)勢(shì)的原因:
1.Attention比recurrent相比,需要的序列操作變成了O(1)感局,而卷積是O(log(n))尼啡,典型的計(jì)算機(jī)內(nèi)犧牲空間換時(shí)間的想法暂衡,由于計(jì)算結(jié)構(gòu)的改進(jìn)(如加約束、共享權(quán)重)和硬件的提升玄叠,這點(diǎn)空間并不算什么古徒。
2.Attention是可以有比CNN更好的解釋性的。CNN的解釋性不高读恃,大家都知道,但是剛剛粗體說(shuō)了attention是對(duì)V的加權(quán)分析代态,天然就具有解釋性的屬性寺惫。

在說(shuō)說(shuō)本文對(duì)self-Attention缺點(diǎn)的分析,說(shuō)了2點(diǎn)挑戰(zhàn):

  1. 復(fù)雜性蹦疑。self-attention 的復(fù)雜度是O(T^2.D)西雀。因此,在處理長(zhǎng)序列時(shí) Attention 模塊會(huì)成為瓶頸歉摧。
  2. 結(jié)構(gòu)先驗(yàn)艇肴。Self-attention 不假設(shè)對(duì)輸入有任何結(jié)構(gòu)性偏見(jiàn)(我覺(jué)得這一點(diǎn)很重要)。甚至順序信息也需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)叁温。因此再悼,無(wú)預(yù)訓(xùn)練的 Transformer 通常很容易在小型或中等規(guī)模的數(shù)據(jù)上過(guò)擬合。
4.1.2 Transformer機(jī)制的改進(jìn)方向

原文針對(duì)以上調(diào)整有6點(diǎn)建議(具體可以看原文):

  1. 稀疏注意力膝但。這一系列工作將稀疏偏差引入 Attention 機(jī)制冲九,從而降低了復(fù)雜性。
  2. 線性化注意力跟束。這一系列工作將注意力矩陣與核特征圖分解莺奸,然后以相反的順序計(jì)算注意力以實(shí)現(xiàn)線性復(fù)雜度。
  3. 原型和內(nèi)存壓縮冀宴。這類方法減少了查詢或鍵值記憶對(duì)的數(shù)量灭贷,以減少注意力矩陣的大小。
  4. 低秩的自注意力略贮。這一系列工作捕獲了 Self-attention 的低秩屬性甚疟。
  5. 先驗(yàn)注意力。該研究領(lǐng)域探索用先驗(yàn)的注意力分布來(lái)補(bǔ)充或替代標(biāo)準(zhǔn)注意力刨肃。
  6. 改進(jìn)的多頭機(jī)制古拴。這一系列工作探索了多個(gè)不同的多頭(Multi-head)機(jī)制。

1-4我都沒(méi)有看太懂(或者我感覺(jué)提升可能甚微)真友,主要說(shuō)說(shuō)5和6黄痪。
先驗(yàn)注意力:之前提過(guò)注意力機(jī)制通常將預(yù)期的注意力值輸出為向量的加權(quán)和。作為一般情況盔然,注意力分布也可以來(lái)自其他來(lái)源桅打,我們稱之為先驗(yàn)的是嗜。預(yù)先注意分布可以補(bǔ)充或替代輸入產(chǎn)生的分布。我們將注意力的這種表述抽象為具有先驗(yàn)的注意力挺尾,如圖所示鹅搪。在大多數(shù)情況下,兩個(gè)注意力分布的融合可以通過(guò)在應(yīng)用 softmax 之前計(jì)算對(duì)應(yīng)于先驗(yàn)注意力和生成注意力的分?jǐn)?shù)的加權(quán)和來(lái)完成遭铺。優(yōu)化方式有:模型位置先驗(yàn)丽柿、從下層模塊先驗(yàn)、多任務(wù)適配器先驗(yàn)和僅注意力先驗(yàn)魂挂。

先驗(yàn)概率+attention

改進(jìn)的多頭機(jī)制:多頭(Multi-head)注意力的吸引力在于能夠共同關(guān)注來(lái)自不同位置的不同表示子空間的信息甫题。然而,沒(méi)有機(jī)制可以保證不同的注意力頭確實(shí)捕捉到不同的特征涂召。所有有:頭部行為建模坠非、跨度受限的多頭和精細(xì)聚合的多頭行為。

除此之外果正,還可以做:調(diào)整位置表示(Transformer 中的自注意力模塊和位置前饋層都是置換等變的炎码,這可能在建模時(shí)成為一個(gè)問(wèn)題,而不是需要輸入結(jié)構(gòu)的集合輸入問(wèn)題秋泳。例如潦闲,在對(duì)文本序列建模時(shí),單詞的順序很重要轮锥,因此在 Transformer 架構(gòu)中正確編碼單詞的位置至關(guān)重要)矫钓。層歸一化(Layer Normalization, LN)以及殘差連接被認(rèn)為是一種穩(wěn)定深度網(wǎng)絡(luò)訓(xùn)練的機(jī)制(例如,減輕不適定梯度和模型退化)舍杜。位置前饋網(wǎng)絡(luò) (FFN) 層對(duì)于 Transformer 實(shí)現(xiàn)良好性能很重要新娜,可以換FFN 中的激活函數(shù),調(diào)整 FFN 以獲得更大容量既绩,刪除 FFN 層(我感覺(jué)提升不大)概龄。

4.2架構(gòu)

在原文中羅列了好幾種架構(gòu)修改方法,畢竟是綜述饲握,把問(wèn)題說(shuō)全很重要私杜。但是有一些,在推薦系統(tǒng)救欧,或者算法解決上用不上衰粹,我把架構(gòu)的修改方法簡(jiǎn)單分為兩類:功能性修改操作和分治策略。

4.2.1 功能性修改(我覺(jué)得推薦系統(tǒng)用不上的)

有的功能性使 Transformer 輕量化笆怠,適合移動(dòng)設(shè)備铝耻。 有的加強(qiáng)跨塊連接,在相鄰的 Transformer 塊之間創(chuàng)建了一條前向路徑。有的自適應(yīng)計(jì)算時(shí)間瓢捉,目的減少的計(jì)算時(shí)間來(lái)提取特征频丘。

4.2.2 分治策略(我覺(jué)得推薦系統(tǒng)用的上的)

長(zhǎng)序列的有效方法是使用分治策略,即將輸入序列分解為可以由 Transformer 或 Transformer 模塊有效處理的更細(xì)段泡态。有兩類有代表性的方法搂漠,循環(huán)和分層 Transformer,如圖所示某弦。這些技術(shù)可以被理解為 Transformer 模型的包裝器桐汤,其中 Transformer 作為一個(gè)基本組件,被重用以處理不同的輸入段刀崖。

分而治之

(a)循環(huán) Transformer:在循環(huán) Transformer 中惊科,會(huì)維護(hù)一個(gè)緩存以合并歷史信息。在處理一段文本時(shí)亮钦,網(wǎng)絡(luò)從緩存中讀取作為附加輸入。處理完成后充活,網(wǎng)絡(luò)通過(guò)簡(jiǎn)單地復(fù)制隱藏狀態(tài)或使用更復(fù)雜的機(jī)制來(lái)寫(xiě)入內(nèi)存(很多時(shí)序的文章講這個(gè)TI-SASR)蜂莉。
(b)分層 Transformer:分層 Transformer (論文HIBERT就屬于這種)將輸入分層分解為更細(xì)粒度的元素。低級(jí)特征首先被送到 Transformer 編碼器混卵,產(chǎn)生輸出表示映穗,然后聚合(使用池化或其他操作)以形成高級(jí)特征,然后由高級(jí) Transformer 處理幕随。這類方法可以理解為一個(gè)層次抽象的過(guò)程蚁滋。這種方法的優(yōu)點(diǎn)有兩個(gè):1)分層建模允許模型以有限的資源處理長(zhǎng)輸入;2)它有可能產(chǎn)生更豐富的對(duì)任務(wù)有益的表征赘淮。

4.3預(yù)訓(xùn)練Pre-Train-Model(PTM)

Transformer 不對(duì)數(shù)據(jù)的結(jié)構(gòu)做出任何假設(shè)(例如辕录,卷積假設(shè)數(shù)據(jù)是二維的),優(yōu)點(diǎn)是有效地使 Transformer 成為一種非常通用的架構(gòu)梢卸,具有捕獲不同范圍依賴關(guān)系的潛力走诞。缺點(diǎn)是使得 Transformer 在數(shù)據(jù)有限時(shí)容易過(guò)擬合。緩解此問(wèn)題的一種方法是在模型中引入歸納偏置蛤高。

歸納偏置(預(yù)訓(xùn)練PTM)有以下方法:

  1. 僅 Encoder蚣旱。大名鼎鼎的BERT是典型的 PTM。
  2. 僅 Decoder戴陡。大規(guī)模 PTM 可以通過(guò)將任務(wù)和示例作為構(gòu)造提示輸入模型來(lái)在低資源場(chǎng)景下實(shí)現(xiàn)不錯(cuò)的功能塞绿。
  3. Encoder-Decoder。使用 Encoder-Decoder 架構(gòu)的好處是恤批,誘導(dǎo)模型具備執(zhí)行自然語(yǔ)言理解和生成的能力异吻。
4.4應(yīng)用

還有一些綜合修改,我覺(jué)得其實(shí)和上面架構(gòu)訓(xùn)練比較有重合开皿,例如NLP的BERT涧黄,CV的DERT篮昧,多媒體的VLBERT,推薦系統(tǒng)的DIN等笋妥。

5. 創(chuàng)新點(diǎn)

文章很長(zhǎng)懊昨,由于是survey,每個(gè)人看創(chuàng)新點(diǎn)都是帶著自己的問(wèn)題看春宣,所以各不同酵颁,我談?wù)勍扑]系統(tǒng)下從這個(gè)文章的啟發(fā)。

1.把 Transformer 分了2類4種月帝。如果只保留干貨躏惋,這個(gè)文章主要談了3種:基本 Transformer模型哪些點(diǎn)可以優(yōu)化(把 Transformer 當(dāng)成山,每個(gè)優(yōu)化的點(diǎn)是石頭)嚷辅、 Transformer 的架構(gòu)修改(把 Transformer 當(dāng)成山簿姨,每個(gè)優(yōu)化的點(diǎn)是山峰)、Transformer 預(yù)訓(xùn)練處理(把 Transformer 當(dāng)成山簸搞,每個(gè)優(yōu)化的點(diǎn)又是一座山)扁位。優(yōu)化的目的是:效率,泛化和適配(我覺(jué)得推薦系統(tǒng)主要關(guān)注是效率)趁俊。這一點(diǎn)還是很重要域仇,基本定了未來(lái)所有Transformer 優(yōu)化歸類的思路。

2.首先寺擂,確定一點(diǎn)暇务,Transformer 的核心是利用QK矩陣的softmax是概率分布,對(duì)V的加權(quán)平均怔软。默認(rèn)Transformer 對(duì)輸入有任何結(jié)構(gòu)性偏見(jiàn)垦细,甚至順序信息也需要從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。因此爽雄,無(wú)預(yù)訓(xùn)練的 Transformer 通常很容易在小型或中等規(guī)模的數(shù)據(jù)上過(guò)擬合蝠检。所以可以探索用先驗(yàn)的Attention分布來(lái)補(bǔ)充或替代標(biāo)準(zhǔn)Attention分布(這里的“標(biāo)準(zhǔn)Attention分布”說(shuō)的是Softmax(QK^T))。

  1. 架構(gòu)的修改挚瘟,這個(gè)survey主要談了分治策略叹谁。就跟CNN可以搭建起非常厲害的檢測(cè)模型或者更高級(jí)的模型一樣,attention的最厲害的地方乘盖,是它可以作為基本模塊搭建起非常復(fù)雜的模型焰檩。結(jié)合其他文章舉兩個(gè)例子:

首先是全局attention和部分attention。全局attention就是上面講的基本attention订框,部分attention主要是還允許某些特征在做attention之前先做融合析苫,再進(jìn)一步attention。如swintransformer。

全局和部分attention

其次是hard attention和soft attention衩侥。之前我們講的基本都是soft attention国旷。但是站到采樣的角度來(lái)講,可以考慮hard attention茫死,把概率當(dāng)成一個(gè)分布跪但,然后再進(jìn)行多項(xiàng)式采樣。這個(gè)或許在強(qiáng)化學(xué)習(xí)里面峦萎,有啟發(fā)性作用屡久。

4.Transformer 預(yù)訓(xùn)練處理方面(和第二點(diǎn)先驗(yàn)區(qū)別是,這里“預(yù)”主要關(guān)注的點(diǎn)是Encoder和Decoder)如推薦系統(tǒng)里面的阿里寫(xiě)的BERT4REC爱榔。BERT的全稱是Bidirectional Encoder Representations from Transformer被环,從名稱上可以看出來(lái)BERT從Transformer中取Encoder部分,進(jìn)行Bidirectional Representation的representation learning详幽。BERT的作用類似CNN, 扮演的是feature extractor提取的角色筛欢,阿里這個(gè)文章很長(zhǎng),這里就說(shuō)結(jié)論:BERT的輸出中唇聘,不同的mask會(huì)有不同的embedding悴能,該mask的增強(qiáng)后embedding,含有豐富的context信息雳灾,對(duì)增強(qiáng)后embedding放到softmax 預(yù)測(cè)性能提高了。因?yàn)轭A(yù)測(cè)被mask的詞是從序列的前后雙向獲得的信息冯凹,不是單向從左往右或者從右往左的谎亩,所以這也是BERT中bidirectional的來(lái)歷。

總結(jié)一下:在看基本模型有哪些值得優(yōu)化的(灌水)的點(diǎn)基本跳不出這個(gè)創(chuàng)新點(diǎn)框架宇姚。要不是不改架構(gòu)匈庭,對(duì)默認(rèn)模型進(jìn)行防止過(guò)擬合的優(yōu)化;要不組合起來(lái)優(yōu)化浑劳,采樣上動(dòng)動(dòng)腦筋阱持;最后是Encoder和Decoder上比原來(lái)更豐富。

6. 結(jié)論

當(dāng)前的關(guān)注點(diǎn)(例如效率和泛化)之外魔熏,Transformer 的進(jìn)一步改進(jìn)可能在于以下幾個(gè)方向:

  1. 理論分析衷咽。Transformer 的架構(gòu)已被證明能夠支持具有足夠參數(shù)的大規(guī)模訓(xùn)練數(shù)據(jù)集。許多工作表明蒜绽,Transformer 具有比 CNN 和 RNN 更大的容量镶骗,因此具有處理大量訓(xùn)練數(shù)據(jù)的能力。當(dāng) Transformer 在足夠的數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí)躲雅,它通常比 CNN 或 RNN 具有更好的性能鼎姊。一個(gè)直觀的解釋是 Transformer 對(duì)數(shù)據(jù)結(jié)構(gòu)的先驗(yàn)假設(shè)很少,因此比 CNN 和 RNN 更靈活。然而相寇,理論原因尚不清楚慰于,我們需要對(duì)Transformer能力進(jìn)行一些理論分析。

  2. 超越注意力的更好的全局交互機(jī)制唤衫。Transformer 的一個(gè)主要優(yōu)點(diǎn)是使用注意力機(jī)制來(lái)模擬輸入數(shù)據(jù)中節(jié)點(diǎn)之間的全局依賴關(guān)系婆赠。然而,許多研究表明战授,對(duì)于大多數(shù)節(jié)點(diǎn)來(lái)說(shuō)页藻,完全注意是不必要的。在某種程度上植兰,無(wú)法區(qū)分地計(jì)算所有節(jié)點(diǎn)的注意力是低效的份帐。因此,在有效地對(duì)全局交互進(jìn)行建模方面仍有很大的改進(jìn)空間楣导。一方面废境,self-attention 模塊可以看作是一個(gè)具有動(dòng)態(tài)連接權(quán)重的全連接神經(jīng)網(wǎng)絡(luò),它通過(guò)動(dòng)態(tài)路由聚合非局部信息筒繁。因此噩凹,其他動(dòng)態(tài)路由機(jī)制是值得探索的替代方法。另一方面毡咏,全局交互也可以由其他類型的神經(jīng)網(wǎng)絡(luò)建模驮宴,例如記憶增強(qiáng)模型。

  3. 多模態(tài)數(shù)據(jù)統(tǒng)一框架呕缭。在許多應(yīng)用場(chǎng)景中堵泽,集成多模態(tài)數(shù)據(jù)對(duì)于提高任務(wù)性能是有用且必要的。此外恢总,通用人工智能還需要能夠捕捉不同模態(tài)之間的語(yǔ)義關(guān)系迎罗。由于 Transformer 在文本、圖像片仿、視頻和音頻方面取得了巨大成功纹安,我們有機(jī)會(huì)構(gòu)建一個(gè)統(tǒng)一的框架,更好地捕捉多模態(tài)數(shù)據(jù)之間的內(nèi)在聯(lián)系砂豌。然而厢岂,模內(nèi)和跨模態(tài)注意力的設(shè)計(jì)仍有待改進(jìn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末奸鸯,一起剝皮案震驚了整個(gè)濱河市咪笑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌娄涩,老刑警劉巖窗怒,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件映跟,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡扬虚,警方通過(guò)查閱死者的電腦和手機(jī)努隙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)辜昵,“玉大人荸镊,你說(shuō)我怎么就攤上這事】爸茫” “怎么了躬存?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)舀锨。 經(jīng)常有香客問(wèn)我岭洲,道長(zhǎng),這世上最難降的妖魔是什么坎匿? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任盾剩,我火速辦了婚禮,結(jié)果婚禮上替蔬,老公的妹妹穿的比我還像新娘告私。我一直安慰自己,他們只是感情好承桥,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布驻粟。 她就那樣靜靜地躺著,像睡著了一般凶异。 火紅的嫁衣襯著肌膚如雪格嗅。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,754評(píng)論 1 307
  • 那天唠帝,我揣著相機(jī)與錄音,去河邊找鬼玄柏。 笑死襟衰,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的粪摘。 我是一名探鬼主播瀑晒,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼徘意!你這毒婦竟也來(lái)了苔悦?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤椎咧,失蹤者是張志新(化名)和其女友劉穎玖详,沒(méi)想到半個(gè)月后把介,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蟋座,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年拗踢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片向臀。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡巢墅,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出券膀,到底是詐尸還是另有隱情君纫,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布芹彬,位于F島的核電站蓄髓,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏雀监。R本人自食惡果不足惜双吆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望会前。 院中可真熱鬧好乐,春花似錦、人聲如沸瓦宜。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)临庇。三九已至反璃,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間假夺,已是汗流浹背淮蜈。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留已卷,地道東北人梧田。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像侧蘸,于是被迫代替她去往敵國(guó)和親裁眯。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容