俱往矣,AI可以從Transformers模型始(二)

Transformer是一種基于注意力機制的深度學(xué)習(xí)模型揍拆,它在NLP領(lǐng)域取得了革命性的進展渠概。該模型的主要特點(可以說一些關(guān)鍵術(shù)語):
1、自注意力機制(Self-Attention):該機制使得模型能夠捕捉到序列內(nèi)部的長距離依賴關(guān)系嫂拴。
2播揪、多頭注意力(Multi-Head Attention):使用此機制來增強模型對不同位置信息的捕捉能力。
3筒狠、位置編碼(Positional Encoding):引入位置編碼猪狈,將序列中每個元素的位置信息編碼到模型輸入中,以幫助模型理解單詞在序列中的位置辩恼。
4雇庙、編碼器-解碼器架構(gòu):編碼器負(fù)責(zé)處理輸入序列,解碼器負(fù)責(zé)生成輸出序列灶伊。
5疆前、層次結(jié)構(gòu):Transformer模型通過堆疊多個編碼器和解碼器層來提高模型的性能。

image.png

Self-Attention(自注意力機制層)
自注意力機制(Self-Attention)能很好地解決RNN網(wǎng)絡(luò)固有的計算效率不高和長程依賴問題聘萨,它允許模型并行處理整個序列竹椒,有效地捕獲序列中的長距離依賴。這一機制的引入米辐,讓Transformer模型成為了一項重大技術(shù)突破胸完,逐漸成為了如今NLP的主流研究方向,又影響到計算機視覺(CV)研究領(lǐng)域翘贮。自注意力機制赊窥,又稱內(nèi)部注意力機制,顧名思義择膝,是一種將單個序列的不同位置關(guān)聯(lián)起來以計算同一序列的表示的注意機制誓琼。注意力機制主要體現(xiàn)在相似度系數(shù)上,其反映對于一次查詢當(dāng)前資源中不同數(shù)據(jù)的重要程度肴捉,通過softmax等形式計算出該系數(shù)腹侣;實現(xiàn)聚焦重要數(shù)據(jù),忽略不相關(guān)數(shù)據(jù)的注意力作用齿穗。

傳統(tǒng)的注意力機制發(fā)生在Target的元素Query和Source中的所有元素之間傲隶,其權(quán)重的計算需要Target來參與。即在Encoder-Decoder模型中窃页,Attention權(quán)重的計算不僅需要Encoder中的隱狀態(tài)而且還需要Decoder中的隱狀態(tài)跺株。而自注意力機制中不是Target和Source之間的Attention機制复濒,而是Source內(nèi)部元素之間或者Target內(nèi)部元素之間發(fā)生的Attention機制。如在Transformer中在計算權(quán)重參數(shù)時乒省,將文字向量轉(zhuǎn)成對應(yīng)的KQV巧颈,只需要在Source處進行對應(yīng)的矩陣操作,用不到Target中的信息袖扛。
就是說自注意力機制和注意力機制的區(qū)別就在于砸泛,注意力機制的查詢(Query)和鍵(Key)是不同來源的,而自注意力機制的查詢(Query)和鍵(Key)則都是來自于同一組的元素蛆封,因此唇礁,自注意力機制也被稱為內(nèi)部注意力機制(intra-attention)。自注意力機制的優(yōu)點是感受野大惨篱;缺點是需要大數(shù)據(jù)盏筐。
自注意力機制其實就是論文中所指代的“Scaled Dot-Product Attention“。論文作者說注意力機制可以描述為將query和一系列的key-value對映射到某個輸出的過程砸讳,而這個輸出的向量就是根據(jù)query和key計算得到的權(quán)重作用于value上的權(quán)重和琢融。

Multi-head Attention(多頭注意力機制)
多頭注意力機制的架構(gòu)(Multi-Head Attention)圖,可以看到(V, K, Q)三個矩陣通過h個線性變換(Linear)绣夺,分別得到h組(V, K, Q)矩陣吏奸,每一組(V, K, Q)經(jīng)過Attention計算,得到h個Attention Score并進行拼接(Concat)陶耍,最后通過一個線性變換得到輸出,其維度與輸入詞向量的維度一致她混,其中h就是多頭注意力機制的“頭數(shù)”烈钞。在多頭注意力機制中,其輸出序列的長度與輸入的Query序列的長度一致坤按;在接受的三個序列Query毯欣、Key、Value中臭脓,其Key與Value是鍵值對酗钞,序列長度一定相同,Query序列長度可以與Key来累、Value長度不同砚作。

所謂的多頭注意力機制其實就是將原始的輸入序列進行多組的自注意力處理過程;然后再將每一組自注意力的結(jié)果拼接起來進行一次線性變換得到最終的輸出結(jié)果嘹锁。

因為一段文字可能蘊含了比如情感維度葫录、時間維度、邏輯維度等很多維度的特征领猾,為了能從不同的維度抓住輸入信息的重點米同,就又引入了多頭注意力機制(multi-head attention)骇扇。所謂多頭注意力,簡單說就是把輸入序列投影為多組不同的Query面粮,Key少孝,Value,并行分別計算后熬苍,再把各組計算的結(jié)果合并作為最終的結(jié)果韭山,通過使用多頭注意力機制,可以更好地捕獲來自輸入的多維度特征冷溃,提高模型的表達能力和泛化能力钱磅,并減少過擬合的風(fēng)險。多頭注意力機制的目的是為了從多個維度捕捉提取更多的特征似枕,從多個“頭”得到不同的Self-Attention Score盖淡,提高模型表現(xiàn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末凿歼,一起剝皮案震驚了整個濱河市褪迟,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌答憔,老刑警劉巖味赃,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異虐拓,居然都是意外死亡心俗,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門蓉驹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來城榛,“玉大人,你說我怎么就攤上這事态兴『莩郑” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵瞻润,是天一觀的道長喘垂。 經(jīng)常有香客問我,道長绍撞,這世上最難降的妖魔是什么正勒? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮楚午,結(jié)果婚禮上昭齐,老公的妹妹穿的比我還像新娘。我一直安慰自己矾柜,他們只是感情好阱驾,可當(dāng)我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布就谜。 她就那樣靜靜地躺著,像睡著了一般里覆。 火紅的嫁衣襯著肌膚如雪丧荐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天喧枷,我揣著相機與錄音虹统,去河邊找鬼。 笑死隧甚,一個胖子當(dāng)著我的面吹牛车荔,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播戚扳,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼忧便,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了帽借?” 一聲冷哼從身側(cè)響起珠增,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎砍艾,沒想到半個月后蒂教,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡脆荷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年凝垛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片简烘。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡苔严,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出孤澎,到底是詐尸還是另有隱情,我是刑警寧澤欠窒,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布覆旭,位于F島的核電站,受9級特大地震影響岖妄,放射性物質(zhì)發(fā)生泄漏型将。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一荐虐、第九天 我趴在偏房一處隱蔽的房頂上張望七兜。 院中可真熱鬧,春花似錦福扬、人聲如沸腕铸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽狠裹。三九已至虽界,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間涛菠,已是汗流浹背莉御。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留俗冻,地道東北人礁叔。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像迄薄,于是被迫代替她去往敵國和親琅关。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容