多頭注意力機(jī)制的目的是通過(guò)捕捉不同的注意力信息來(lái)提升 AI 模型的表達(dá)能力。利用多頭矩陣的子空間從不同的視角或者說(shuō)維度來(lái)表達(dá)輸入的數(shù)據(jù)毯盈。
從貝葉斯神經(jīng)網(wǎng)絡(luò)的角度方椎,多頭注意力機(jī)制是一種采樣(Sampling)技術(shù)漠酿, 每個(gè)注意力頭是一個(gè)采樣憔鬼。 每個(gè)頭區(qū)分度越大,相當(dāng)于視角越多观话, 這樣的話按道理Transformer 對(duì)目標(biāo)可以進(jìn)行更好的擬合予借。 但注意力頭真的是越多越好么?(不考慮過(guò)擬合和硬件條件的情況下)
問(wèn)題的關(guān)鍵是注意力頭本身是矩陣形式频蛔,對(duì)輸入數(shù)據(jù)進(jìn)行線性變換灵迫, 得到的結(jié)果是離散的而非連續(xù)的, 不能夠真正表達(dá)連續(xù)的目標(biāo)概率分布晦溪。與真正的目標(biāo)間存在誤差龟再,而注意力頭越多,累計(jì)誤差也會(huì)越大尼变,導(dǎo)致模型的表現(xiàn)也變差。
訓(xùn)練的時(shí)候注意力頭越多擬合的越好,但是 test 的時(shí)候注意力頭多不一定效果好嫌术,并且還比較多余哀澈。
這個(gè)我們?nèi)四X的機(jī)制是一樣的, 我們閱讀一段文字度气,很快的讀過(guò)去割按, 能夠注意到的關(guān)鍵點(diǎn)和它們之間的聯(lián)系并不會(huì)特別多,但也不妨礙我們理解一段話的意思磷籍。所以這給我們一個(gè)啟示适荣,對(duì)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),很多時(shí)候可以參考人腦思考運(yùn)行的規(guī)律院领, 模擬人腦的運(yùn)行策略弛矛,也會(huì)獲得接近的運(yùn)行效果。
Reference:
Transformer 101 個(gè)思考問(wèn)題: