NLP中大火的Transformer和GAT本質(zhì)在做一樣的事情。Transformer利用self-attention機(jī)制將輸入中的每個(gè)單詞用其上下文的加權(quán)來表示墨状,而GAT則是利用self-attention機(jī)制將每個(gè)節(jié)點(diǎn)用其鄰居的加權(quán)來表示往湿。Transformer的公式如下所示:
公式里面的Q,K,V是一個(gè)單詞的三種描述像啼,其中矢劲,Q是當(dāng)單詞作為上下文的中心位置時(shí)的表示,K是當(dāng)單詞作為上下文時(shí)的表示芒澜,V是當(dāng)單詞作為加權(quán)輸入時(shí)的表示仰剿。
其實(shí)代表了單詞之間的相似性,Softmax函數(shù)(歸一化指數(shù)函數(shù))的形式通常按下面的式子給出:
Softmax函數(shù)歸一化后得到注意力權(quán)重南吮。
Transformer和GAT的聯(lián)系和區(qū)別
聯(lián)系
都是通過探索輸入之間的關(guān)聯(lián)性(注意力權(quán)重),通過對(duì)上下文信息(句子上下文/節(jié)點(diǎn)鄰居)進(jìn)行聚合誊酌,來獲得各個(gè)輸入(單詞/節(jié)點(diǎn))的表示部凑。
區(qū)別
在GAT中,作者對(duì)自注意力進(jìn)行了簡(jiǎn)化碧浊。每個(gè)節(jié)點(diǎn)無論是作為中心節(jié)點(diǎn)/上下文/聚合輸出涂邀,都只用一種表示h.即Q=K=V。
在圖上箱锐,節(jié)點(diǎn)的鄰居是一個(gè)集合比勉,具有不變性。Transformer將文本隱式的建圖過程中丟失了單詞之間的位置關(guān)系驹止,用額外的位置編碼來描述位置信息浩聋。
Graph上的Attention為什么有效
在大規(guī)模Graph中由于節(jié)點(diǎn)較多,復(fù)雜的背景噪聲會(huì)對(duì)GNN性能產(chǎn)生不良影響臊恋。在Attention的作用下衣洁,GNN模型會(huì)關(guān)注到Graph中最重要的節(jié)點(diǎn)/節(jié)點(diǎn)中最重要的信息從而提高信噪比。
Attention更巧妙地利用了Graph節(jié)點(diǎn)之間的相互聯(lián)系抖仅,區(qū)分了聯(lián)系的層級(jí)坊夫,能夠增強(qiáng)任務(wù)中需要的有效信息砖第。比如在玩狼人的時(shí)候預(yù)言家說你是平民,你的平民信息會(huì)得到大幅度增強(qiáng)环凿,而普通人說你是平民梧兼,你的平民信息增強(qiáng)有限。
引用
https://www.zhihu.com/question/275866887
https://zhuanlan.zhihu.com/p/132497231