作者:Petar Velickovic, Guillem Cucurull, Arantxa Casanova, Yoshua Bengio
來(lái)源: ICLR 2018
鏈接: link
研究機(jī)構(gòu):Department of Computer Science and Technology;Centre de Visi′o per Computador, UAB;Montreal Institute for Learning Algorithms
源碼鏈接: source code
這篇文章主要利用Attention機(jī)制計(jì)算Graph中節(jié)點(diǎn)的表示歉摧。通常在Graph中赠堵,節(jié)點(diǎn)的屬性與其鄰近節(jié)點(diǎn)的關(guān)系非常密切闪盔,打個(gè)比方,判斷一篇論文的研究方向枢析,除了可以通過(guò)論文本身來(lái)判斷酌住,還可以根據(jù)其引用的參考文獻(xiàn)來(lái)大致判斷店归。
Background
GAT architechture
令Graph attentional layer的輸入是,其中
是節(jié)點(diǎn)數(shù)赂韵,
是每個(gè)節(jié)點(diǎn)特征數(shù)娱节。同時(shí)令輸出為
。
與普通的self-attention類似祭示,Graph Attention也是計(jì)算節(jié)點(diǎn)與節(jié)點(diǎn)之間的注意力權(quán)重肄满,通過(guò)加權(quán)和得到輸出谴古。考慮一個(gè)問(wèn)題:如果按照普通self-attention的方式來(lái)處理Graph attentional layer的輸入稠歉,那么處理流程就與普通序列無(wú)異掰担,導(dǎo)致丟失所有的圖結(jié)構(gòu)信息∨ǎ考慮到圖結(jié)構(gòu)中带饱,與目標(biāo)節(jié)點(diǎn)距離越大,意味著關(guān)聯(lián)性越小阅羹,因此作者在計(jì)算attention的時(shí)候僅考慮與目標(biāo)節(jié)點(diǎn)相鄰的節(jié)點(diǎn)勺疼。在這篇文章中,僅考慮一階鄰近的節(jié)點(diǎn)捏鱼。
假設(shè)目標(biāo)節(jié)點(diǎn)是执庐,其一階鄰近節(jié)點(diǎn)集合表示為
。對(duì)于
导梆,
之間的score function表示為
轨淌,計(jì)算方法如下:
其中,,
看尼,
表示向量拼接递鹉。
最后,可以表示為:
當(dāng)然了藏斩,Graph attentional layer可以是multi-head的躏结,文章提供了兩種multi-head graph attention的aggregation方法,分別是向量拼接和平均(如圖所示)灾茁。假設(shè)有個(gè)獨(dú)立的graph attention模塊窜觉,那么這兩種aggregation下的輸出可以表示為:
Evaluation
作者將GAN應(yīng)用到了兩個(gè)任務(wù):Transductive learning和Inductive learning,前者選取了3個(gè)數(shù)據(jù)集北专,后者1個(gè)數(shù)據(jù)集。最終GAN能夠取得超過(guò)或者持平SOAT的結(jié)果旬陡。