「GNN框架系列」DGL第二講：實(shí)現(xiàn)GNN鏈接預(yù)測(cè)

<div class="image-package"><img src="https://upload-images.jianshu.io/upload_images/26011021-4ae807cb0dd8cf89.jpeg" img-data="{"format":"jpeg","size":39554,"height":449,"width":1440}" class="uploaded-img" style="min-height:200px;min-width:200px;" width="auto" height="auto"/>
</div>本文先簡(jiǎn)單概述GNN鏈接預(yù)測(cè)任務(wù)呀非，接下來使用Deep Graph Library實(shí)現(xiàn)GNN進(jìn)行鏈接預(yù)測(cè)湖苞，并對(duì)代碼進(jìn)行詳細(xì)介紹片部，若需獲取模型的完整代碼拱烁，可關(guān)注公眾號(hào)【AI機(jī)器學(xué)習(xí)與知識(shí)圖譜】后回復(fù)：DGL第二講完整代碼

一疹瘦、GNN鏈接預(yù)測(cè)概述<div>
GNN鏈接預(yù)測(cè)任務(wù)崩哩，即預(yù)測(cè)圖中兩個(gè)節(jié)點(diǎn)之間的邊是否存在。在Social Recommendation言沐，Knowledge Graph Completion等應(yīng)用中都需要進(jìn)行鏈接預(yù)測(cè)琢锋。模型實(shí)現(xiàn)上是將鏈接預(yù)測(cè)任務(wù)看成一個(gè)二分類任務(wù)：
1. 將圖中存在的邊作為正樣本辕漂；2. 負(fù)采樣一些圖中不存在的邊作為負(fù)樣本；3. 將正樣例和負(fù)樣例合并劃分為訓(xùn)練集和測(cè)試集吴超；4. 可以采用二分類模型的評(píng)估指標(biāo)來評(píng)估模型的效果钉嘹，例如：AUC值
在一些場(chǎng)景下例如大規(guī)模推薦系統(tǒng)或信息檢索，模型需要評(píng)估top-k預(yù)測(cè)結(jié)果的準(zhǔn)確性鲸阻，因此對(duì)于鏈接預(yù)測(cè)任務(wù)還需要一些其他的評(píng)估指標(biāo)來衡量模型最終效果：1. MR（MeanRank）2. MRR（Mean Reciprocal Rank）3. Hit@n
MR, MRR, Hit@n指標(biāo)含義：假設(shè)整個(gè)圖譜中共n個(gè)實(shí)體跋涣，評(píng)估前先進(jìn)行如下操作：（1）將一個(gè)正確的三元組中的頭實(shí)體h或者尾實(shí)體t，依次替換成整個(gè)圖譜中的其他所有實(shí)體鸟悴，這樣會(huì)產(chǎn)生n個(gè)三元組陈辱；（2）對(duì)（1）中產(chǎn)生的n個(gè)三元組分別計(jì)算其能量值，例如在TransE中計(jì)算的值细诸，這樣n個(gè)三元組分別對(duì)應(yīng)自己的能量值沛贪；（3）對(duì)上述n個(gè)三元組按照能量值進(jìn)行升序排序，記錄每個(gè)三元組排序后的序號(hào)震贵；（4）對(duì)所有正確的三元組都進(jìn)行上述三步操作
MR指標(biāo)：將整個(gè)圖譜中每個(gè)正確三元組的能量值排序后的序號(hào)取平均得到的值利赋；MRR指標(biāo)：將整個(gè)圖譜每個(gè)正確三元組的能量排序后的序號(hào)倒數(shù)取平均得到的值；Hit@n指標(biāo)：整個(gè)圖譜正確三元組的能量排序后序號(hào)小于n的三元組所占的比例猩系。
因此對(duì)于鏈接預(yù)測(cè)任務(wù)來說媚送，MR指標(biāo)越小，模型效果越好寇甸；MRR和Hit@n指標(biāo)越大塘偎，模型效果越好。接下來本文將在Cora引文數(shù)據(jù)集上拿霉，預(yù)測(cè)兩篇論文之間是否存在引用關(guān)系或被引用關(guān)系吟秩。
二、GNN鏈接預(yù)測(cè)實(shí)現(xiàn)接下來使用DGL框架實(shí)現(xiàn)GNN模型進(jìn)行鏈接任務(wù)绽淘，對(duì)代碼給出詳細(xì)解釋峰尝。首先如下所示，先加載需要使用的dgl庫(kù)和pytorch庫(kù)收恢；import dgl
import torch
import torch.nn as nn
import torch.nn.functional as F
import itertools
import numpy as np
import scipy.sparse as sp數(shù)據(jù)加載：下面代碼加載dgl庫(kù)提供的Cora數(shù)據(jù)對(duì)象，dgl庫(kù)中Dataset數(shù)據(jù)集可能是包含多個(gè)圖的祭往，所以加載的dataset對(duì)象是一個(gè)list伦意，list中的每個(gè)元素對(duì)應(yīng)該數(shù)據(jù)的一個(gè)graph，但Cora數(shù)據(jù)集是由單個(gè)圖組成硼补，因此直接使用dataset[0]取出graph驮肉。
import dgl.data
dataset = dgl.data.CoraGraphDataset()
g = dataset[0]
正負(fù)數(shù)據(jù)劃分：隨機(jī)抽取數(shù)據(jù)集中10%的邊作為測(cè)試集中的正樣例，剩下的90%數(shù)據(jù)集中的邊作為訓(xùn)練集已骇，然后隨機(jī)為訓(xùn)練集和測(cè)試集离钝，負(fù)采樣生成相同數(shù)量的負(fù)樣例票编，使得訓(xùn)練集和測(cè)試集中的正負(fù)樣本比例為1:1，將數(shù)據(jù)集中邊的集合劃分到訓(xùn)練集和測(cè)試集中卵渴，訓(xùn)練集90%慧域，測(cè)試集10%
u, v = g.edges()
eids = np.arange(g.number_of_edges())
eids = np.random.permutation(eids)
test_size = int(len(eids) * 0.1)
train_size = g.number_of_edges() - test_size
test_pos_u, test_pos_v = u[eids[:test_size]], v[eids[:test_size]]
train_pos_u, train_pos_v = u[eids[test_size:]], v[eids[test_size:]]

# 采樣所有負(fù)樣例并劃分為訓(xùn)練集和測(cè)試集中。
adj = sp.coo_matrix((np.ones(len(u)), (u.numpy(), v.numpy())))
adj_neg = 1 - adj.todense() - np.eye(g.number_of_nodes())
neg_u, neg_v = np.where(adj_neg != 0)

neg_eids = np.random.choice(len(neg_u), g.number_of_edges() // 2)
test_neg_u, test_neg_v = neg_u[neg_eids[:test_size]], neg_v[neg_eids[:test_size]]
train_neg_u, train_neg_v = neg_u[neg_eids[test_size:]], neg_v[neg_eids[test_size:]]注意：在模型訓(xùn)練時(shí)浪读，需要將圖中在測(cè)試集中10%的邊移除掉昔榴，防止數(shù)據(jù)泄露，使用dgl.remove_edgestrain_g = dgl.remove_edges(g, eids[:test_size])
from dgl.nn import SAGEConv

# 定義一個(gè)兩層的GraphSage模型
class GraphSAGE(nn.Module):
def init(self, in_feats, h_feats):
super(GraphSAGE, self).init()
self.conv1 = SAGEConv(in_feats, h_feats, 'mean')
self.conv2 = SAGEConv(h_feats, h_feats, 'mean')

def forward(self, g, in_feat):
h = self.conv1(g, in_feat)
h = F.relu(h)
h = self.conv2(g, h)
return h
節(jié)點(diǎn)對(duì)得分函數(shù)定義方式：模型通過定義函數(shù)來預(yù)測(cè)兩個(gè)節(jié)點(diǎn)表示之間的得分碘橘，從而來判斷兩個(gè)節(jié)點(diǎn)之間存在邊的可能性互订，在GNN節(jié)點(diǎn)分類任務(wù)重，模型是訓(xùn)練得到單個(gè)節(jié)點(diǎn)的表征痘拆，但在鏈接計(jì)算任務(wù)中是預(yù)測(cè)節(jié)點(diǎn)對(duì)的表征

注意：在給出節(jié)點(diǎn)對(duì)的預(yù)測(cè)得分函數(shù)之前仰禽，先需要理解一下：DGL使用方式是先將節(jié)點(diǎn)對(duì)視為一個(gè)圖，同時(shí)一條邊可用來描述一對(duì)節(jié)點(diǎn)纺蛆。在鏈接預(yù)測(cè)中吐葵，會(huì)得到一個(gè)正圖，它包含所有的正例子作為邊犹撒，以及一個(gè)負(fù)圖折联，它包含所有的負(fù)例子。正圖和負(fù)圖將包含與原始圖相同的節(jié)點(diǎn)集识颊。這使得在多個(gè)圖中傳遞節(jié)點(diǎn)特征更容易進(jìn)行計(jì)算诚镰。可以直接將在整個(gè)圖上計(jì)算的節(jié)點(diǎn)表示形式提供給正圖和負(fù)圖祥款，用于計(jì)算節(jié)點(diǎn)對(duì)的兩兩得分清笨。
將節(jié)點(diǎn)對(duì)視為圖的好處是可以使用DGLGraph.apply_edges方法，基于節(jié)點(diǎn)的特征表示和原始圖中邊的特征表示可以方便地計(jì)算新產(chǎn)生邊的特征表示刃跛。DGL提供了一組優(yōu)化的內(nèi)置函數(shù)抠艾，可以直接使用原始節(jié)點(diǎn)/邊特征表示計(jì)算新的邊特征表示。
train_pos_g = dgl.graph((train_pos_u, train_pos_v), num_nodes=g.number_of_nodes())
train_neg_g = dgl.graph((train_neg_u, train_neg_v), num_nodes=g.number_of_nodes())

test_pos_g = dgl.graph((test_pos_u, test_pos_v), num_nodes=g.number_of_nodes())
test_neg_g = dgl.graph((test_neg_u, test_neg_v), num_nodes=g.number_of_nodes())
官方和自定義兩種得分函數(shù)實(shí)現(xiàn)：接下來定義兩個(gè)節(jié)點(diǎn)之間的得分函數(shù)預(yù)測(cè)，可以直接使用DGL提供的港令，也可以自定義赴肚，下面DotPredictor是官方提供的預(yù)測(cè)函數(shù)，MLPPredictor是自定義的預(yù)測(cè)函數(shù)齐苛。import dgl.function as fn

class DotPredictor(nn.Module):
def forward(self, g, h):
with g.local_scope():
g.ndata['h'] = h
# 通過源節(jié)點(diǎn)特征“h”和目標(biāo)節(jié)點(diǎn)特征“h”之間的點(diǎn)積計(jì)算兩點(diǎn)之間存在邊的Score
g.apply_edges(fn.u_dot_v('h', 'h', 'score'))
# u_dot_v為每條邊返回一個(gè)元素向量，因此需要squeeze操作
return g.edata['score'][:, 0]
class MLPPredictor(nn.Module):
def init(self, h_feats):
super().init()
self.W1 = nn.Linear(h_feats * 2, h_feats)
self.W2 = nn.Linear(h_feats, 1)

def apply_edges(self, edges):
"""
Computes a scalar score for each edge of the given graph.
Parameters
----------
edges :
Has three members src, dst and data, each of
which is a dictionary representing the features of the
source nodes, the destination nodes, and the edges
themselves.

Returns
-------
dict
A dictionary of new edge features.
"""
h = torch.cat([edges.src['h'], edges.dst['h']], 1)
return {'score': self.W2(F.relu(self.W1(h))).squeeze(1)}

def forward(self, g, h):
with g.local_scope():
g.ndata['h'] = h
g.apply_edges(self.apply_edges)
return g.edata['score']接下來直接進(jìn)行模型訓(xùn)練：optimizer = torch.optim.Adam(itertools.chain(model.parameters(), pred.parameters()), lr=0.01)

all_logits = []
for e in range(100):
# 前向傳播
h = model(train_g, train_g.ndata['feat'])
pos_score = pred(train_pos_g, h)
neg_score = pred(train_neg_g, h)
loss = compute_loss(pos_score, neg_score)

# 后向傳播
optimizer.zero_grad()
loss.backward()
optimizer.step()

if e % 5 == 0:
print('In epoch {}, loss: {}'.format(e, loss))

# 檢測(cè)結(jié)果準(zhǔn)確性
from sklearn.metrics import roc_auc_score
with torch.no_grad():
pos_score = pred(test_pos_g, h)
neg_score = pred(test_neg_g, h)
print('AUC', compute_auc(pos_score, neg_score))
上面是模型的訓(xùn)練函數(shù)桂塞，和pytorch模型訓(xùn)練過程都是相似的凹蜂，訓(xùn)練過程如下圖所示：In epoch 0, loss: 0.6172636151313782
In epoch 5, loss: 0.6101921796798706
In epoch 10, loss: 0.5864554047584534
In epoch 15, loss: 0.5405876040458679
In epoch 20, loss: 0.4583510458469391
In epoch 25, loss: 0.39045605063438416
In epoch 30, loss: 0.34702828526496887
In epoch 35, loss: 0.3122958838939667
In epoch 40, loss: 0.2834944725036621
In epoch 45, loss: 0.25488677620887756
In epoch 50, loss: 0.22920763492584229
In epoch 55, loss: 0.20638766884803772
In epoch 60, loss: 0.18289318680763245
In epoch 65, loss: 0.16009262204170227
In epoch 70, loss: 0.1381770521402359
In epoch 75, loss: 0.11725720018148422
In epoch 80, loss: 0.09779688715934753
In epoch 85, loss: 0.07947927713394165
In epoch 90, loss: 0.06309689581394196
In epoch 95, loss: 0.048749890178442
AUC 0.8526520069180836
往期精彩【知識(shí)圖譜系列】基于生成式的知識(shí)圖譜預(yù)訓(xùn)練模型【知識(shí)圖譜系列】基于實(shí)數(shù)或復(fù)數(shù)空間的知識(shí)圖譜嵌入
【知識(shí)圖譜系列】知識(shí)圖譜多跳推理之強(qiáng)化學(xué)習(xí)
【知識(shí)圖譜系列】動(dòng)態(tài)時(shí)序知識(shí)圖譜EvolveGCN【機(jī)器學(xué)習(xí)系列】機(jī)器學(xué)習(xí)中的兩大學(xué)派</div>

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子玛痊，更是在濱河造成了極大的恐慌汰瘫，老刑警劉巖，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件擂煞，死亡現(xiàn)場(chǎng)離奇詭異混弥，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)颈娜，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門剑逃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人官辽，你說我怎么就攤上這事蛹磺。” “怎么了同仆？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵萤捆，是天一觀的道長(zhǎng)。經(jīng)常有香客問我俗批，道長(zhǎng)俗或，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任岁忘，我火速辦了婚禮辛慰，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘干像。我一直安慰自己帅腌，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布麻汰。她就那樣靜靜地躺著速客，像睡著了一般。火紅的嫁衣襯著肌膚如雪五鲫。梳的紋絲不亂的頭發(fā)上溺职，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天，我揣著相機(jī)與錄音位喂，去河邊找鬼浪耘。笑死，一個(gè)胖子當(dāng)著我的面吹牛塑崖，可吹牛的內(nèi)容都是我干的七冲。我是一名探鬼主播，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼弃舒，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起聋呢，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤苗踪，失蹤者是張志新（化名）和其女友劉穎，沒想到半個(gè)月后削锰，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體通铲，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年器贩，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颅夺。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡蛹稍，死狀恐怖吧黄，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情唆姐，我是刑警寧澤拗慨，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站奉芦，受9級(jí)特大地震影響赵抢，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜声功，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一烦却、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧先巴，春花似錦其爵、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案醋闭，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至朝卒，卻和暖如春证逻，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背抗斤。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國(guó)打工囚企，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人瑞眼。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓龙宏，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親伤疙。傳聞我的和親對(duì)象是個(gè)殘疾皇子银酗，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345

「GNN框架系列」DGL第二講：實(shí)現(xiàn)GNN鏈接預(yù)測(cè)

推薦閱讀更多精彩內(nèi)容