注:內(nèi)容非原創(chuàng),僅作翻譯
原論文地址:https://arxiv.org/abs/1609.02907
摘要:我們提出一個(gè)直接操作圖本身并且基于圖卷積網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)的方法,該方法使用圖結(jié)構(gòu)數(shù)據(jù),它是一種卷積神經(jīng)網(wǎng)絡(luò)的變體瘟忱。我們通過(guò)譜圖卷積的局部一階近似來(lái)激勵(lì)卷積結(jié)構(gòu)的選擇奥额。我們的模型在圖形邊的數(shù)量上是線性擴(kuò)展的,并且學(xué)習(xí)了隱藏層對(duì)局部圖結(jié)構(gòu)和節(jié)點(diǎn)特征進(jìn)行編碼的表示访诱。在“論文的引用網(wǎng)絡(luò)”( citation networks and on a knowledge graph dataset)數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)我們證明我們的方法比相關(guān)的方法有顯著的優(yōu)勢(shì)垫挨。
1. 引言
我們考慮一個(gè)在圖上的(例如引用網(wǎng)絡(luò))節(jié)點(diǎn)分類問(wèn)題(例如文檔),這里的標(biāo)簽只能對(duì)很小的一部分子集可用触菜。這種問(wèn)題可以表示為基于圖的半監(jiān)督學(xué)習(xí)九榔,可以通過(guò)某種形式的顯式的基于圖的正則化來(lái)平滑圖上的標(biāo)簽信息(Zhu等人2003; Zhou等人2004; Belkin 等人2006; Weston等人2012),例如涡相,使用一個(gè)圖拉普拉斯正則化在損失函數(shù)中:
這里的
可以表示為在有標(biāo)簽的部分圖中的監(jiān)督損失哲泊,
是一個(gè)類似于可微分函數(shù)的神經(jīng)網(wǎng)絡(luò),
是一個(gè)權(quán)重因子漾峡,
是由每一個(gè)節(jié)點(diǎn)
的特征向量組成的矩陣攻旦。
表示無(wú)向圖
的未歸一化圖拉普拉斯行列式,
個(gè)節(jié)點(diǎn)表示為
生逸,邊表示為
牢屋,鄰接矩陣表示為
(二進(jìn)制或者加權(quán)值)且预,次數(shù)矩陣
,公式1中的推導(dǎo)依賴于圖中連通節(jié)點(diǎn)共享同一個(gè)標(biāo)簽這一個(gè)假設(shè)烙无。然而锋谐,這種假設(shè)可能會(huì)限制建模能力,因?yàn)閳D的邊不一定要對(duì)節(jié)點(diǎn)相似性進(jìn)行編碼截酷,但可能包含其他信息涮拗。
在該論文中,我們直接使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型對(duì)一個(gè)圖進(jìn)行編碼迂苛,并且有監(jiān)督地使用所有有標(biāo)簽的節(jié)點(diǎn)對(duì)
進(jìn)行訓(xùn)練三热,從而避免顯式地對(duì)基于圖的損失函數(shù)進(jìn)行正則化計(jì)算。在圖的鄰接矩陣上調(diào)節(jié)函數(shù)
將允許模型從監(jiān)督損失
中分開(kāi)梯度信息三幻,并使其能夠?qū)W習(xí)有標(biāo)簽和無(wú)標(biāo)簽節(jié)點(diǎn)的表示就漾。
我們的進(jìn)展是雙重的。首先念搬,我們?yōu)橹苯幼饔糜趫D的神經(jīng)網(wǎng)絡(luò)模型引入了一個(gè)簡(jiǎn)單并且表現(xiàn)良好的分層傳播規(guī)則抑堡,并且展示了它們是如何通過(guò)譜圖卷積的一階近似來(lái)激勵(lì)神經(jīng)網(wǎng)絡(luò)模型。其次朗徊,我們證明并演示了這種基于圖的神經(jīng)網(wǎng)絡(luò)模型如何被用于快速和可擴(kuò)展的半監(jiān)督式節(jié)點(diǎn)分類首妖。大量的實(shí)驗(yàn)表明,我們的模型在時(shí)間效率上都優(yōu)于現(xiàn)有最先進(jìn)的半監(jiān)督學(xué)習(xí)方法爷恳。
2. 圖上快速近似卷積
在這節(jié)有缆,我們提供一個(gè)特定的基于圖的神經(jīng)網(wǎng)絡(luò)模型,該模型將會(huì)在本文的剩余部分進(jìn)行使用温亲。我們考慮一個(gè)使用了如下所示傳播函數(shù)的的多層GCN:
這里的
是一個(gè)添加了自連接的無(wú)向圖
的鄰接矩陣表示妒貌,其中
是一個(gè)單位矩陣,
铸豁,
是一個(gè)可訓(xùn)練的分層權(quán)重矩陣。
是一個(gè)激活函數(shù)菊碟,例如
节芥,
是一個(gè)第
層的激勵(lì)矩陣,
逆害,也就是說(shuō)第一層的激勵(lì)矩陣是每一個(gè)節(jié)點(diǎn)的特征向量構(gòu)成的特征矩陣头镊。在下文中,我們證明了這種傳播規(guī)則的形式可以通過(guò)圖上局部譜濾波器的一階近似來(lái)進(jìn)行激勵(lì)(Hammond等人 2011; Defferrard等人 2016)魄幕。
2.1 卷積譜圖
我們將圖上的譜卷積定義為一個(gè)信號(hào)(一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)標(biāo)量)和一個(gè)過(guò)濾器
的乘積相艇,其中的參數(shù)
為在傅里葉域上的向量,滿足
纯陨。例如:
這里的
是一個(gè)標(biāo)準(zhǔn)化圖拉普拉斯變換
坛芽,其中的
為對(duì)角矩陣特征值留储,運(yùn)算
是
的圖傅里葉變換結(jié)果。我們可以將
理解為一個(gè)關(guān)于
特征值的函數(shù)咙轩,例如:
获讳。驗(yàn)證和計(jì)算公式3是一個(gè)費(fèi)時(shí)費(fèi)力的活兒,因?yàn)楹吞卣飨蛄烤仃?img class="math-inline" src="https://math.jianshu.com/math?formula=U" alt="U" mathimg="1">相乘的復(fù)雜度為
活喊。此外丐膝,對(duì)于大型圖,首先計(jì)算
的特征分解可能非常昂貴(時(shí)間和設(shè)備上)钾菊。為了緩解這個(gè)問(wèn)題(之所以稱為緩解帅矗,是因?yàn)椴](méi)有得到徹底解決),我們可以使用近似表達(dá)式煞烫,下式中的多項(xiàng)式
直到
階:
這里的
浑此,其中的
指的是
的最大特征值,
是一個(gè)切比雪夫系數(shù)向量红竭,切比雪夫多項(xiàng)式遞歸定義為
尤勋,并且滿足初始條件
和
∫鹣埽回到先前的定義最冰,我們可以更新公式為:
其中的
,并且可以得證
稀火,需要注意的是這個(gè)表達(dá)式是
局部的暖哨,因?yàn)樗?img class="math-inline" src="https://math.jianshu.com/math?formula=K" alt="K" mathimg="1">階拉普拉斯多項(xiàng)式,也就是說(shuō)凰狞,它只依賴于離中心節(jié)點(diǎn)(K階領(lǐng)域)最大
步的節(jié)點(diǎn)(什么意思篇裁?),原文如下:
該段原文赡若,沒(méi)看明白所以然
計(jì)算公式5所用到的時(shí)間復(fù)雜度為达布,也就是說(shuō)和邊的數(shù)量是線性關(guān)系。
2.2 Layer-Wise 線性模型
基于圖卷積的神經(jīng)網(wǎng)絡(luò)模型可由公式5的多層卷積層疊加而成逾冬,每層跟隨一個(gè)逐點(diǎn)非線性(point-wise non-linearity)∈蚰簦現(xiàn)在,假設(shè)我們將逐層卷積運(yùn)算限制為(參見(jiàn)公式5)身腻,即一個(gè)線性的
的函數(shù)产还,因此是圖拉普拉斯譜上的一個(gè)線性函數(shù)。
通過(guò)這種方法嘀趟,我們可以保持一種豐富的卷積濾波函數(shù)脐区,但是并不局限于給出的顯式參數(shù)化,例如切比雪夫多項(xiàng)式等她按。我們期待這樣一個(gè)模型能夠解決具有非常寬節(jié)點(diǎn)度分布的圖(例如社交網(wǎng)絡(luò)牛隅、引用網(wǎng)絡(luò)炕柔、知識(shí)圖和許多其他真實(shí)世界的圖數(shù)據(jù)集)的局部領(lǐng)域結(jié)構(gòu)過(guò)擬合問(wèn)題。此外倔叼,這種分層線性模型允許我們構(gòu)建更深入的模型汗唱,這是一種可以提高多個(gè)領(lǐng)域建模能力的實(shí)踐。
在這種情況下丈攒,我們將GCN網(wǎng)絡(luò)進(jìn)一步近似哩罪,神經(jīng)網(wǎng)絡(luò)參數(shù)將會(huì)在大規(guī)模的訓(xùn)練之后達(dá)到這樣預(yù)期的估計(jì)。因此巡验,公式5可以簡(jiǎn)化為:
這里有兩個(gè)自定義的參數(shù)
和
括堤。這個(gè)濾波器可以在整個(gè)圖中共享速侈,這種形式的連續(xù)濾波操作可以對(duì)一個(gè)節(jié)點(diǎn)的
階鄰(k-th)域進(jìn)行卷積操作胁黑,其中
指的是神經(jīng)網(wǎng)絡(luò)模型中連續(xù)濾波操作或者卷積層的數(shù)量涩盾。
在實(shí)踐中,得益于進(jìn)一步限制了參數(shù)的數(shù)量來(lái)處理過(guò)擬合并且最小化每層操作的數(shù)量(例如使用矩陣乘法)捕捂,得到了下面的表達(dá)式:
這里將上述的雙參數(shù)合并為一個(gè)單參數(shù)
瑟枫,需要注意的是
現(xiàn)在的特征值在[0, 2]范圍內(nèi)。因此指攒,在深度神經(jīng)網(wǎng)絡(luò)模型中重復(fù)使用該算子會(huì)導(dǎo)致該數(shù)值不穩(wěn)定和梯度消失慷妙,為了解決這一問(wèn)題,我們引入了再歸一化技巧:
允悦,其中參數(shù)滿足
膝擂。我們可以將這個(gè)定義泛化到信號(hào)
這里的
輸入通道(每個(gè)節(jié)點(diǎn)有
維的特征向量)和
維濾波器的特征映射如下:
這里的
是濾波器參數(shù)矩陣,
是信號(hào)卷積矩陣隙弛。這個(gè)濾波計(jì)算的復(fù)雜度是
架馋,這樣可以有效實(shí)現(xiàn)
稠密矩陣和稀疏矩陣的乘積操作。
3. 半監(jiān)督節(jié)點(diǎn)分類器
通過(guò)介紹一個(gè)簡(jiǎn)單但是靈活的模型可以在圖上進(jìn)行有效信息傳播后全闷,回到半監(jiān)督節(jié)點(diǎn)分類問(wèn)題叉寂。正如在引言中所述,我們可以通過(guò)對(duì)數(shù)據(jù)
和圖結(jié)構(gòu)的底層鄰接矩陣
的模型
進(jìn)行調(diào)整总珠,來(lái)適應(yīng)基于圖的半監(jiān)督學(xué)習(xí)中的某些典型假設(shè)办绝。我們期望這種設(shè)置在鄰接矩陣
中包含但是數(shù)據(jù)
中不包含相關(guān)信息的情況下模型會(huì)很有效,例如引用網(wǎng)絡(luò)中文檔之間的引用鏈接或知識(shí)圖中的關(guān)系姚淆。一個(gè)用于半監(jiān)督學(xué)習(xí)的多層次GCN如下圖1所示。
圖表解釋:輸入通道
和特征映射輸出
進(jìn)行半監(jiān)督學(xué)習(xí)的多層圖卷積網(wǎng)絡(luò)(GCN)的示意圖屡律。圖的結(jié)構(gòu)(以黑線表示的邊)在層之間共享腌逢,標(biāo)簽用
表示。
圖表解釋:隱藏層的可視化展示超埋,在Cora數(shù)據(jù)集上使用5%的標(biāo)簽訓(xùn)練的兩層GCN搏讶,其中的顏色表示文檔類別佳鳖。
3.1 栗子(例子)
下文中,我們考慮一個(gè)兩層的GCN用于半監(jiān)督節(jié)點(diǎn)分類媒惕,其圖上有一個(gè)對(duì)稱的鄰接矩陣(二進(jìn)制或者加權(quán)矩陣)系吩。在每一步進(jìn)行處理的時(shí)候我們首先計(jì)算
作為預(yù)處理步驟。我們的前向模型采用以下簡(jiǎn)形式:
該處的
是一個(gè)輸入層到隱藏層(input-to-hidden)的權(quán)重矩陣妒蔚,輸出的是維度為
的特征映射穿挨。
是一個(gè)隱藏層到輸出層(hidden-to-output)的權(quán)重矩陣。該softmax激活函數(shù)肴盏,定義為
科盛,該函數(shù)應(yīng)用于每一行。對(duì)于半監(jiān)督多類分類器菜皂,我們?cè)u(píng)估所有訓(xùn)練標(biāo)簽的交叉熵誤差:
該處的
是一組有標(biāo)簽的節(jié)點(diǎn)索引目錄贞绵。
和
是使用梯度下降法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)權(quán)值矩陣。在該任務(wù)中恍飘,我們每次訓(xùn)練迭代中使用完整的數(shù)據(jù)集進(jìn)行批量梯度下降榨崩,只要數(shù)據(jù)集能夠在(計(jì)算機(jī))內(nèi)存中存儲(chǔ),這就是一個(gè)可行的選擇章母。矩陣
使用稀疏表示法母蛛,內(nèi)存的需求是
,即和邊的數(shù)量是線性相關(guān)的胳施。訓(xùn)練過(guò)程中的隨機(jī)性是通過(guò)dropout(Srivastava等人 2014)溯祸。在之后的工作中使用小批量隨機(jī)梯度下降法來(lái)增加內(nèi)存效率。
3.2 實(shí)現(xiàn)
在實(shí)踐中舞肆,我們使用了稀疏矩陣乘法和基于GPU版本的TensorFlow對(duì)公式9進(jìn)行了高效的實(shí)現(xiàn)焦辅。可以證明椿胯,公式9的計(jì)算復(fù)雜度為筷登,即和圖中的邊數(shù)有線性關(guān)系。
4. 相關(guān)工作(也稱他山之石哩盲、前人工作)
(不翻)
5. 實(shí)驗(yàn)
我們?cè)跀?shù)個(gè)實(shí)驗(yàn)中檢驗(yàn)該模型:使用引用網(wǎng)絡(luò)數(shù)據(jù)的半監(jiān)督文檔分類器前方,從知識(shí)圖中提取的二分圖的半監(jiān)督實(shí)體分類器,各種圖傳播模型的評(píng)估和隨機(jī)圖的運(yùn)行時(shí)分析廉油。
5.1 數(shù)據(jù)集
我們按照Yang等人(2016)設(shè)置的實(shí)驗(yàn)條件惠险,數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如下表所示:
在引用網(wǎng)絡(luò)數(shù)據(jù)集中——Citeseer、Cora和Pubmed中抒线,節(jié)點(diǎn)是“文檔”班巩,邊是“引用網(wǎng)絡(luò)”。標(biāo)簽比率(Label rate)指的是用來(lái)訓(xùn)練的節(jié)點(diǎn)所占每一個(gè)數(shù)據(jù)集整體的比重嘶炭。NELL是一個(gè)從含有55864個(gè)關(guān)系節(jié)點(diǎn)以及9891個(gè)實(shí)體節(jié)點(diǎn)中提取出來(lái)的二分圖抱慌。
-
Citation networks:我們使用三個(gè)引用網(wǎng)絡(luò)數(shù)據(jù)集(Citeseer逊桦、Cora和Pubmed)。這些數(shù)據(jù)集包含每一個(gè)文檔的稀疏詞庫(kù)模型特征向量抑进,以及每個(gè)文檔之間的引用關(guān)系列表强经。我們將引用關(guān)系表示為無(wú)向圖的邊并且將其構(gòu)建為一個(gè)二分的,對(duì)稱的鄰接矩陣
寺渗。每一個(gè)文檔有一個(gè)對(duì)應(yīng)的標(biāo)簽匿情。訓(xùn)練時(shí),我們僅僅用每一個(gè)類的20個(gè)標(biāo)簽户秤,但是用到了所有的特征向量码秉。
- NELL:在程序中并未見(jiàn)到該數(shù)據(jù)集,不翻鸡号。
- Random graph:在程序中并未見(jiàn)到該數(shù)據(jù)集转砖,不翻。
5.2 實(shí)驗(yàn)設(shè)置
除非特別聲明鲸伴,我們均訓(xùn)練在第3.1節(jié)中所述的兩層的GCN網(wǎng)絡(luò)府蔗,并且在1000個(gè)樣本標(biāo)簽中計(jì)算預(yù)測(cè)分?jǐn)?shù)來(lái)評(píng)估樣本。我們提供了一個(gè)額外的實(shí)驗(yàn)汞窗,使用了更深層次的模型(有10層)姓赤,詳細(xì)內(nèi)容在附錄B中。我們使用了和Yang等人(2016)中相同的數(shù)據(jù)集切片仲吏。并增加了500個(gè)帶標(biāo)記的超參數(shù)優(yōu)化示例驗(yàn)證集(所有層的信號(hào)丟失率(dropout rate)不铆、第一個(gè)GCN層的正則化因子和隱藏單元的數(shù)量)。在訓(xùn)練數(shù)據(jù)過(guò)程中不使用驗(yàn)證集裹唆。
對(duì)于引用網(wǎng)絡(luò)數(shù)據(jù)集誓斥,我們只在Cora數(shù)據(jù)集上優(yōu)化超參數(shù),并且使用相同的參數(shù)集在Citeseer和Pubmed上许帐。對(duì)所有模型進(jìn)行200次迭代(epoch)劳坑,并使用設(shè)置為0.01學(xué)習(xí)速率的Adam優(yōu)化算法來(lái)對(duì)模型進(jìn)行訓(xùn)練。當(dāng)訓(xùn)練窗口為10的時(shí)候提前停止訓(xùn)練(即驗(yàn)證損失值連續(xù)10個(gè)迭代(epoch)都沒(méi)有減少的話成畦,我們就停止訓(xùn)練)距芬。對(duì)于初始值,我們使用Glorot和Bengio(2010)中提到的初始化方法進(jìn)行初始化循帐,并相應(yīng)地對(duì)輸入特征向量進(jìn)行歸一化(行方向上)框仔,在隨機(jī)圖數(shù)據(jù)集上,我們使用了32個(gè)單位地隱層大小拄养,并且省略了正則化(即既沒(méi)有dropout也沒(méi)有進(jìn)行正則化的項(xiàng))存和。
5.3 基準(zhǔn)
我們與Yang等人(2016)相同的基線方法進(jìn)行了比較,即標(biāo)簽傳播
(LP) (Zhu等人2003),半監(jiān)督嵌入(SemiEmb) (Weston等人2012)捐腿,manifold正則化(ManiReg) (Belkin等人2006)和基于跳躍圖嵌入(DeepWalk)(Perozzi等人2014)。我們省略了TSVM (Joachims, 1999)柿顶,因?yàn)樗荒軘U(kuò)展到一個(gè)含有大量類別的數(shù)據(jù)集中茄袖。
我們進(jìn)一步對(duì)比了Lu和Getoor(2003)提出的迭代分類算法(ICA),并結(jié)合兩個(gè)邏輯回歸分類器嘁锯,一個(gè)用于單獨(dú)的局部節(jié)點(diǎn)特征宪祥,另一個(gè)用于使用局部特征和Sen等人(2008)描述的聚合操作符進(jìn)行關(guān)系分類。我們首先使用所有標(biāo)記的訓(xùn)練集節(jié)點(diǎn)訓(xùn)練本地分類器家乘,并使用它引導(dǎo)未標(biāo)記節(jié)點(diǎn)的類標(biāo)簽進(jìn)行關(guān)系分類器訓(xùn)練蝗羊。我們?cè)谒形礃?biāo)記的節(jié)點(diǎn)上(使用本地分類器引導(dǎo))以隨機(jī)節(jié)點(diǎn)順序運(yùn)行迭代分類(關(guān)系分類器),進(jìn)行10次迭代仁锯。正則化參數(shù)和聚合操作符(count vs. prop耀找,參見(jiàn)Sen等人(2008))分別根據(jù)每個(gè)數(shù)據(jù)集的驗(yàn)證集性能進(jìn)行選擇。
最后业崖,我們比較了Planetoid(Yang等人2016)的結(jié)果野芒,我們總是選擇表現(xiàn)最好的模型變體(轉(zhuǎn)導(dǎo)型和誘導(dǎo)型)作為基準(zhǔn)。
6. 結(jié)果
6.1 半監(jiān)督節(jié)點(diǎn)分類
結(jié)果匯總在下表中双炕,表中的數(shù)字代表了分類得分比值狞悲,對(duì)于ICA,我們選擇展示其100次隨機(jī)節(jié)點(diǎn)排序運(yùn)行結(jié)果的平均值妇斤。對(duì)于其他結(jié)果而言摇锋,基準(zhǔn)方法是取自Planetoid(Yang等人2016)論文。Planetoid*表示在他們的論文中給出的變量針對(duì)各數(shù)據(jù)集有最佳模型站超。
在我們的方法(包括驗(yàn)證誤差的評(píng)估)和Planetoid的方法中荸恕,我們以秒為單位控制訓(xùn)練時(shí)間,直到收斂顷编。對(duì)于后者戚炫,我們使用了由第三位作者https://github.com/kimiyoung/planetoid提供的實(shí)現(xiàn),并在與我們的GCN模型相同的硬件(使用GPU)上進(jìn)行了訓(xùn)練媳纬。我們?cè)谂cYang等人(2016)相同的數(shù)據(jù)集切片上訓(xùn)練和測(cè)試了我們的模型双肤,并報(bào)告了使用隨機(jī)權(quán)重初始化的100次運(yùn)行的平均準(zhǔn)確性。我們對(duì)Citeseer钮惠、Cora和Pubmed使用了以下超參數(shù)集:0.5(dropout rate)茅糜、(正則化)和16(隱藏單元數(shù)目);對(duì)于NELL而言: 0.1(dropout rate), (正則化)和64(隱藏單元數(shù)目)素挽。
此外蔑赘,我們報(bào)告了我們的模型在10個(gè)隨機(jī)產(chǎn)生的數(shù)據(jù)集上的性能,這些數(shù)據(jù)集的大小與Yang等人(2016)的數(shù)據(jù)集大小相同,用GCN 表示缩赛。在這里耙箍,我們報(bào)告的平均和標(biāo)準(zhǔn)誤差的預(yù)測(cè)精度的測(cè)試集的百分比。
6.2 傳播模型評(píng)價(jià)
(不翻)
6.3 每批次的訓(xùn)練時(shí)間
(不屬于研究?jī)?nèi)容酥馍,不翻)
7. 討論(不翻)
7.1 半監(jiān)督模型
7.2 局限性和展望
8. 結(jié)論
提出了一種新的半監(jiān)督分類方法辩昆。我們的GCN模型使用了一種有效的分層傳播規(guī)則,該規(guī)則基于圖上譜卷積的一階近似旨袒。在大量網(wǎng)絡(luò)數(shù)據(jù)集上的實(shí)驗(yàn)表明汁针,所提出的GCN模型能夠?qū)D結(jié)構(gòu)和節(jié)點(diǎn)特征進(jìn)行編碼,這對(duì)半監(jiān)督分類是有用的砚尽。在這種情況下施无,我們的模型在計(jì)算效率上大大優(yōu)于最近提出的幾種方法。