論文 | 圖網(wǎng)絡(luò)理論之AGCN

文 | 全世界最乖巧的小豬

Adaptive Graph Convolutional Neural Networks

這是一篇研究自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò)的論文灵份,由來自德州大學(xué)阿靈頓分校和騰訊的作者發(fā)表于AAAI2018悴能,下載地址:Adaptive Graph Convolutional Neural Networks

摘要

圖卷積網(wǎng)絡(luò)(Graph CNNs)是可以作用在圖結(jié)構(gòu)數(shù)據(jù)(如分子,點(diǎn)云各薇,社交網(wǎng)絡(luò)等)上的卷積神經(jīng)網(wǎng)絡(luò)。目前圖卷積網(wǎng)絡(luò)中的卷積核適用于固定且共享的圖結(jié)構(gòu)。然而请唱,對于大多數(shù)實(shí)際數(shù)據(jù)而言心肪,圖結(jié)構(gòu)在尺寸大小和連接方式上都是不一樣的锭亏。本文提出了一種廣義并且靈活的圖卷積網(wǎng)絡(luò),可以將任意圖結(jié)構(gòu)數(shù)據(jù)作為輸入硬鞍。如此一來慧瘤,一種任務(wù)驅(qū)動的適應(yīng)性圖就會在訓(xùn)練過程中被學(xué)習(xí)到。為了有效地學(xué)習(xí)圖固该,本文提出了一種距離度量學(xué)習(xí)锅减。實(shí)驗(yàn)做得不錯!

1 文章簡介

在許多實(shí)際問題中伐坏,數(shù)據(jù)是在非歐域中的怔匣,比如化學(xué)分子,點(diǎn)云桦沉,社交網(wǎng)絡(luò)等每瞒。這些數(shù)據(jù)用圖來表示比張量表示更為合適金闽。所以需要可作用在圖結(jié)構(gòu)上的卷積神經(jīng)網(wǎng)絡(luò)。

前人工作的不足之處:

1. 早期圖CNN的缺點(diǎn):數(shù)據(jù)低維剿骨,卷積核過于局部化代芜,無法從復(fù)雜圖中學(xué)習(xí)層次表示。

2. 某些情況下懦砂,比如點(diǎn)云分類蜒犯,圖的拓?fù)浣Y(jié)構(gòu)比結(jié)點(diǎn)特征包含更大的信息量。現(xiàn)存圖CNN的缺點(diǎn):無法充分利用圖的幾何性質(zhì)荞膘,因?yàn)楹茈y設(shè)計能夠匹配不同數(shù)量鄰居的參數(shù)化空間核罚随。此外,考慮到圖的靈活性和參數(shù)的規(guī)模羽资,為每一個獨(dú)特的圖學(xué)習(xí)一個定制的保留拓?fù)浣Y(jié)構(gòu)的空間核是不切實(shí)際的淘菩。

3. 現(xiàn)存圖CNN的缺點(diǎn):共享卷積核。為了保證層輸出的統(tǒng)一維數(shù)屠升,必須調(diào)整輸入的大小潮改。然而,這種對圖數(shù)據(jù)的預(yù)處理可能會破壞信息的完整性腹暖。如果圖CNN能夠接受不同圖結(jié)構(gòu)的原始數(shù)據(jù)樣本就好了汇在。

4. 輸入到圖CNN的數(shù)據(jù)要么有固有的圖結(jié)構(gòu),要么通過聚類人為構(gòu)建脏答。在之前的圖CNN中糕殉,初始圖結(jié)構(gòu)在整個訓(xùn)練過程中是被固定的。然而殖告,很難去評估這個通過無監(jiān)督聚類(或領(lǐng)域知識)得到的圖結(jié)構(gòu)對于監(jiān)督學(xué)習(xí)任務(wù)是否是最優(yōu)的阿蝶。盡管利用全連接網(wǎng)絡(luò)的有監(jiān)督圖構(gòu)建已經(jīng)被提出,他們的密集訓(xùn)練權(quán)重限制了圖只能是小圖黄绩。此外羡洁,由另一個獨(dú)立網(wǎng)絡(luò)學(xué)習(xí)得到的圖結(jié)構(gòu)并不能保證最適合圖卷積。

總結(jié)爽丹,目前graph CNN的瓶頸包括:

1. 限制圖的度筑煮;

2. 無法從拓?fù)浣Y(jié)構(gòu)中學(xué)習(xí);

3. 要求輸入之間共享相同的圖結(jié)構(gòu)习劫;

4. 不訓(xùn)練的固定圖構(gòu)建咆瘟。

本文提出了一個新的譜圖卷積網(wǎng)絡(luò),可以接收不同圖結(jié)構(gòu)的原數(shù)據(jù)诽里,比如由不同數(shù)量的苯環(huán)組成的有機(jī)分子袒餐。給batch里每個樣本一個定制的圖Laplacian?來客觀地描述它獨(dú)有的拓?fù)浣Y(jié)構(gòu)。定制的圖Laplacian將引出一個定制的譜卷積核,根據(jù)獨(dú)有的圖拓?fù)浣Y(jié)構(gòu)來綜合鄰居特征灸眼。

到底什么樣的圖結(jié)構(gòu)最適合一個監(jiān)督學(xué)習(xí)任務(wù)呢卧檐?比如,化合物中的化學(xué)鍵自然地構(gòu)成一個固有圖焰宣。然而霉囚,沒人保證在固有圖中工作的卷積核提取出了所有有意義的信息。因此匕积,本文訓(xùn)練了殘差圖(residual graph)來探索固有圖中沒有包括的剩余子結(jié)構(gòu)盈罐。此外,為了保證殘差圖是對特定任務(wù)的最佳補(bǔ)充闪唆,本文設(shè)計了一種方案來學(xué)習(xí)殘差圖盅粪。

直接學(xué)習(xí)圖Laplacian花費(fèi)O(N^2)復(fù)雜度,N個結(jié)點(diǎn)悄蕾。實(shí)現(xiàn)M個訓(xùn)練樣本獨(dú)有的圖拓?fù)浣Y(jié)構(gòu)表示學(xué)習(xí)M個獨(dú)有的圖Laplacian票顾,太費(fèi)勁了!如果利用Mahalanobis距離作為一個監(jiān)督度量學(xué)習(xí)帆调,就可以減少參數(shù)量奠骄,假定度量的參數(shù)是樣本之間共享的。作為結(jié)果番刊,學(xué)習(xí)復(fù)雜度就會和圖大小N無關(guān)含鳞。在傳統(tǒng)CNN中,反向傳播逐漸更新卷積核權(quán)重芹务,分別調(diào)整每個特征維度上相鄰節(jié)點(diǎn)之間的關(guān)系民晒。然后將所有卷積核的信號相加來構(gòu)造隱藏層激活。為了讓圖CNN也能實(shí)現(xiàn)相同的能力锄禽,本文提出了重參數(shù)化,在特征域上加個轉(zhuǎn)換權(quán)重和偏置靴姿。最后沃但,卷積層里全部的訓(xùn)練參數(shù)包括:距離度量,結(jié)點(diǎn)特征轉(zhuǎn)換權(quán)重和偏置佛吓。給定了訓(xùn)練好的度量和轉(zhuǎn)換好的特征空間宵晚,更新的殘差圖就可以構(gòu)建了。

本文圖CNN的創(chuàng)新點(diǎn):

1. 構(gòu)建獨(dú)有的圖Laplacian:構(gòu)建并學(xué)習(xí)batch中每個獨(dú)立樣本獨(dú)有的殘差Laplacian?矩陣维雇,學(xué)習(xí)到的殘差圖Laplacian?將會被加到初始圖中(聚類得到的或固有圖)淤刃。

2. 學(xué)習(xí)圖更新的距離度量:通過學(xué)習(xí)數(shù)據(jù)共享的最優(yōu)距離度量參數(shù),隨著預(yù)測網(wǎng)絡(luò)的訓(xùn)練吱型,拓?fù)浣Y(jié)構(gòu)被更新逸贾。學(xué)習(xí)復(fù)雜度O(d^2)和尺寸無關(guān)。

3. 卷積中的特征嵌入:結(jié)點(diǎn)特征的轉(zhuǎn)換是在卷積連接intra-(類內(nèi))和inter-(類間)結(jié)點(diǎn)特征之前完成的。

4. 接受靈活的圖輸入:由于1和2铝侵,本網(wǎng)絡(luò)可以輸入不同的圖結(jié)構(gòu)和尺寸灼伤,解鎖了圖的度。

2 相關(guān)工作

2.1 譜圖卷積

2.2 分子圖神經(jīng)網(wǎng)絡(luò)

3 方法

3.1 SGC-LL層

為了使譜卷積核在不同的圖拓?fù)渲姓嬲尚羞湎剩疚膶嚯x度量進(jìn)行參數(shù)化狐赡,使圖Laplacian函數(shù)本身成為可訓(xùn)練的。利用訓(xùn)練后的度量疟丙,動態(tài)地構(gòu)造不同形狀和大小的輸入樣本的獨(dú)有圖颖侄。一種新的層利用自適應(yīng)圖構(gòu)造的K-局域卷積核進(jìn)行卷積。同時享郊,對樣本的圖拓?fù)浣Y(jié)構(gòu)進(jìn)行了更新览祖,使訓(xùn)練損失最小化。新的具有圖Laplacian學(xué)習(xí)的譜圖卷積層稱為SGC-LL拂蝎。本節(jié)將介紹SGC-LL層的創(chuàng)新點(diǎn)穴墅。

3.1.1 學(xué)習(xí)圖Laplacian

此處跳過我們都知道的圖卷積的介紹,直接來到譜卷積核的k階多項(xiàng)式:

g_\theta(\Lambda )=\sum_{k=0}^{K-1}\theta_k\Lambda^k

這限制了卷積核的靈活性温自。更重要的是玄货,兩個結(jié)點(diǎn)之間的相似度是由所采取的距離度量和特征域決定的。因此悼泌,很有可能兩個相連結(jié)點(diǎn)之間的相似度比不相連的相似度要低松捉,因此圖結(jié)構(gòu)不是最優(yōu)的」堇铮可能有兩個原因:

1. 圖是在特征提取和轉(zhuǎn)換之前的原始特征域上構(gòu)建的隘世。

2. 圖拓?fù)浣Y(jié)構(gòu)是固有的,它僅僅表示物理連接鸠踪,如分子中的化學(xué)鍵丙者。

為了打破這些限制,提出新的譜核营密,參數(shù)化Laplacian L來代替系數(shù)械媒。給定原始Laplacian L,特征X和參數(shù)\Gamma 评汰,函數(shù)F(L,X,\Gamma)輸出更新后的L譜纷捞,卷積核表示為:

g_\theta(\Lambda)=\sum_{k=0}^{K-1}(F(L,X,\Gamma))^k

*這里的函數(shù)F就是后面那些步驟的抽象表示。

最后被去,SGC-LL層表示為:

Y=Ug_\theta(\Lambda)U^TX=U\sum_{k=0}^{K-1}(F(L,X,\Gamma))^kU^TX? ? ?(5)

用切比雪夫展開來計算k階多項(xiàng)式T_k(\tilde{L})X.

3.1.2 訓(xùn)練圖更新的度量

在圖結(jié)構(gòu)數(shù)據(jù)中主儡,歐式距離就不好用了。這里的距離度量應(yīng)該在訓(xùn)練中根據(jù)任務(wù)和特征可以隨機(jī)應(yīng)變惨缆。在度量學(xué)習(xí)文章中糜值,算法分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)丰捷。由無監(jiān)督方法獲得的最好的度量能夠最小化類內(nèi)距,最大化類間距臀玄。對于有監(jiān)督學(xué)習(xí)瓢阴,目標(biāo)是要找到能夠最小化損失函數(shù)的度量。

此時健无,廣義mahalanobis距離隆重登場荣恐。x_ix_j之間的廣義mahalanobis距離表示為:

D(x_i,x_j)=\sqrt{(x_i-x_j)^TM(x_i-x_j)} ? ? ?(6)

如果M=I,則退化為歐式距離累贤。在本文模型中叠穆,對稱半正定矩陣M=W_dW_d^T,其中W_d是SGCLL層中可訓(xùn)練的權(quán)重之一(SGCLL層只有三個可訓(xùn)練權(quán)重:這里的M(W_d),重參數(shù)化里的W,b)臼膏,相當(dāng)于轉(zhuǎn)換到了可以計算x_i,x_j歐式距離的空間硼被。然后,用距離計算高斯核:

G_{x_i,x_j}=\exp{(-D(x_i,x_j)/(2\sigma^2))}? ? ?(7)

歸一化G之后渗磅,得到密集鄰接矩陣\hat{A} 嚷硫。在模型中,最優(yōu)度量\hat{W}_d 能夠建立最優(yōu)的圖Laplacian集\hat{L} 始鱼,使得預(yù)測損失最小化仔掸。

3.1.3 特征轉(zhuǎn)換重參數(shù)化

為了建立類內(nèi)和類間結(jié)點(diǎn)特征映射,在SGC-LL層中医清,引入轉(zhuǎn)換矩陣和轉(zhuǎn)置向量應(yīng)用到輸出特征上起暮。基于式5会烙,輸出特征重參數(shù)化表示為:

Y=(Ug_\theta(\Lambda)U^TX)W+b? ? ? (8)

總之负懦,在每個SGC-LL層,參數(shù){M_i,W_i,b_i}具有O(d_id_{i-1})的學(xué)習(xí)復(fù)雜度柏腻,與圖的大小和度無關(guān)纸厉。在下一個SGC-LL層,譜卷積核將會在不同度量的另一個特征域上建立五嫂。

3.1.4 殘差圖Laplacian

大多數(shù)數(shù)據(jù)沒有天然的圖結(jié)構(gòu)残腌,所以在送入網(wǎng)絡(luò)之前要給他們構(gòu)造一個圖結(jié)構(gòu),最常見的情況就是圖是用無監(jiān)督方法構(gòu)造的贫导,不能有效地對特定任務(wù)表達(dá)全部有意義的拓?fù)浣Y(jié)構(gòu)。以化合物為例蟆盹,由SMILES序列給出的固有圖無法表達(dá)出與其毒性有關(guān)的任何信息孩灯,僅靠固有圖,很難學(xué)到關(guān)于毒性的有意義的表達(dá)逾滥。

由于沒有距離度量的先驗(yàn)知識峰档,M隨機(jī)初始化败匹,可能收斂很慢。為了加速訓(xùn)練過程并且提高學(xué)習(xí)到的圖結(jié)構(gòu)的穩(wěn)定性讥巡,本文提出合理的假設(shè)掀亩,最優(yōu)圖Laplacian \hat{L} 是最初L的一個小變換:\hat{L} =L+\alpha L_{res}.

換句話說,最初的L已經(jīng)包括了大量的有用圖結(jié)構(gòu)信息欢顷,但不包括那些由虛擬結(jié)點(diǎn)連接組成的子結(jié)構(gòu)槽棍,這些虛擬結(jié)點(diǎn)連接不能直接從固有圖中學(xué)習(xí)到。因此抬驴,本文就學(xué)殘差圖LaplacianL_{res}(i)=L(M_i,X) ?(i表示第i個sample).SGC-LL層完整操作如算法1所示:

3.2 AGCN網(wǎng)絡(luò)

該網(wǎng)絡(luò)被稱為自適應(yīng)圖卷積網(wǎng)絡(luò)(AGCN)炼七,因?yàn)镾GC-LL層能夠根據(jù)數(shù)據(jù)和學(xué)習(xí)任務(wù)的上下文有效地學(xué)習(xí)自適應(yīng)圖拓?fù)浣Y(jié)構(gòu)。除SGC-LL層外布持,AGCN還具有Graph Max Pooling層和Graph Gather層豌拙。

3.2.1 Graph Max Pooling層

對于第v個結(jié)點(diǎn)特征x_v,pooling將第j維特征x_v(j) 替換成它的鄰居結(jié)點(diǎn)和它自己的第j維特征中的最大值题暖。N(v)是v的鄰居結(jié)點(diǎn)按傅,則v的新特征為

\hat{x}_v(j)=\max (\{x_v(j),x_i(j),\forall i\in N(v)\})

3.2.2 Graph Gather層

將所有結(jié)點(diǎn)特征逐元素相加作為圖表示,用作graph-level的預(yù)測胧卤。不加Graph Gather層可作vertex-wise預(yù)測唯绍。

3.2.3 雙邊卷積核

作用是防止過擬合。通過增強(qiáng)L的空間局部性灌侣,正則化SGC-LL的激活 推捐。還用了BN層加速訓(xùn)練。

*空間局部性(Spatial Locality):在最近的將來將用到的信息很可能與現(xiàn)在正在使用的信息在空間地址上是臨近的侧啼。(如果一個存儲器的位置被引用牛柒,那么將來他附近的位置也會被引用。)

3.2.4 網(wǎng)絡(luò)配置

AGCN包含了很多連續(xù)的組合層痊乾,其中的核心層就是SGC-LL.?一個組合層由一個SGC-LL層皮壁、一個BN層、一個Graph Max Pooling?層構(gòu)成哪审。殘差圖Laplacian就是在每個SGC_LL中被訓(xùn)練蛾魄,在Max Pooling中,適應(yīng)圖(固有圖+殘差圖)被再次使用直到下一個SGC-LL湿滓,因?yàn)镾GC-LL會做特征變換滴须,所以下一個SGC-LL需要重新訓(xùn)練一個新的殘差圖。

經(jīng)過一個組合層叽奥,圖結(jié)構(gòu)就被更新了扔水,但圖大小保持不變。任何的圖粗燥化或者特征平均都會破壞具有有用信息的圖局部結(jié)構(gòu)的完整性朝氓,所以用了Max Pooling并且不在卷積中跳過任何結(jié)點(diǎn)魔市。測試是graph-wise?預(yù)測任務(wù)主届。

圖3 AGCN網(wǎng)絡(luò)結(jié)構(gòu)配置

3.3 不同圖的batch訓(xùn)練

將卷積運(yùn)用到圖結(jié)構(gòu)數(shù)據(jù)中的一個巨大挑戰(zhàn)就是要匹配訓(xùn)練樣本的不同局部拓?fù)浣Y(jié)構(gòu):1)造成了設(shè)計卷積核的額外困難,因?yàn)榫矸e核的不變性不適用于圖待德,結(jié)點(diǎn)索引(node indexing)有時很重要君丁;2)調(diào)整圖的大小或重塑圖對一些數(shù)據(jù)來說不合理,比如分子将宪。不同于圖像和視頻在張量上運(yùn)用傳統(tǒng)卷積绘闷,不同拓?fù)浣Y(jié)構(gòu)的兼容性對于圖卷積而言非常有必要。這里提出的SGC-LL層訓(xùn)練獨(dú)立的圖Laplacian涧偷,可以適應(yīng)所有數(shù)據(jù)的局部拓?fù)浣Y(jié)構(gòu)簸喂。由于作者發(fā)現(xiàn),正是特征空間和距離度量在構(gòu)建圖結(jié)構(gòu)中起到重要作用燎潮,SGC-LL層僅需要batch里的所有樣本去共享相同的轉(zhuǎn)換矩陣和距離矩陣喻鳄。此外,訓(xùn)練參數(shù)僅取決于特征維數(shù)确封。因此除呵,AGCN接受訓(xùn)練batch包含不同的拓?fù)浣Y(jié)構(gòu)和大小的原圖結(jié)構(gòu)數(shù)據(jù)樣本。注意爪喘,附加內(nèi)存消耗會被初始圖Laplacian所帶來颜曾,需要在訓(xùn)練之前構(gòu)建,并且仍然需要保留它們來更新核秉剑,然而泛豪,這是可接受的因?yàn)閳DLaplacian通常是稀疏的。

4 實(shí)驗(yàn)

實(shí)驗(yàn)比較了AGCN網(wǎng)絡(luò)和一些state-of-the-art的圖CNN:graphconv, NFP, GCN.?實(shí)驗(yàn)結(jié)果表明侦鹏,AGCN比所有現(xiàn)存的圖CNN表現(xiàn)的都好诡曙,并且解釋了SGC-LL層是如何增強(qiáng)效果的。

4.1 SGC-LL層增強(qiáng)效果

圖4?C20N2O5S(丙硫克百威)結(jié)點(diǎn)28×28相似矩陣的兩個熱圖

SGC-LL層中的譜卷積核建立在自適應(yīng)圖上略水,包括個體圖(individual graph)和殘差圖(residual graph)价卤,個體圖是由數(shù)據(jù)本身直接得到的固有圖,或是由聚類得到的渊涝,個體圖使得網(wǎng)絡(luò)能夠讀取不同結(jié)構(gòu)的數(shù)據(jù)慎璧。此外,圖將在訓(xùn)練過程中被更新跨释,因此網(wǎng)絡(luò)被訓(xùn)練來對訓(xùn)練數(shù)據(jù)優(yōu)化距離度量和特征轉(zhuǎn)換胸私。實(shí)驗(yàn)表明,更新圖和網(wǎng)絡(luò)表現(xiàn)密切相關(guān)。圖4中,如果放大來看废士,很容易發(fā)現(xiàn)20個epoch之后結(jié)點(diǎn)相似度的明顯不同媒抠。這意味著化合物經(jīng)過訓(xùn)練后圖結(jié)構(gòu)的距離度量被更新了五续。同時,加權(quán)l(xiāng)2損失在前20個epoch中驟然下降龄恋,平均RMSE也一樣疙驾。此外,RMSE和loss曲線證明了AGCN(紅線)在收斂速度和預(yù)測準(zhǔn)確度方面都力壓其他圖CNN(圖5)郭毕。這主要?dú)w功于適應(yīng)性圖和SGC-LL層中殘差Laplacian?的學(xué)習(xí)它碎。

圖5 (1)訓(xùn)練損失;(2)Delaney數(shù)據(jù)集上溶解度值預(yù)測的RMSE評分

4.2?分子數(shù)據(jù)集的多任務(wù)預(yù)測

Delany數(shù)據(jù)集包括1144種低分子化合物的水溶性數(shù)據(jù)显押。數(shù)據(jù)集中最大的化合物有492個原子扳肛,最小的僅有3個原子。NCI數(shù)據(jù)集包括20000種化合物和60個預(yù)測任務(wù)乘碑,從藥物反應(yīng)試驗(yàn)到臨床藥理學(xué)研究挖息。Az-logD數(shù)據(jù)集提供4200種化合物滲透性的logD測量。此外兽肤,還有一個包括642種化合物的小數(shù)據(jù)集用來進(jìn)行水化自由能研究套腹。所提出的任務(wù)平均RMSE評分和標(biāo)準(zhǔn)差在5倍交叉驗(yàn)證后得到。

Tox21數(shù)據(jù)集包括7950種化學(xué)化合物和12次實(shí)驗(yàn)的毒性分類標(biāo)簽资铡。然而电禀,額外的困難來自于這12次任務(wù)中有部分標(biāo)簽遺失,對于遺失標(biāo)簽的數(shù)據(jù)笤休,不對它們計算loss尖飞,但仍放在訓(xùn)練集中。ClinTox是一個公開數(shù)據(jù)集店雅,包括1451種用于臨床毒理學(xué)研究的化合物以及兩個任務(wù)的標(biāo)簽政基。Sider數(shù)據(jù)集記錄了1392種藥物和它們27種不同的副作用或不良反應(yīng)。Toxcast是另一個毒理學(xué)研究數(shù)據(jù)集底洗,包含8599簡化分子線性輸入規(guī)范SMILES和617個預(yù)測任務(wù)的標(biāo)簽腋么。對于N任務(wù)預(yù)測,網(wǎng)絡(luò)圖模型將成為具有n個葉節(jié)點(diǎn)的k元樹的模擬模型亥揖,每個葉節(jié)點(diǎn)由一個全連接層和一個邏輯回歸組成珊擂。

為證明AGCN的優(yōu)勢,實(shí)驗(yàn)比較了它和其他三個state-of-the-art圖CNN模型:第一個譜圖CNN(graphconv)(基于樣條插值)费变,K-局域譜核的擴(kuò)展(GCN)摧扇,神經(jīng)指紋——分子的尖端神經(jīng)網(wǎng)絡(luò)(NFP)。表1中挚歧,AGCN在Delaney數(shù)據(jù)集上將平均RMSE降低了31%-40%扛稽,在az_logd上平均降低了15%,在NCI測試集上平均降低了2%-4%滑负。在數(shù)據(jù)較短(short)的情況下在张,對隱藏結(jié)構(gòu)的自適應(yīng)圖和剩余Laplacian學(xué)習(xí)更有用用含。根據(jù)表2中的多任務(wù)分類結(jié)果,注意到帮匾,AGCN顯著提高了小數(shù)據(jù)集和大數(shù)據(jù)集的準(zhǔn)確性啄骇。對于617個toxcast任務(wù),與現(xiàn)有技術(shù)相比瘟斜,分級機(jī)的性能平均提高了3%(0.03)缸夹。

表1 各數(shù)據(jù)集RMSE均值與標(biāo)準(zhǔn)差
表2 任務(wù)平均ROC-AUC分?jǐn)?shù)

分子圖,直接由化學(xué)式給出螺句,是化合物數(shù)據(jù)的固有圖虽惭。它們在拓?fù)浣Y(jié)構(gòu)和圖的大小方面都高度不一致。(這里跳過解釋graphconv和GCN不足之處……)

這里夸一夸本文的AGCN:AGCN可以更好地處理分子數(shù)據(jù)蛇尚。自適應(yīng)圖允許輸入樣本有獨(dú)特的圖Laplacian芽唇,所以每種化合物實(shí)際上都有根據(jù)其拓?fù)浣Y(jié)構(gòu)來定制的獨(dú)特卷積核。有了這種能力佣蓉,我們可以喂給網(wǎng)絡(luò)原始數(shù)據(jù)(原子/邊特征披摄,分子圖),沒有任何的信息丟失勇凭。此外疚膊,SGC-LL層訓(xùn)練距離度量,和其他轉(zhuǎn)換參數(shù)一起最小化指定任務(wù)的預(yù)測損失虾标。因此寓盗,收斂時,在每層SGC-LL璧函,我們可以找到最優(yōu)特征空間和距離度量去建立最合適該任務(wù)的圖結(jié)構(gòu)傀蚌,這種學(xué)習(xí)到的圖可能包括原來分子圖中不存在的新的邊。

4.3 點(diǎn)云物體分類

悉尼城市點(diǎn)云數(shù)據(jù)集包含了631個街景掃描物體蘸吓,共26個種類善炫。由于物體的實(shí)際尺寸和形狀不同,掃描物體的接收點(diǎn)個數(shù)也不同库继。(自行車:124個點(diǎn)箩艺,卡車:615個點(diǎn),行人:78個點(diǎn))

以前的CNN模型在輸入點(diǎn)集之前需要通過下采樣來統(tǒng)一尺寸宪萄,這會損失部分結(jié)構(gòu)信息艺谆。而AGCN克服了這種缺點(diǎn),可以接受不同尺寸的原始點(diǎn)集拜英。以前的圖卷積共享一個卷積核静汤,但是它可能會混合點(diǎn)上的特征,無視實(shí)際距離。而AGCN可以根據(jù)空間關(guān)系準(zhǔn)確地做卷積虫给。點(diǎn)云的初始圖由層次聚類方法建立藤抡,目前點(diǎn)云識別最前沿的方法PointNet也無法處理不同尺寸的點(diǎn)云數(shù)據(jù)。

5次交叉驗(yàn)證后抹估,在包含200個樣本的測試集上計算平均AUC-ROC得分杰捂,從表3中可以看出AGCN在所有樣本平均得分上比其他圖CNN高3-6%。對于大物體如建筑棋蚌,AUC得分接近1,其他網(wǎng)絡(luò)表現(xiàn)差因此他們首先把圖結(jié)構(gòu)變粗糙了挨队。對于重要的道路物體比如信號燈谷暮,AGCN也提升了10%的ROC-AUC分類準(zhǔn)確率。這有效說明AGCN能夠提取到更有意義的特征盛垦。輸入到AGCN的數(shù)據(jù)的信息完整性也有助于提高性能湿弦,這歸功于在SGC-LL層上構(gòu)造和學(xué)習(xí)的自適應(yīng)圖。

表3 測試集平均AUC-ROC得分

5 結(jié)論

本文提出了一種新的頻譜圖卷積器(SGC-LL)與自適應(yīng)圖一起工作腾夯。SGC-LL通過學(xué)習(xí)最優(yōu)度量和特征轉(zhuǎn)換形式來學(xué)習(xí)殘差圖Laplacian颊埃。據(jù)我們所知,AGCN是第一個接受任意圖結(jié)構(gòu)和大小的數(shù)據(jù)的圖CNN蝶俱。殘差Laplacian函數(shù)的監(jiān)督訓(xùn)練驅(qū)動模型更好地適應(yīng)預(yù)測任務(wù)班利。對各種圖形結(jié)構(gòu)數(shù)據(jù)進(jìn)行的大量多任務(wù)學(xué)習(xí)實(shí)驗(yàn)表明,在各種預(yù)測任務(wù)上榨呆,AGCN優(yōu)于最先進(jìn)的圖CNN模型罗标。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市积蜻,隨后出現(xiàn)的幾起案子闯割,更是在濱河造成了極大的恐慌,老刑警劉巖竿拆,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宙拉,死亡現(xiàn)場離奇詭異,居然都是意外死亡丙笋,警方通過查閱死者的電腦和手機(jī)谢澈,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來不见,“玉大人澳化,你說我怎么就攤上這事∥人保” “怎么了缎谷?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我列林,道長瑞你,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任希痴,我火速辦了婚禮者甲,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘砌创。我一直安慰自己虏缸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布嫩实。 她就那樣靜靜地躺著刽辙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪甲献。 梳的紋絲不亂的頭發(fā)上宰缤,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天,我揣著相機(jī)與錄音晃洒,去河邊找鬼慨灭。 笑死,一個胖子當(dāng)著我的面吹牛球及,可吹牛的內(nèi)容都是我干的氧骤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼吃引,長吁一口氣:“原來是場噩夢啊……” “哼语淘!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起际歼,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤惶翻,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后鹅心,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吕粗,經(jīng)...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年旭愧,在試婚紗的時候發(fā)現(xiàn)自己被綠了颅筋。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,444評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡输枯,死狀恐怖议泵,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情桃熄,我是刑警寧澤先口,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響碉京,放射性物質(zhì)發(fā)生泄漏厢汹。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一谐宙、第九天 我趴在偏房一處隱蔽的房頂上張望烫葬。 院中可真熱鬧,春花似錦凡蜻、人聲如沸搭综。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽设凹。三九已至,卻和暖如春茅姜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背月匣。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工钻洒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人锄开。 一個月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓素标,卻偏偏與公主長得像,于是被迫代替她去往敵國和親萍悴。 傳聞我的和親對象是個殘疾皇子头遭,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,455評論 2 359

推薦閱讀更多精彩內(nèi)容