《Max-Margin DeepWalk: Discriminative Learning of Network Representation》簡評

本文同時發(fā)布于西土城的搬磚工和簡書
論文鏈接:Max-Margin DeepWalk: Discriminative Learning of Network Representation

引用格式:
Cunchao Tu, Weicheng Zhang, Zhiyuan Liu, Maosong Sun. Max-Margin DeepWalk: Discriminative Learning of Network Representation. International Joint Conference on Artificial Intelligence (IJCAI 2016).

標(biāo)題:Max-Margin DeepWalk: Discriminative Learning of Network Representation
來源:IJCAI 2016
問題:
作者提出,DeepWalk作為一種典型的學(xué)習(xí)社交網(wǎng)絡(luò)節(jié)點向量表示的方法,在一些任務(wù)上缺乏足夠的區(qū)分能力凳厢。故作者在本文提出Max-Margin(最大間隔)DeepWalk方法,在最大間隔分類器的影響下,原先學(xué)習(xí)到的節(jié)點向量的區(qū)分能力有所增強关贵。

背景簡介:

相關(guān)工作 解決問題
DeepWalk 基于隨機游走和Skip-Gram學(xué)習(xí)圖節(jié)點表示
矩陣分解形式的DeepWalk 證明DeepWalk等價于矩陣分解,分解結(jié)果包含內(nèi)容屬性
Max-Margin DeepWalk 引入SVM分類器增強前述模型習(xí)得向量的區(qū)分能力

主要方法:
基于矩陣分解的DeepWalk模型(MFDW)
再提及該方法前需要對DeepWalk進行簡單的介紹碘裕,該方法的具體描述見《DeepWalk: Online Learning of Social Representations》DeepWalk大致過程如下:隨機游走遍歷某節(jié)點的鄰節(jié)點,得到一個節(jié)點序列甫窟,再借鑒skip-gram的原理秫筏,由單個節(jié)點預(yù)測前后序列,學(xué)習(xí)得到該節(jié)點的向量表示闹瞧。在這其中利用Hierarchical Softmax減小搜索空間。
基于矩陣分解的DeepWalk具體可以參考《Network Representation Learning with Rich Text Information》展辞。簡單概括的話奥邮,作者通過數(shù)學(xué)推導(dǎo),證明DeepWalk的學(xué)習(xí)過程類似傳統(tǒng)主題模型矩陣分解的操作罗珍。示意圖如下:


其中M表示圖的鄰接矩陣,W表示節(jié)點的向量表示矩陣,(MRn×k ,n表示節(jié)點個數(shù),k表示節(jié)點向量維度),T矩陣根據(jù)作者推導(dǎo),類似主題模型矩陣分解的處理思路,作者認(rèn)為該矩陣反應(yīng)了節(jié)點本身的內(nèi)容特征洽腺。易知,HTRn×k .最后就可以將之后將WHT同一行的向量拼接在一起,作為2k維的向量表示節(jié)點屬性覆旱。
最大間隔DeepWalk模型(MMDW)

基于最大間隔思想設(shè)計的分類器中,最為有名的即為SVM分類器,作者使用On the Algorithmic Implementation of Multiclass Kernel-based Vector Machines中提出的多類SVM分類器蘸朋。該多類分類器的關(guān)鍵在于構(gòu)造W參數(shù)矩陣。(WRL×K)的矩陣,L表示label個數(shù),K表示特征向量維度)在比較時可以將特征向量x依次與W矩陣每一行參數(shù)點乘,根據(jù)值的大小判斷所屬類別類別扣唱。相應(yīng)的優(yōu)化函數(shù)如下:

但是如果只用上述SVM分類器做分類.對節(jié)點向量本身不產(chǎn)生影響藕坯。基于此,作者將前面MFDW的訓(xùn)練過程與這里SVM分類器的訓(xùn)練過程,利用節(jié)點向量x作為紐帶結(jié)合起來噪沙,具體方法是利用biased gradient在節(jié)點向量學(xué)習(xí)時,傳遞SVM分類器參數(shù)的變化情況炼彪。這樣將節(jié)點在SVM分類器中反應(yīng)的label屬性融合到特征向量中,并且由于SVM分類器本身區(qū)分能力強的特點,提高了特征向量的區(qū)分能力。經(jīng)過上述過程后,優(yōu)化函數(shù)如下:

]
相關(guān)工作:
參數(shù)學(xué)習(xí):
參數(shù)學(xué)習(xí)是模型訓(xùn)練的重要部分正歼。本文由于是SVM分類器與MFDW模型的結(jié)合,模型的迭代更新也自然分為這兩部分辐马。在每一輪次中,針對某模型的參數(shù)進行學(xué)習(xí)更新時,需要保證另一模型的參數(shù)不變。
對于SVM分類器中的分類器參數(shù)W和松弛變量ζ 而言,學(xué)習(xí)思路參考Crammer&Singer提出的方法,并結(jié)合Keerthi在2008年提出的解決序列對偶問題的方法局义。
對于節(jié)點特征向量矩陣X和內(nèi)容矩陣Y的迭代更新,由于節(jié)點向量矩陣X的的節(jié)點特征向量同時在兩個模型中出現(xiàn)喜爷。那么在優(yōu)化X,Y的時候,我們考慮加入偏置,使節(jié)點特征向量xi朝著前面最大間隔分類器優(yōu)化的方向迭代更新。即在求取前述LDW關(guān)于xi的偏導(dǎo)時,引入下面的bias因子

實驗結(jié)果:
由于實驗結(jié)果較多旭咽,且部分涉及模型本身性能的分析,這里重點說明自己感興趣的部分:
節(jié)點區(qū)分能力圖示:
左圖是傳統(tǒng)DeepWalk的方法,右圖表示本文提出的DeepWalk改進模型,從圖中可以看出贞奋,由于結(jié)合最大間隔模型,本文模型的區(qū)分能力更強:

模型對語義信息的把握:
下表反應(yīng)的是原模型與作者改進模型在某論文數(shù)據(jù)集上進行聚類得到的部分結(jié)果對比圖穷绵。該輪文數(shù)據(jù)集主要包含論文的基本信息及相互引用的情況轿塔。可以看出,由于隱含的結(jié)合了label信息在內(nèi),本文所提出的MMDW模型在主題層面對于數(shù)據(jù)的劃分相比之前的模型,更為準(zhǔn)確勾缭。


簡評:
選擇這篇論文主要是由于經(jīng)過一段時間的調(diào)研,感覺目前學(xué)習(xí)網(wǎng)絡(luò)節(jié)點的embedding表示的方法層出不窮揍障。自己感覺在研究過程中,如果不能結(jié)合具體問題分析具體特征,很難有好的論文創(chuàng)新點。這篇論文就是作為發(fā)表在今年IJCAI上的論文,是一個將其他節(jié)點屬性信息融合到節(jié)點向量學(xué)習(xí)的很好的例子俩由。具體說來,本文為有以下幾點值得學(xué)習(xí):
創(chuàng)新點突出:
DeepWalk模型是在2014年提出的,在2015年,有人證明DeepWalk可以視作矩陣分解問題,并得出分解得到的矩陣包含圖節(jié)點的向量表示和內(nèi)容特征毒嫡。而最大間隔方法之前在主題模型、分詞等NLP傳統(tǒng)領(lǐng)域使用較多,這里,作者能將該方法遷移用于改善向量區(qū)分能力幻梯。這一創(chuàng)新之前無人涉及兜畸,也取得了很好的效果。
選擇選擇得當(dāng):
本文提出模型中需要用到與節(jié)點內(nèi)容屬性相關(guān)的特征碘梢。針對這一情況,本文在實驗中,使用的主要數(shù)據(jù)包括Cora咬摇、Citeseer、Wiki煞躬。前兩個數(shù)據(jù)集包括論文基本信息及其引用情況肛鹏。Wiki中如果將url視作節(jié)點,相互引用的wiki之間視作存在關(guān)系對,我們就可以將其轉(zhuǎn)換為社交關(guān)系網(wǎng)絡(luò)來處理。這些數(shù)據(jù)的文本部分包含豐富的語義信息,可以有效說明論文模型的適用性和優(yōu)勢恩沛。
基礎(chǔ)知識扎實:
文中利用文本特征驅(qū)動節(jié)點向量訓(xùn)練時在扰,采用了biased gradient的方法,由于暫時沒有查到相關(guān)資料雷客,這里可能這是作者獨立提出來的芒珠。該方法從算法角度并不復(fù)雜,但卻可以有效的改變訓(xùn)練方向,加入SVM學(xué)習(xí)到的相關(guān)信息,從而“引導(dǎo)”節(jié)點向量的迭代更新佛纫。該方法的提出以及文中大量關(guān)于SVM模型的分析推導(dǎo)過程均顯示出了作者該領(lǐng)域不俗的功力妓局。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市呈宇,隨后出現(xiàn)的幾起案子好爬,更是在濱河造成了極大的恐慌,老刑警劉巖甥啄,帶你破解...
    沈念sama閱讀 218,284評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件存炮,死亡現(xiàn)場離奇詭異,居然都是意外死亡蜈漓,警方通過查閱死者的電腦和手機穆桂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來融虽,“玉大人享完,你說我怎么就攤上這事∮卸睿” “怎么了般又?”我有些...
    開封第一講書人閱讀 164,614評論 0 354
  • 文/不壞的土叔 我叫張陵彼绷,是天一觀的道長。 經(jīng)常有香客問我茴迁,道長寄悯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,671評論 1 293
  • 正文 為了忘掉前任堕义,我火速辦了婚禮猜旬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘倦卖。我一直安慰自己洒擦,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,699評論 6 392
  • 文/花漫 我一把揭開白布糖耸。 她就那樣靜靜地躺著秘遏,像睡著了一般丘薛。 火紅的嫁衣襯著肌膚如雪嘉竟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評論 1 305
  • 那天洋侨,我揣著相機與錄音舍扰,去河邊找鬼。 笑死希坚,一個胖子當(dāng)著我的面吹牛边苹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播裁僧,決...
    沈念sama閱讀 40,309評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼个束,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了聊疲?” 一聲冷哼從身側(cè)響起茬底,我...
    開封第一講書人閱讀 39,223評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎获洲,沒想到半個月后阱表,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,668評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡贡珊,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,859評論 3 336
  • 正文 我和宋清朗相戀三年最爬,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片门岔。...
    茶點故事閱讀 39,981評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡爱致,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出寒随,到底是詐尸還是另有隱情糠悯,我是刑警寧澤胯努,帶...
    沈念sama閱讀 35,705評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站逢防,受9級特大地震影響叶沛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜忘朝,卻給世界環(huán)境...
    茶點故事閱讀 41,310評論 3 330
  • 文/蒙蒙 一灰署、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧局嘁,春花似錦溉箕、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至但指,卻和暖如春寡痰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背棋凳。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評論 1 270
  • 我被黑心中介騙來泰國打工拦坠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人剩岳。 一個月前我還...
    沈念sama閱讀 48,146評論 3 370
  • 正文 我出身青樓贞滨,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拍棕。 傳聞我的和親對象是個殘疾皇子晓铆,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,933評論 2 355

推薦閱讀更多精彩內(nèi)容