推薦系統(tǒng)圖模型之DeepWalk

轉(zhuǎn)載https://blog.csdn.net/u012151283/article/details/86806922?spm=1001.2014.3001.5501

圖表示學(xué)習(xí)

我們都知道在數(shù)據(jù)結(jié)構(gòu)中宙帝,圖是一種基礎(chǔ)且常用的結(jié)構(gòu)」补現(xiàn)實(shí)世界中許多場(chǎng)景可以抽象為一種圖結(jié)構(gòu)谣膳,如社交網(wǎng)絡(luò),交通網(wǎng)絡(luò)礁击,電商網(wǎng)站中用戶與物品的關(guān)系等。

目前提到圖算法一般指:

  • 經(jīng)典數(shù)據(jù)結(jié)構(gòu)與算法層面的:最小生成樹(shù)(Prim,Kruskal,…),最短路(Dijkstra,Floyed,…)看彼,拓?fù)渑判颍P(guān)鍵路徑等
  • 概率圖模型囚聚,涉及圖的表示靖榕,推斷和學(xué)習(xí),詳細(xì)可以參考Koller的書(shū)或者公開(kāi)課
  • 圖神經(jīng)網(wǎng)絡(luò)顽铸,主要包括Graph Embedding(基于隨機(jī)游走)和Graph CNN(基于鄰居匯聚)兩部分茁计。
    這里先看下Graph Embedding的相關(guān)內(nèi)容。

Graph Embedding技術(shù)將圖中的節(jié)點(diǎn)以低維稠密向量的形式進(jìn)行表達(dá)谓松,要求在原始圖中相似(不同的方法對(duì)相似的定義不同)的節(jié)點(diǎn)其在低維表達(dá)空間也接近星压。得到的表達(dá)向量可以用來(lái)進(jìn)行下游任務(wù),如節(jié)點(diǎn)分類鬼譬,鏈接預(yù)測(cè)娜膘,可視化或重構(gòu)原始圖等。

DeepWalk 原理

我們都知道在數(shù)據(jù)結(jié)構(gòu)中优质,圖是一種基礎(chǔ)且常用的結(jié)構(gòu)】⑻埃現(xiàn)實(shí)世界中許多場(chǎng)景可以抽象為一種圖結(jié)構(gòu),如社交網(wǎng)絡(luò)巩螃,交通網(wǎng)絡(luò)演怎,電商網(wǎng)站中用戶與物品的關(guān)系等。

目前提到圖算法一般指:

經(jīng)典數(shù)據(jù)結(jié)構(gòu)與算法層面的:最小生成樹(shù)(Prim,Kruskal,…)避乏,最短路(Dijkstra,Floyed,…)爷耀,拓?fù)渑判颍P(guān)鍵路徑等
概率圖模型淑际,涉及圖的表示畏纲,推斷和學(xué)習(xí)扇住,詳細(xì)可以參考Koller的書(shū)或者公開(kāi)課
圖神經(jīng)網(wǎng)絡(luò),主要包括Graph Embedding(基于隨機(jī)游走)和Graph CNN(基于鄰居匯聚)兩部分盗胀。
這里先看下Graph Embedding的相關(guān)內(nèi)容艘蹋。

Graph Embedding技術(shù)將圖中的節(jié)點(diǎn)以低維稠密向量的形式進(jìn)行表達(dá),要求在原始圖中相似(不同的方法對(duì)相似的定義不同)的節(jié)點(diǎn)其在低維表達(dá)空間也接近票灰。得到的表達(dá)向量可以用來(lái)進(jìn)行下游任務(wù)女阀,如節(jié)點(diǎn)分類,鏈接預(yù)測(cè)屑迂,可視化或重構(gòu)原始圖等浸策。


image.png

DeepWalk

DeepWalk 算法主要包括兩個(gè)步驟,第一步為隨機(jī)游走采樣節(jié)點(diǎn)序列惹盼,第二部為使用word2vec學(xué)習(xí)表達(dá)向量

Random Walk

我們可以通過(guò)并行的方式加速采樣庸汗,在采用多進(jìn)程進(jìn)行加速時(shí),相比于開(kāi)一個(gè)進(jìn)程池讓每次外層循環(huán)啟動(dòng)一個(gè)進(jìn)程手报,我們采用固定為每個(gè)進(jìn)程分配指定數(shù)量的num_walks的方式蚯舱,這樣可以最大限度減少進(jìn)程頻繁創(chuàng)建與銷毀的時(shí)間開(kāi)銷。

deepwalk_walk方法對(duì)應(yīng)上一節(jié)偽代碼中第6行掩蛤,_simulate_walks對(duì)應(yīng)偽代碼中第3行開(kāi)始的外層循環(huán)枉昏。最后的Parallel為多進(jìn)程并行時(shí)的任務(wù)分配操作。

def deepwalk_walk(self, walk_length, start_node):
    walk = [start_node]

    while len(walk) < walk_length:
        cur = walk[-1]
        cur_nbrs = list(self.G.neighbors(cur))
        if len(cur_nbrs) > 0:
            walk.append(random.choice(cur_nbrs))
        else:
            break
    return walk


  def _simulate_walks(self, nodes, num_walks, walk_length,):
    walks = []
    for _ in range(num_walks):
        random.shuffle(nodes)
        for v in nodes:           
            walks.append(self.deepwalk_walk(alk_length=walk_length, start_node=v))
    return walks

results = Parallel(n_jobs=workers, verbose=verbose, )(
    delayed(self._simulate_walks)(nodes, num, walk_length) for num in
    partition_num(num_walks, workers))

walks = list(itertools.chain(*results))

Word2vec
這里就偷個(gè)懶直接用gensim里的Word2Vec了揍鸟。

from gensim.models import Word2Vec
w2v_model = Word2Vec(walks,sg=1,hs=1)

DeepWalk應(yīng)用

這里簡(jiǎn)單的用DeepWalk算法在wiki數(shù)據(jù)集上進(jìn)行節(jié)點(diǎn)分類任務(wù)和可視化任務(wù)兄裂。
wiki數(shù)據(jù)集包含 2,405 個(gè)網(wǎng)頁(yè)和17,981條網(wǎng)頁(yè)之間的鏈接關(guān)系,以及每個(gè)網(wǎng)頁(yè)的所屬類別阳藻。

本例中的訓(xùn)練晰奖,評(píng)測(cè)和可視化的完整代碼在下面的git倉(cāng)庫(kù)中,后面還會(huì)陸續(xù)更新line,node2vec,sdne,struc2vec等graph embedding算法以及一些GCN算法

https://github.com/shenweichen/GraphEmbedding/blob/master/examples/deepwalk_wiki.py

G = nx.read_edgelist('../data/wiki/Wiki_edgelist.txt',create_using=nx.DiGraph(),nodetype=None,data=[('weight',int)])

model = DeepWalk(G,walk_length=10,num_walks=80,workers=1)
model.train(window_size=5,iter=3)
embeddings = model.get_embeddings()

evaluate_embeddings(embeddings)
plot_embeddings(embeddings)

分類任務(wù)結(jié)果

| micro-F1 -|- macro-F1 |
| 0.6674 -|- 0.5768 |

可視化結(jié)果

image.png
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末稚配,一起剝皮案震驚了整個(gè)濱河市畅涂,隨后出現(xiàn)的幾起案子港华,更是在濱河造成了極大的恐慌道川,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件立宜,死亡現(xiàn)場(chǎng)離奇詭異冒萄,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)橙数,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門尊流,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人灯帮,你說(shuō)我怎么就攤上這事崖技÷咦。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵迎献,是天一觀的道長(zhǎng)瞎访。 經(jīng)常有香客問(wèn)我,道長(zhǎng)吁恍,這世上最難降的妖魔是什么扒秸? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮冀瓦,結(jié)果婚禮上伴奥,老公的妹妹穿的比我還像新娘。我一直安慰自己翼闽,他們只是感情好拾徙,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著感局,像睡著了一般锣吼。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蓝厌,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天玄叠,我揣著相機(jī)與錄音,去河邊找鬼拓提。 笑死读恃,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的代态。 我是一名探鬼主播寺惫,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼蹦疑!你這毒婦竟也來(lái)了西雀?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤歉摧,失蹤者是張志新(化名)和其女友劉穎艇肴,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體叁温,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡再悼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了膝但。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片冲九。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖跟束,靈堂內(nèi)的尸體忽然破棺而出莺奸,到底是詐尸還是另有隱情丑孩,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布灭贷,位于F島的核電站嚎杨,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏氧腰。R本人自食惡果不足惜枫浙,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望古拴。 院中可真熱鬧箩帚,春花似錦、人聲如沸黄痪。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)桅打。三九已至是嗜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間挺尾,已是汗流浹背鹅搪。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留遭铺,地道東北人丽柿。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像魂挂,于是被迫代替她去往敵國(guó)和親甫题。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容