graph&networks

問題與概念域:

{

  • 重疊社區(qū)怖糊,非重疊社區(qū),nested

  • nodes 屬于多個(gè) communities

  • 如何生成 graph(network)伍伤? 即有了nodes的set,如何定義edge扰魂?

  • 有g(shù)raph如何生成能夠generate這個(gè)network的 model?

}

Community-Affiliation Graph: AGM

{

  • community c
  • probability p ( each community has a single p)
  • memberships m
  • nodes v
    =>how to generate network姐直?
  1. 對(duì)每個(gè)在community A中的nodes對(duì)付翁,我們將兩者以probability Pa 連接。(只要nodes對(duì)有相同的community那么兩者就會(huì)以一定概率連接)
  2. 計(jì)算edge probability

}

BIGCLAM:

{

  • memberships have strength砰识,越大則代表越活躍佣渴,0則非member

  • community membership strength matrix F:
    行為nodes辫狼,列為communities

  • 只有一個(gè)共同community辛润,計(jì)算同一個(gè)community中nodes對(duì)連接的概率:1-exp(-F(nodea)*F(nodeb))砂竖;share多個(gè)communities,計(jì)算則從反面考慮1-(1-p1)(1-p2)...(即計(jì)算至少有一個(gè)community將nodes對(duì)連接的概率)

  • 給定一個(gè)network G(V,E) 如何找到F乎澄,使得network的極大似然最大(極大似然的計(jì)算公式:有邊的概率和無邊的概率連×)?即 l(F) = log P(G|F),給定F條件下G的極大似然函數(shù)求對(duì)數(shù)形式置济。1.計(jì)算gradient 2.梯度下降锋八,對(duì)每一行計(jì)算l對(duì)該行F的梯度护盈,以學(xué)習(xí)步長(zhǎng)更新該行F,迭代 3.如果該行F<0紊服,則令其為0

  • 但是計(jì)算每行F的偏導(dǎo)是linear time脏款,非常慢。
    對(duì)屬于node u的鄰節(jié)點(diǎn)撤师,和不屬于u的鄰節(jié)點(diǎn)的F都出現(xiàn)在公式中,每次計(jì)算偏導(dǎo)都需要對(duì)所有node n個(gè) 進(jìn)行遍歷剃盾。

  • 改進(jìn):將所有node的F的和 cache痒谴,那么非鄰節(jié)點(diǎn)部分的計(jì)算則轉(zhuǎn)化為和減去鄰節(jié)點(diǎn)衰伯,這樣只需要遍歷u的鄰節(jié)點(diǎn)的F 即可計(jì)算偏導(dǎo)再進(jìn)行迭代积蔚,加速明顯。

  • 數(shù)據(jù):BIGCLAM 5min處理300k節(jié)點(diǎn)的nets怎顾,其他需要10days漱贱,能夠處理100M條邊的連接槐雾。

}

Detecting cluster:

{

  • Goal: given network, find densely linked clusters(output: set of nodes in same cluster)

  • 應(yīng)用場(chǎng)景:
    query - to - adveritser (許多廣告都屬于類似的幾個(gè)query)
    actor - to -movie (subset of actors belong to a subset of movies)
    social circles募强,circles of trust (找到set of my family ,set of my classmates等等network的子集)

  • how to define a good cluster擎值?
    最大化cluster內(nèi)部的連接數(shù)量
    最小化cluster之間的鏈接數(shù)量
    即為 關(guān)于edges的cut函數(shù)

  • cut:(對(duì)于有權(quán)無權(quán)圖來說都可用逐抑,無權(quán)則設(shè)所有權(quán)都為1) 是set of edges with only one node in the cluster cut(S) = 所有一個(gè)節(jié)點(diǎn)屬于S另一個(gè)指向另一cluster的edge的weight和
    =>最小cut?最優(yōu)cut捆交?

  • 引入Conductance--Graph Partitioning Criteria:

  1. 給定set A 腐巢,Conductance = cut(A) / min(vol(A) , 2m-vol(A)),其中
    vol(A) = di的和 (i是A的node冯丙,di : degree of node i),m是graph的edges總數(shù)泞莉。
    注意這里的degree會(huì)對(duì)edges重復(fù)計(jì)算,因?yàn)槭腔趎odes的degree鲫趁。
  2. min意味著利虫,選擇的cluster A的所有degree之和應(yīng)當(dāng)小于m/2,即總edges一半糠惫。否則如果A過大,那對(duì)這個(gè)比直接過影響太大硼讽。即相對(duì)于group自身的density來說group和其余network部分的連接。
    這個(gè)比值越低壤躲,意味著cut越好。
  • 為什么使用這個(gè)criteria您炉?
    實(shí)踐證明能夠產(chǎn)生更多balanced partitions
    但是計(jì)算最優(yōu)cut是np問題。

}

Spectral Graph Partitioning:

{

  • 從鄰接矩陣來看棉胀,cluster會(huì)是什么樣子冀膝?一塊數(shù)字比較大,一塊幾乎是0窝剖。數(shù)字較大表明nodes之間關(guān)聯(lián)強(qiáng),屬于同一個(gè)cluster赐纱。行列皆為nodes。

  • spectrum是鄰接矩陣特征值的集合诚隙。那么和graph有什么關(guān)系?(考慮最簡(jiǎn)單的情況久又,graph有兩個(gè)component巫延,每個(gè)component中每個(gè)node的degree都為d)
    intuition:如果一個(gè)特征值有兩個(gè)特征向量炉峰,則這兩個(gè)子圖分離脉执;如果兩個(gè)特征值相近,則兩個(gè)字圖之間有連接但非常弱适瓦。

  • 鄰接矩陣重要性質(zhì):對(duì)稱,特征值為實(shí)數(shù)且正交

  • Degree matrix:D= [dii] dii是node i的degree
    Laplacian matrix: L = D - A否彩。
    性質(zhì):L *x =0 ;每行每列和為0 列荔;特征值為0

  • 對(duì)一個(gè)對(duì)稱矩陣M第二小的特征值公式:math證明略贴浙∈鸹校化簡(jiǎn)后問題轉(zhuǎn)為找到最小化 (xi - xj)^2之和的 x ,i盯质、j為一個(gè)cluster中的node。

  • 將partition(A,B)表達(dá)為一個(gè)向量囱修,即屬于A時(shí)王悍,y為+1,屬于B為-1鲜漩。將 最小化 (xi - xj)^2之和 轉(zhuǎn)為找x使得 (yi-yj)^2之和 最小孕似。yi只能在-1,+1中取值鳞青。=>不能準(zhǔn)確解決臂拓,將y松弛习寸。恰好即為第二小的特征值。

  • Rayleigh Theorem
    總結(jié):最優(yōu)化cut的問題霞溪,即時(shí)最小化第二小特征值的問題鸯匹,即時(shí)尋找參數(shù) x的問題殴蓬,而x又是第二小特征值的特征向量痘绎。x被稱作Fiedler vector

  • 最后孤页,根據(jù)L計(jì)算出的第二小特征值及特征向量進(jìn)行分組行施,如何cluster悲龟?即如何選擇splitting point的問題须教。排序乐疆,split at 0挤土,分成正負(fù)兩類仰美。

  • 有降維的意思咖杂。x就能夠涵蓋cluster的信息即graph中所有nodes的信息诉字,比L小得多壤圃。

  • 多個(gè)cluster 如何琅轧?
    k-way spectral clustering:

  1. 迭代bi-partitioning
  2. 使用多個(gè)特征向量,構(gòu)成一個(gè)矩陣鹰晨,使用一種聚類方式(kmeans等)進(jìn)行對(duì)這個(gè)特征向量構(gòu)成的矩陣聚類(每個(gè)node被特征向量中對(duì)應(yīng)的值表示 i:(x1i, x2i ,x3i...)x1,x2...為特征向量)(實(shí)踐效果很好)

}

Trawling:

{

  • 找到graph中的小的community墨叛?

  • 定義task:
    given:left 有 s個(gè)nodes漠趁,每個(gè)links all nodes on the right (fully connected)闺兢;right 有 t個(gè)nodes绞幌。identify all the 完全二部子圖(complete bipartite subgraphs)

  • frequent itemsets:
    找到所有subsets T of at least f times bought together by users。這個(gè)問題和完全二部子圖的關(guān)聯(lián)士复?=> frequent itemsets = complete bipartite subgraphs

  • 可以把一個(gè)graph轉(zhuǎn)成itemsets,graph中出邊指向的node即為set中的items菠镇,起始點(diǎn)即可視為為user的basket利耍。完全二部子圖是整個(gè)graph的一部分盔粹,可用頻繁物品集表示出嘹。

}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市兜蠕,隨后出現(xiàn)的幾起案子盗舰,更是在濱河造成了極大的恐慌川陆,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萄焦,死亡現(xiàn)場(chǎng)離奇詭異贴见,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)档悠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門望浩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來辖所,“玉大人,你說我怎么就攤上這事磨德≡祷兀” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵典挑,是天一觀的道長(zhǎng)酥宴。 經(jīng)常有香客問我,道長(zhǎng)您觉,這世上最難降的妖魔是什么拙寡? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮琳水,結(jié)果婚禮上肆糕,老公的妹妹穿的比我還像新娘。我一直安慰自己在孝,他們只是感情好诚啃,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著私沮,像睡著了一般绍申。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上顾彰,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天极阅,我揣著相機(jī)與錄音,去河邊找鬼涨享。 笑死筋搏,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的厕隧。 我是一名探鬼主播奔脐,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼俄周,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了髓迎?” 一聲冷哼從身側(cè)響起峦朗,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎排龄,沒想到半個(gè)月后波势,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡橄维,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年尺铣,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片争舞。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡凛忿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出竞川,到底是詐尸還是另有隱情店溢,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布委乌,位于F島的核電站逞怨,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏福澡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一驹马、第九天 我趴在偏房一處隱蔽的房頂上張望革砸。 院中可真熱鬧,春花似錦糯累、人聲如沸算利。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽效拭。三九已至,卻和暖如春胖秒,著一層夾襖步出監(jiān)牢的瞬間缎患,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工阎肝, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留挤渔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓风题,卻偏偏與公主長(zhǎng)得像判导,于是被迫代替她去往敵國和親嫉父。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 瑟瑟起長(zhǎng)風(fēng)眼刃, 獨(dú)步關(guān)山道绕辖。 黃花素淡開, 曲徑多寒峭擂红。 ~ 日落暮煙濃仪际, 時(shí)見歸飛鳥。 心海寂無塵篮条, 秋聲不能掃弟头。
    崔玉荷閱讀 172評(píng)論 0 0
  • 2017-04-29 乙寅青婷健康塑體生活館 告訴大家一件很恐怖的事!! 天氣越來越熱了 夏天措不及防的就出現(xiàn)了 ...
    減脂教練孫華閱讀 247評(píng)論 0 0
  • 2017-4-2@冠華談 在學(xué)習(xí)過程當(dāng)中將進(jìn)來的貨分享給別人的時(shí)候伴栓,我們很多人心里面有一個(gè)魔杖。 這個(gè)魔杖就是:我...
    feng冠華閱讀 223評(píng)論 0 0
  • 矜持了一天一夜的云钳垮,再也關(guān)不住那滿腔情愫惑淳,在拂曉之時(shí)化作細(xì)細(xì)雨絲開始飄落。 情到深處淚自涌饺窿,淅淅瀝瀝歧焦,滴滴答答,嘩...
    幸福_娟閱讀 279評(píng)論 1 2
  • 一場(chǎng)游戲 迎來了人生過往 七堇年肚医,陪著歲月飄香 是你那雙深邃的眼眸 把長(zhǎng)夜的寂寥 點(diǎn)亮 還得讓平凡的故事 重演 演...
    江城妖怪閱讀 401評(píng)論 0 0