本文總結(jié)之日CS224W Winter 2021只更新到了第四節(jié),所以下文會參考2021年課程的PPT并結(jié)合2019年秋季課程進(jìn)行總結(jié)以求內(nèi)容完整
課程主頁:CS224W: Machine Learning with Graphs
視頻鏈接:【斯坦戈悸伲】CS224W:圖機(jī)器學(xué)習(xí)( 中英字幕 | 2019秋)
1 引言
學(xué)完前面兩節(jié)之后旦万,我們已經(jīng)可以通過一些指標(biāo)對網(wǎng)絡(luò)莽红,進(jìn)行定量的分析竭业。為什么在這里要插入一個(gè)網(wǎng)絡(luò)模型嘱兼?或者說国葬,我們?yōu)槭裁匆獙W(xué)習(xí)它?難道只是研究者之間的數(shù)學(xué)小游戲嗎芹壕?
所以汇四,在一頭扎進(jìn)紛繁的圖模型之前,我們需要先明白學(xué)習(xí)的目的和研究的意義踢涌!
1.1 模型的價(jià)值
源于預(yù)測的需要:模型是抽象的手段通孽,預(yù)測才是目的
前面老師也介紹了不同領(lǐng)域,不同系統(tǒng)的各類網(wǎng)絡(luò)睁壁,它們是單案個(gè)體的分析背苦,它們是否具有共性, 是否能通過參數(shù)化的模型去模擬
潘明,去擬合
現(xiàn)實(shí)網(wǎng)絡(luò)行剂,以進(jìn)一步研究現(xiàn)實(shí)網(wǎng)絡(luò)的其他未知
性質(zhì)。
舉個(gè)栗子钳降,就像今年疫情期間厚宰,被大家熟知的傳染病模型,根據(jù)理論推導(dǎo)的性質(zhì)遂填,預(yù)測
爆發(fā)期铲觉,評估響應(yīng)時(shí)間,提前防控風(fēng)險(xiǎn)城菊”溉迹火神山、雷神山凌唬,國內(nèi)的緊急動員都是在理論指導(dǎo)下并齐,實(shí)際行動反映。 推薦大家看下畢導(dǎo)的科普視頻客税。
1.2 圖模型產(chǎn)生過程
通常一個(gè)圖模型的誕生况褪,有點(diǎn)像抽簽。研究人員通過隨便提個(gè)網(wǎng)絡(luò)模型更耻,分析網(wǎng)絡(luò)模型的性質(zhì)测垛,然后拿真實(shí)網(wǎng)絡(luò)對比驗(yàn)證,基于模型與現(xiàn)實(shí)之間的差異秧均,不斷修正模型到貼合現(xiàn)實(shí)情況食侮。這個(gè)和機(jī)器學(xué)習(xí)模型訓(xùn)練機(jī)制很像号涯,是個(gè)不斷迭代
和精進(jìn)
的過程。
下面老師介紹的三個(gè)模型的誕生和研究過程都是這個(gè)思路
其實(shí)锯七,網(wǎng)絡(luò)模型研究至今链快,除了老師介紹的3個(gè),還有很多模型眉尸,我找了些資料域蜗,整理了一個(gè)思維導(dǎo)圖供大家參考。
說著這么多噪猾,下面進(jìn)入具體理論部分霉祸。
2 圖模型的分類
2.1 ES隨機(jī)圖模型
ES隨機(jī)圖模型(Erd?s-Renyi Random Graph Model),用于生成無向圖袱蜡,它有兩類:
- :個(gè)節(jié)點(diǎn)的無向圖丝蹭,每條邊以概率獨(dú)立隨機(jī)(i.i.d)出現(xiàn)
- 個(gè)節(jié)點(diǎn)的無向圖,條邊一均勻分布概率隨機(jī)出現(xiàn)
課上老師重點(diǎn)介紹了第一類
下面研究下這類網(wǎng)絡(luò)的四大屬性情況:
2.1.1 的度分布(Degree distribution)
的度分布是二項(xiàng)分布(binomial)戒劫。
根據(jù)二項(xiàng)分布的性質(zhì)半夷,可以得到度平均為
2.1.2 圖的聚類系數(shù)(Clustering coefficient)
老師用公式推到,其實(shí)可以根據(jù)聚類系數(shù)定義:節(jié)點(diǎn)的鄰居節(jié)點(diǎn)彼此相連的概率迅细。 還記得的前提假設(shè)嗎巫橄?這個(gè)概率就等于任意兩點(diǎn)之間相連的概率。
這里有個(gè)前提茵典,當(dāng)節(jié)點(diǎn)數(shù)時(shí)湘换,大圖的平均度趨于一個(gè)常數(shù)。 這和直覺也是一致的统阿,通常社交網(wǎng)絡(luò)中一個(gè)人的好友數(shù)量彩倚,并不會隨著人口的增加而增加。 所以根據(jù)上面平均度的定義扶平,就可以得到聚類系數(shù)
2.1.3 圖的連通分量
這里我調(diào)整了連通性和路徑長度的順序帆离,更利于路徑長度的理解。這里課上老師跳過了一頁P(yáng)PT结澄。
隨著概率的不斷增大哥谷,圖的連接情況,會發(fā)生變換麻献。
老師做了個(gè)實(shí)驗(yàn)们妥,對于10萬個(gè)節(jié)點(diǎn)的圖,從0.5到3對于巨分支的節(jié)點(diǎn)占比情況勉吻。
可見监婶,當(dāng)平均度時(shí),巨分支就開始出現(xiàn)。這個(gè)結(jié)論很重要惑惶!
2.1.4 圖的路徑長度(Path Length)和直徑
老師先引入了一個(gè)定義擴(kuò)展系數(shù) Expension
,公式如下:
它描述了圖的任意節(jié)點(diǎn)集與剩余節(jié)點(diǎn)之間邊的數(shù)量煮盼。可以理解為任取圖中節(jié)點(diǎn)的一個(gè)子集带污,下一步(step)處達(dá)的最小節(jié)點(diǎn)數(shù)目孕似。
- (平均)路徑長度
基于expension
定義,老師給出路徑長度為。說實(shí)話刮刑,具體的證明,我不會养渴,網(wǎng)上也沒有找到雷绢。但是以二叉樹
舉例,這個(gè)路徑長度是對數(shù)還是好理解的理卑。
- 直徑(Diameter )其實(shí)這一塊翘紊,單獨(dú)理解有點(diǎn)困難。結(jié)合上面關(guān)于連通分量的介紹: 當(dāng)時(shí)藐唠,隨機(jī)圖中出現(xiàn)巨分支帆疟,而網(wǎng)絡(luò)的形態(tài)取決于巨分支的形態(tài)。 隨機(jī)圖在,為常數(shù)條件下宇立,保證巨分支的出現(xiàn)踪宠,此時(shí)直徑為 . 相關(guān)證明在參考資料4可以查看(22頁)。
另外妈嘹,網(wǎng)絡(luò)有巨分支存在柳琢,自然廣度搜索算法(BFS)運(yùn)算是對數(shù)復(fù)雜度.
2.1.5 對比現(xiàn)實(shí)模型
通過上面大篇幅的模型介紹,那么真實(shí)情況隨機(jī)圖模型對于現(xiàn)實(shí)的擬合情況如何呢润脸?
可以看到:
優(yōu)點(diǎn)
巨分支所占比例是接近的
-
平均路徑長度也比較接近柬脸。
這點(diǎn)是最有趣的發(fā)現(xiàn):原先在實(shí)際網(wǎng)絡(luò)(MSN)分析的時(shí)候,我們對于6度理論以及小世界效應(yīng)非常驚訝毙驯。但實(shí)際上不足為奇倒堕。通過這個(gè)簡單的隨機(jī)圖模型,就能做到爆价。(平平無奇)
不足
- 度分布差異較大垦巴。 現(xiàn)實(shí)網(wǎng)絡(luò)呈現(xiàn)冪律分布,而隨機(jī)圖呈現(xiàn)泊松分布(二項(xiàng)分布)
- 聚類系數(shù)相差極大允坚。對于這一屬性魂那,這才是應(yīng)該更關(guān)注。
總結(jié)一下稠项,隨機(jī)圖模型很粗糙涯雅,對于現(xiàn)實(shí)網(wǎng)絡(luò)的擬合并不好。但是展运,并不是學(xué)習(xí)它沒有意義活逆,它是后續(xù)隨機(jī)圖模型的“迭代”基礎(chǔ)精刷。算是地基工程!
2.2 小世界網(wǎng)絡(luò)模型 The Small-world model
原因
:為了解決前面隨機(jī)圖蔗候,對于現(xiàn)實(shí)網(wǎng)絡(luò)的聚類系數(shù)的嚴(yán)重低估問題怒允。目標(biāo)
:生成一個(gè)有較短的平均路徑長度又具有較高的聚類系數(shù)的隨機(jī)圖方法
:隨機(jī)重連,由[Watts-Strogatz ‘98]提出- 從一個(gè)環(huán)狀的規(guī)則網(wǎng)絡(luò)(regular attic )開始锈遥,網(wǎng)絡(luò)含有N個(gè)結(jié)點(diǎn)纫事,每個(gè)節(jié)點(diǎn)向它左邊最近的K個(gè)節(jié)點(diǎn)連出K條邊,并滿足所灸。
- 隨機(jī)化重連:以概率p隨機(jī)地重新連接網(wǎng)絡(luò)中的每個(gè)邊丽惶,即將邊的一個(gè)端點(diǎn)保持不變,而另一個(gè)端點(diǎn)取為網(wǎng)絡(luò)中隨機(jī)選擇的一個(gè)節(jié)點(diǎn)爬立。規(guī)定钾唬,圖無重邊和自環(huán)(self loop)。
- 改變p 值可以實(shí)現(xiàn)從規(guī)則網(wǎng)絡(luò)(p = 0 )向隨機(jī)網(wǎng)絡(luò)(p = 1)轉(zhuǎn)變侠驯。
從實(shí)驗(yàn)結(jié)果來看抡秆,通過較小的重連概率p就可以實(shí)現(xiàn)這一目標(biāo)預(yù)期的目標(biāo)。給個(gè)小世界模型的定義:
小世界網(wǎng)絡(luò)模型是一類具有較短的平均路徑長度又具有較高的聚類系數(shù)的網(wǎng)絡(luò)的總稱吟策。
總結(jié)下小世界模型:
優(yōu)點(diǎn)
- 提供了聚類系數(shù)與路徑長度(小世界效應(yīng))之間的聯(lián)系
- 讓隨機(jī)圖模型在聚類系數(shù)方面擬合了現(xiàn)實(shí)網(wǎng)絡(luò)儒士。
不足
- 對現(xiàn)實(shí)網(wǎng)絡(luò)節(jié)點(diǎn)度的冪律分布這一特點(diǎn),不能很好的擬合
說明還有進(jìn)一步提升的空間檩坚。這就是下一個(gè)要介紹的隨機(jī)圖模型乍桂。
2.3 隨機(jī)Kronecker圖模型(Kronecker Graph Model)
這時(shí)候輪到隨機(jī)Kronecker圖模型出場了,它可以解決最后的度分布的問題效床。
-
原因
:為了解決隨機(jī)圖度分布與現(xiàn)實(shí)網(wǎng)絡(luò)度分布差異問題睹酌。 -
方法
:采用遞歸方法
通過Kronecker乘積
來遞歸來生成網(wǎng)絡(luò),Kronecker乘積就是生成自相似矩陣的一種方式.
2.3.1 基礎(chǔ)知識
-
自相似性(Self-similarity)
: 物體總是和自身的某些局部是相似的剩檀。 -
克羅內(nèi)克積(Kronecker product)
:
如果初始的矩陣是這樣的0-1鄰接矩陣憋沿。那么3階的Kronecker圖是最右邊的樣子。
這么做雖然可以生成圖沪猴,但有個(gè)問題辐啄!當(dāng)初始矩陣和階數(shù)確定了最終的結(jié)果也就確定了。不夠靈活运嗜,也不能解決度分布的問題壶辜。
2.3.2 隨機(jī)Kronecker圖
為了解決上面的問題,引入隨機(jī)性担租,將初始矩陣由無權(quán)的鄰接矩陣砸民,改為帶權(quán)的權(quán)重(概率)矩陣。
這雖然可以實(shí)現(xiàn)隨機(jī)性的目標(biāo),但是也有個(gè)問題——計(jì)算量太大岭参!運(yùn)算慢反惕!
,它需要計(jì)算次,如果是一百萬個(gè)節(jié)點(diǎn)演侯,將要計(jì)算次姿染!需要一種更快速的方法。
2.3.3 快速生成隨機(jī)Kronecker圖
-
思想
:優(yōu)先生成概率最高的邊秒际。 -
方法
:遞歸逐層向下悬赏,優(yōu)先計(jì)算概率最大的邊。 具體后面結(jié)合代碼介紹娄徊。
通常生成隨機(jī)圖的前舷嗡,我們有著預(yù)定的節(jié)點(diǎn)數(shù)和邊數(shù)。通過這種方法生成隨機(jī)圖恰好可以滿足我們的需求嵌莉,免去很多無效計(jì)算。
2.3.4 模型與現(xiàn)實(shí)對比
課上捻脖,老師給出了對應(yīng)的實(shí)驗(yàn)結(jié)果锐峭,可以看到隨機(jī)Kronecker圖模型在多個(gè)維度很好的擬合了現(xiàn)實(shí)網(wǎng)絡(luò)。
3 總結(jié)
至此可婶,完成了隨機(jī)圖模型對于現(xiàn)實(shí)網(wǎng)絡(luò)的擬合沿癞,有了可以更好的分析和預(yù)測現(xiàn)實(shí)網(wǎng)絡(luò)的工具。
這節(jié)課內(nèi)容很多矛渴,不少新的概念和公式椎扬,期間查了不少資料,用了不少時(shí)間消化具温,好在基本理解了蚕涤!
4 參考文章
- http://web.stanford.edu/class/cs224w/slides/02-gnp-smallworld.pdf
- 《網(wǎng)絡(luò)科學(xué)引論》郭世澤 陳哲譯
- https://blog.csdn.net/Jenny_oxaza/article/details/106142668
- http://cseweb.ucsd.edu/~fan/research/papers/diameter.pdf
- https://www.geeksforgeeks.org/erdos-renyl-model-generating-random-graphs/
- https://snap-stanford.github.io/cs224w-notes/preliminaries/measuring-networks-random-graphs