本篇筆記基于張江老師《從網(wǎng)絡(luò)隱藏幾何的角度看網(wǎng)絡(luò)驅(qū)動(dòng)的病毒傳播》公開課程蹬挺,探究交通流量數(shù)據(jù)與城市間病毒傳播的關(guān)系。
1袜啃、背景
傳播源頭汗侵、新病例爆發(fā)在哪里幸缕、何時(shí)病毒傳到特定地點(diǎn)群发、共有多少病例?
2发乔、傳統(tǒng)模型
反應(yīng)擴(kuò)散模型(Reaction Diffusion Method不適合于現(xiàn)在社會(huì))熟妓、基于個(gè)體模型(Agent based models)、隨機(jī)集合種群模型(Stochastic metapopulation models)栏尚。
上圖為基于個(gè)體模型--SIR模型起愈,S表示易感者,I表示感染者译仗,R表示移出者抬虽。紅色節(jié)點(diǎn)為感染者會(huì)以α概率隨機(jī)選擇傳播他的鄰居,連接為社會(huì)接觸纵菌,而感染者會(huì)以β概率進(jìn)行恢復(fù)阐污。
NetLogo自帶病毒傳播仿真程序,起初病毒感染了三個(gè)人咱圆,按照一定概率規(guī)則進(jìn)行病毒傳播笛辟,傳播過程中不停擴(kuò)散整個(gè)網(wǎng)絡(luò),感染個(gè)體又會(huì)變成恢復(fù)態(tài)序苏,恢復(fù)的人因?yàn)橛锌贵w所以不會(huì)再被感染手幢,直到不再有感染者。
3忱详、有效距離
城市之間通過輸運(yùn)網(wǎng)絡(luò)围来、航空網(wǎng)絡(luò)等,城市之間可以輸運(yùn)病毒或健康個(gè)體匈睁。所以监透,以某個(gè)城市為節(jié)點(diǎn),看一個(gè)城市里感染的人數(shù)和康復(fù)的人數(shù)软舌,如何變化才漆?
一般來講,兩個(gè)城市地理空間更近佛点,那么病毒傳播的更快醇滥。也就是地理空間距離與病毒傳播天數(shù)呈正相關(guān)黎比。但是事實(shí)告訴我們,猜想是錯(cuò)誤的鸳玩。以H1N1和SARS病毒為例阅虫,橫坐標(biāo)表示其他城市距離病毒爆發(fā)城市的地理距離,縱坐標(biāo)表示病毒傳播天數(shù)不跟。坐標(biāo)圖并沒有呈現(xiàn)出很明顯的正相關(guān)關(guān)系颓帝。
那么如何設(shè)計(jì)來增強(qiáng)距離與傳播的天數(shù)的正相關(guān)關(guān)系?這就需要引出有效距離(Effective Distance)的概念窝革。這種有效距離可以回答背景中所提出的三個(gè)問題购城,病毒源頭?病毒傳到哪里虐译?在某一城市病毒何時(shí)出現(xiàn)瘪板?
有效距離的計(jì)算需要人口流動(dòng)數(shù)據(jù),即任意兩個(gè)城市的人口流量(最好是穩(wěn)態(tài)數(shù)據(jù)漆诽,搜集數(shù)據(jù)時(shí)間越接近效果越好)侮攀。
通過人口流量的網(wǎng)絡(luò)可以轉(zhuǎn)換為概率網(wǎng)絡(luò),需要注意的是A與B的人口流量是不一致的厢拭,比如武漢到北京的人口流量是不等同于北京到武漢的人口流量兰英。
概率定義是某一條連邊上,例如供鸠,從A出發(fā)向外隨機(jī)跳躍畦贸,A到B的跳轉(zhuǎn)概率就是用A到B的流量除以A的所有流量,那么P(B|A)=300/300×7=1/7回季,同理家制,從C出發(fā)只有到B的一條路徑,P(B|C)=50/50=1泡一〔梗基于跳轉(zhuǎn)概率可以計(jì)算兩個(gè)節(jié)點(diǎn)之間的有效距離。
dA→B=1-lgP(B|A)鼻忠,A到B跳轉(zhuǎn)概率越大涵但,A到B有效距離越短,即跳轉(zhuǎn)概率與有效距離呈負(fù)相關(guān)關(guān)系帖蔓。A到C的距離根據(jù)距離的傳遞性矮瘟,計(jì)算A到B的距離,B到C的距離塑娇,二者距離相加為A到C的距離澈侠。關(guān)于這個(gè)公式有幾點(diǎn)說明。
a.取對(duì)數(shù):若計(jì)算A到C的概率埋酬,那么概率是相乘的哨啃,為了保證距離的可加性烧栋,因?yàn)閘gab=lga+lgb。
b.取1-:當(dāng)A拳球、B只有一條路徑時(shí)审姓,P(B|A)=1,dA→B=1祝峻,lgP(B|A)=0魔吐,即網(wǎng)格距離也為1。
如果一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)存在多條路徑情況莱找,那么有效距離如何計(jì)算酬姆?
例如宋距,A到D的距離轴踱,分別計(jì)算A到B到D的距離、A到D的距離以及A到C到D的距離谚赎,取三個(gè)距離中的最小值,作為A到D的有效距離诱篷。(我自己的計(jì)算結(jié)果與所給結(jié)果壶唤,雖結(jié)論相同,但是所算距離數(shù)據(jù)并不相等)
引入有效距離棕所,以H1N1和SARS病毒為例闸盔,可以很明顯看出距離與傳播的天數(shù)的正相關(guān)關(guān)系。
4琳省、預(yù)測(cè)到達(dá)時(shí)間
用有效距離除以相應(yīng)的傳播速度迎吵,可以算出有效時(shí)間。但是傳播速度依賴于傳播模型针贬。那是不是就無法計(jì)算傳播時(shí)間呢击费?并不,我們可以通過間接方式計(jì)算傳播時(shí)間桦他。
n蔫巩、m、k為城市快压,假設(shè)我們已知k到n的傳播時(shí)間圆仔,有效距離已知,就可以計(jì)算出k到m的傳播時(shí)間蔫劣。
5坪郭、尋找源頭
假設(shè)每個(gè)城市為傳染源,遍歷每一個(gè)城市脉幢,尋找傳播擴(kuò)散圖呈現(xiàn)圓形歪沃、對(duì)稱的信姓,那么這個(gè)城市就是傳播源頭。
計(jì)算T,D的相關(guān)性:如果知道每個(gè)城市感染病毒的時(shí)間以及任意兩個(gè)城市之間的有效距離意推,只需要求相關(guān)性,任何一個(gè)城市作為假設(shè)的傳播源頭珊蟀,那么已知它到達(dá)每個(gè)城市的時(shí)間以及有效距離菊值,計(jì)算它們之間的相關(guān)性。如果源頭為真正源頭育灸,二者相關(guān)性是最高的腻窒。遍歷所有城市,得到相關(guān)性磅崭,將相關(guān)性進(jìn)行排序儿子,相關(guān)性最大即為源頭。
左圖為H1N1相關(guān)性計(jì)算砸喻,右圖為SARS相關(guān)性計(jì)算柔逼。根據(jù)計(jì)算結(jié)果墨西哥和中國分別H1N1和SARS的傳播源頭,符合客觀事實(shí)割岛。
但是這種方法的弊端是必須知道每一個(gè)城市到達(dá)每一個(gè)城市的傳播時(shí)間愉适,如果病毒沒有傳播結(jié)束,前提是要遍歷每一個(gè)城市癣漆,未出現(xiàn)病毒城市的傳播時(shí)間可以通過間接方法計(jì)算(傳播時(shí)間之比等于有效距離之比)维咸。但是真實(shí)的傳播時(shí)間并不一定等于計(jì)算時(shí)間,可能會(huì)出現(xiàn)誤差惠爽。所以可能會(huì)發(fā)生并沒有出現(xiàn)感染者的某一城市被推算為傳播源頭癌蓖。為了避免這種情況,提出一種新的算法婚肆。
以此刻租副,已感染的城市為源頭,以這個(gè)城市為中心旬痹,看所有城市的有效距離附井。如果這個(gè)城市為傳播源頭,那么這個(gè)城市一定是所有城市傳播事件中心的位置两残,它到其他感染城市的有效距離差不多大小永毅,方差也比較小。具體做法:將所有城市有效距離的均值和方差繪制二維坐標(biāo)圖人弓,那么均值和方差都比較小的一定是傳播源頭沼死,即離圓點(diǎn)最近的為傳播源。
下圖為H1N1的真實(shí)數(shù)據(jù)崔赌,基本推測(cè)準(zhǔn)確意蛀。
6耸别、傳播模型
SIR模型在復(fù)雜網(wǎng)絡(luò)的擴(kuò)展模型
其中,jn為n城市感染比例
sn為n城市疑似病例
rn為n城市康復(fù)比例
γ為人口流動(dòng)平均比例
反應(yīng)項(xiàng):當(dāng)感染者接觸疑似者時(shí)县钥,可能會(huì)到疑似者感染秀姐,感染人數(shù)增加。
康復(fù)項(xiàng)
傳播項(xiàng):n城市轉(zhuǎn)移到m城市
以上若贮,就是我對(duì)于該課程的理解省有,如果存在理解有誤的地方,希望可以批評(píng)指正谴麦。