SEISMIC: A Self-Exciting Point Process Model for Predicting Tweet Popularity
概述
- 用自激點過程預(yù)測一條tweet的最終轉(zhuǎn)發(fā)量
- 斯坦福的工作
- 公開了數(shù)據(jù)和代碼:http://snap.stanford.edu/seismic
- 模型不用訓(xùn)練持灰,也沒用過多的特征
- 根據(jù)tweet早期(前一小時)的轉(zhuǎn)發(fā)情況,預(yù)測最終轉(zhuǎn)發(fā)量
- 實驗上只用15%的相對誤差
動機(jī)
- 預(yù)測一篇文章的最終流行度對于內(nèi)容的排序和內(nèi)容的聚合是很重要的
- Twitter這種信息流式的內(nèi)容负饲,用戶幾乎不可能全部跟上堤魁,所以可能會錯過大量的信息
- 準(zhǔn)確的預(yù)測將使Twitter能夠更好地對內(nèi)容進(jìn)行排名,更快地發(fā)現(xiàn)熱門帖子
自激點過程
- 點過程:描述某類事件發(fā)生的時刻返十、地點等的一種隨機(jī)過程妥泉。其中- - - 描述某類事件發(fā)生次數(shù)隨時間變化的過程叫做“計數(shù)過程”,比較常見的是泊松過程
- 自激點過程就是每次時間發(fā)生能使得這個事件的發(fā)生概率發(fā)生變化吧慢,例如霍克斯過程涛漂,自激點過程常常被用來對“rich get richer”現(xiàn)象建模
- 在tweet的轉(zhuǎn)發(fā)過程中,每一次被轉(zhuǎn)發(fā)都可能帶動更多的人轉(zhuǎn)發(fā)检诗,因為轉(zhuǎn)發(fā)能夠使得更多人看到匈仗,而且一個tweet的傳播性也會隨著時間而下降。
SEISMIC (Self-Exciting Model of Information Cascades) 模型
- tweet的傳播性隨時間變化
- 能夠識別某個時間點信息流的狀態(tài):supercritical or subcritical state (超臨界或者亞臨界狀態(tài))逢慌,就是傳播性大于或者小于某個值
- 超臨界狀態(tài)下的信息流正在經(jīng)歷一個“爆炸”增長的時期悠轩, 在這個時候,這個信息的最終流行度無法被準(zhǔn)確的預(yù)測攻泼, 反之就容易預(yù)測火架。
- 模型無參數(shù),也沒有特征工程忙菠,也沒有考慮社交網(wǎng)絡(luò)結(jié)構(gòu)
- 只用到了tweet歷史被轉(zhuǎn)發(fā)的時間和節(jié)點(轉(zhuǎn)發(fā)的人)在社交網(wǎng)絡(luò)里面的度數(shù)(這個人的follow 數(shù)量)
- 模型的時間復(fù)雜度是線性的何鸡,也容易并行化
- 模型有較強的解釋性
實驗效果
- 超過state of the art方法的效果30%(accuracy)
- 用前一小時的記錄預(yù)測,15%的相對誤差
- 用前10分鐘的記錄預(yù)測牛欢,25%的相對誤差
- 實驗還展示了怎么識別將會“病毒式”傳播的tweet
相關(guān)工作
- 一般分為基于特征的方法和基于點過程的方法
- 本工作與其他用霍克斯過程的方法的不同是:本方法的過程的強度(intensity)會依賴于另一個過程強度而變化骡男。
重要參考文獻(xiàn)
- S. Gao, J. Ma, and Z. Chen. Modeling and predicting
retweeting dynamics on microblogging platforms. In WSDM
’15, 2015. 也是點過程做流行度預(yù)測
方法實現(xiàn)
- 一堆公式看得腦殼疼
公式1
公式2
公式3
實驗
- 實驗做了挺多做的挺充分的