在人類行為和社交網(wǎng)絡(luò)等社會學(xué)數(shù)據(jù)分析中奄抽,"厚尾" "長尾" “冪律” “指數(shù)”等數(shù)學(xué)術(shù)語頻繁出現(xiàn)甩鳄,新手閱讀文獻(xiàn)時往往摸不著頭腦妙啃。在這篇文章中揖赴,我將逐一梳理這些常見概念的關(guān)系燥滑。
0. 指數(shù)分布
在介紹厚尾分布之前阿逃,我們需要先理解一個基礎(chǔ)連續(xù)概率分布——指數(shù)分布恃锉。指數(shù)分布一般用來刻畫獨(dú)立隨機(jī)事件發(fā)生的時間間隔。例如肪跋,你在公交站等車州既,公交車到達(dá)的時間受天氣,路況褥琐,交通等不確定因素影響晤郑,兩班車的間隔不一定是均勻的造寝。在這種情況下,指數(shù)分布可以用來估計(jì)兩班公交之間的時間間隔析显。
1. 厚尾分布是什么谷异?
厚尾分布一般指“尾部”比指數(shù)分布“厚重“的分布歹嘹,如下圖所示孔庭, 紅色的曲線為指數(shù)分布的CCDF圆到,藍(lán)色為厚尾分布的CCDF
常見厚尾分布 有
-
帕雷托Pareto分布芽淡,也稱為冪率power-law分布, 具有漸近尺度不變性挣菲,對于性質(zhì)分析很有幫助
power-low distribution - 對數(shù)正態(tài) LogNormal
- Weibull
- Zipf
- Cauchy
- Student’s t
- Frechet
厚尾分布的子類目
Regularly varying
次指數(shù)分布Subexponential己单,服從浩劫原則纹笼,對于隨機(jī)游走等問題的研究很有幫助
Subexponential Distributions
長尾分布Long-tailed,服從等待時間爆炸原則件已,對于極端情形研究很有幫助
Long-tailed Distributions
Fat-tailed
下面這張圖說明厚尾分布的各種類型
2. 厚尾分布的性質(zhì)
厚尾分布具有許多有趣的特性
- 帕雷托準(zhǔn)則Pareto principle : 20%的人擁有社會上80%的財富
- 方差無限, 甚至均值無限
- 重大事件相對發(fā)生頻繁
它們的3個基本性質(zhì)
-
尺度不變性Scale Invariance
尺度不變性
定理可證明,一個分布具有尺度不變性當(dāng)且僅當(dāng)這個分布是帕累托分布
漸近尺度不變性
定理可證明鉴未,一個分布具有漸近尺度不變性當(dāng)且僅當(dāng)這個分布是Regular varying分布
regularly varying -
浩劫原則Catastrophe principle
通俗意義上來說铜秆,浩劫原則指的是僅需要極少甚至一個意外就可以帶來巨大的災(zāi)難连茧。浩劫原則是厚尾分布的特性之一巍糯。相對而言,輕尾分布則服從陰謀原則罚斗,可理解為需要多數(shù)樣本聚合才能產(chǎn)生一定的效果搀愧。
浩劫原則和陰謀原則
一個分布服從浩劫原則當(dāng)且僅當(dāng)這個分布是一個次指數(shù)分布
-
等待時間爆炸residual life blows up
通俗理解咱筛,如果你沒有很快收到郵件答復(fù)迅箩,那么你可能永遠(yuǎn)收不到了~假定你已經(jīng)等待了x時間处铛,那么剩余等待時間的分布是
residual life distribution如果是一個指數(shù)分布
residual life distribution of exponential
residual life distribution of pareto
3. 什么時候會出現(xiàn)厚尾分布?
考慮獨(dú)立同分布的隨機(jī)變量Xi燎孟,它們的和如何變化?
在人類生活中尘喝,厚尾分布比正態(tài)分布更經(jīng)常出現(xiàn)
- 累加性過程 Additive Processes,如上述方差無限時
-
乘積性過程 Multiplicative Proces example of multiplicative processlog normal
MCLTpower law -
極值過程 Extremal Process
極值過程也會導(dǎo)致厚尾分布的出現(xiàn),l
extremal process
4. 厚尾分布的識別
方案1在雙對數(shù)坐標(biāo)系下度宦,冪律分布呈線性
注意使用rank plot(ccdf)而不是簡單的frequency plot(pdf)
通過雙對數(shù)坐標(biāo)系下的線性判斷冪律分布也有一定風(fēng)險输莺,因?yàn)閷?shù)正態(tài)模闲、Weibull分布也可能是線性的,而且尾部通常含有更多噪聲啰脚,不符合linear regression全局噪聲恒定的假設(shè)
方案2使用MLE估計(jì)alpha
如果僅有尾部符合冪律分布橄浓,如何識別亮航?Hill Estimator ! 這里就不多做介紹啦
Reference
http://users.cms.caltech.edu/~adamw/papers/2013-SIGMETRICS-heavytails.pdf