概率分布細(xì)談:厚尾絮缅、長尾耕魄、冪律吸奴、指數(shù)

在人類行為和社交網(wǎng)絡(luò)等社會學(xué)數(shù)據(jù)分析中奄抽,"厚尾" "長尾" “冪律” “指數(shù)”等數(shù)學(xué)術(shù)語頻繁出現(xiàn)甩鳄,新手閱讀文獻(xiàn)時往往摸不著頭腦妙啃。在這篇文章中揖赴,我將逐一梳理這些常見概念的關(guān)系燥滑。

0. 指數(shù)分布

在介紹厚尾分布之前阿逃,我們需要先理解一個基礎(chǔ)連續(xù)概率分布——指數(shù)分布恃锉。指數(shù)分布一般用來刻畫獨(dú)立隨機(jī)事件發(fā)生的時間間隔。例如肪跋,你在公交站等車州既,公交車到達(dá)的時間受天氣,路況褥琐,交通等不確定因素影響晤郑,兩班車的間隔不一定是均勻的造寝。在這種情況下,指數(shù)分布可以用來估計(jì)兩班公交之間的時間間隔析显。

1. 厚尾分布是什么谷异?

厚尾分布一般指“尾部”比指數(shù)分布“厚重“的分布歹嘹,如下圖所示孔庭, 紅色的曲線為指數(shù)分布的CCDF圆到,藍(lán)色為厚尾分布的CCDF

尾部厚重

常見厚尾分布 有

  • 帕雷托Pareto分布芽淡,也稱為冪率power-law分布, 具有漸近尺度不變性挣菲,對于性質(zhì)分析很有幫助


    power-low distribution
  • 對數(shù)正態(tài) LogNormal
  • Weibull
  • Zipf
  • Cauchy
  • Student’s t
  • Frechet

厚尾分布的子類目

Regularly varying
次指數(shù)分布Subexponential己单,服從浩劫原則纹笼,對于隨機(jī)游走等問題的研究很有幫助


Subexponential Distributions

長尾分布Long-tailed,服從等待時間爆炸原則件已,對于極端情形研究很有幫助


Long-tailed Distributions

Fat-tailed

下面這張圖說明厚尾分布的各種類型

Types of heavy-tailed

2. 厚尾分布的性質(zhì)

厚尾分布具有許多有趣的特性

  • 帕雷托準(zhǔn)則Pareto principle : 20%的人擁有社會上80%的財富
  • 方差無限, 甚至均值無限
  • 重大事件相對發(fā)生頻繁

它們的3個基本性質(zhì)

  • 尺度不變性Scale Invariance


    尺度不變性

    定理可證明,一個分布具有尺度不變性當(dāng)且僅當(dāng)這個分布是帕累托分布


    漸近尺度不變性

    定理可證明鉴未,一個分布具有漸近尺度不變性當(dāng)且僅當(dāng)這個分布是Regular varying分布
    regularly varying
  • 浩劫原則Catastrophe principle
    通俗意義上來說铜秆,浩劫原則指的是僅需要極少甚至一個意外就可以帶來巨大的災(zāi)難连茧。浩劫原則是厚尾分布的特性之一巍糯。相對而言,輕尾分布則服從陰謀原則罚斗,可理解為需要多數(shù)樣本聚合才能產(chǎn)生一定的效果搀愧。


    浩劫原則和陰謀原則

    一個分布服從浩劫原則當(dāng)且僅當(dāng)這個分布是一個次指數(shù)分布

  • 等待時間爆炸residual life blows up
    通俗理解咱筛,如果你沒有很快收到郵件答復(fù)迅箩,那么你可能永遠(yuǎn)收不到了~假定你已經(jīng)等待了x時間处铛,那么剩余等待時間的分布是


    residual life distribution

    如果是一個指數(shù)分布


    residual life distribution of exponential
    它仍然是指數(shù)分布奕塑,也就是說白等了x時間家肯。如果是一個帕雷托分布,那就很可怕了式镐,等待時間會隨著已等時間x上升娘汞!
    residual life distribution of pareto
mean residual life & hazard rate
DHR IMRL

3. 什么時候會出現(xiàn)厚尾分布?

考慮獨(dú)立同分布的隨機(jī)變量Xi燎孟,它們的和如何變化?

方差有限時领迈,隨機(jī)變量的和服從0均值的正態(tài)分布
CLT

方差無限時,隨機(jī)變量的和服從厚尾分布
GCLT

在人類生活中尘喝,厚尾分布比正態(tài)分布更經(jīng)常出現(xiàn)

  • 累加性過程 Additive Processes,如上述方差無限時
  • 乘積性過程 Multiplicative Proces
    example of multiplicative process

    在乘積性中心極限法則的作用下朽褪,對數(shù)正態(tài)分布出現(xiàn)
    log normal

    MCLT
    如果在乘積性過程中加入噪聲或者是較低的屏障缔赠,冪律分布出現(xiàn)~
    power law
  • 極值過程 Extremal Process
    極值過程也會導(dǎo)致厚尾分布的出現(xiàn),l


    extremal process

4. 厚尾分布的識別

方案1在雙對數(shù)坐標(biāo)系下度宦,冪律分布呈線性

識別不同分布

注意使用rank plot(ccdf)而不是簡單的frequency plot(pdf)
ccdf VS pdf

指數(shù)分布還是冪律分布离唬?

通過雙對數(shù)坐標(biāo)系下的線性判斷冪律分布也有一定風(fēng)險输莺,因?yàn)閷?shù)正態(tài)模闲、Weibull分布也可能是線性的,而且尾部通常含有更多噪聲啰脚,不符合linear regression全局噪聲恒定的假設(shè)

方案2使用MLE估計(jì)alpha

MLE &WLS

如果僅有尾部符合冪律分布橄浓,如何識別亮航?Hill Estimator ! 這里就不多做介紹啦

Reference

http://users.cms.caltech.edu/~adamw/papers/2013-SIGMETRICS-heavytails.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末缴淋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子露氮,更是在濱河造成了極大的恐慌畔规,老刑警劉巖恨统,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件莫绣,死亡現(xiàn)場離奇詭異由捎,居然都是意外死亡兔综,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門狞玛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人涧窒,你說我怎么就攤上這事心肪。” “怎么了纠吴?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵硬鞍,是天一觀的道長。 經(jīng)常有香客問我,道長固该,這世上最難降的妖魔是什么锅减? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任每瞒,我火速辦了婚禮剿骨,結(jié)果婚禮上浓利,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好屠升,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布翰萨。 她就那樣靜靜地躺著殖告,像睡著了一般。 火紅的嫁衣襯著肌膚如雪爽丹。 梳的紋絲不亂的頭發(fā)上真仲,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼焰宣。 笑死,一個胖子當(dāng)著我的面吹牛闪唆,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播帆调,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼影锈,長吁一口氣:“原來是場噩夢啊……” “哼枣抱!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起宵晚,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤逸贾,失蹤者是張志新(化名)和其女友劉穎铝侵,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疟丙,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡炊琉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年皇钞,在試婚紗的時候發(fā)現(xiàn)自己被綠了馆里。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖评汰,靈堂內(nèi)的尸體忽然破棺而出主儡,到底是詐尸還是另有隱情,我是刑警寧澤寂汇,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布累贤,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏始鱼。R本人自食惡果不足惜卖氨,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一五嫂、第九天 我趴在偏房一處隱蔽的房頂上張望躯枢。 院中可真熱鬧,春花似錦讥巡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間痊乾,已是汗流浹背湿滓。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工魔市, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留待德,地道東北人橡庞。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像再菊,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容