生物統(tǒng)計——離散/連續(xù)型隨機(jī)變量與常見分布

本文是對 孟浩巍
生物信息學(xué)入門課:學(xué)習(xí)生信你需要了解的統(tǒng)計學(xué)課程的學(xué)習(xí)阶界。即將開始新的PhD life,乘著暑期時間充裕涡相,再重新回顧學(xué)習(xí)下生物信息的底層知識——生物統(tǒng)計學(xué)趁尼。

一. 統(tǒng)計學(xué)入門路線與基礎(chǔ)知識導(dǎo)讀

1. 教材與課程資源推薦

  1. 概率論與數(shù)理統(tǒng)計(《概率論基礎(chǔ)教程——Sheldon Ross》);醫(yī)學(xué)統(tǒng)計學(xué)嚎尤;概率論教程荔仁;
  2. 線性代數(shù)+多元統(tǒng)計學(xué);應(yīng)用回歸分析(最小二乘法回歸)芽死。
  3. 統(tǒng)計學(xué)習(xí)(統(tǒng)計需要進(jìn)行實驗設(shè)計)乏梁;機(jī)器學(xué)習(xí)

2. 概率論學(xué)習(xí)的重點

  1. 概率論學(xué)習(xí)重點
    • 隨機(jī)變量和概率的獨立性,條件概率关贵,貝葉斯概率公式
    • 隨機(jī)變量的分布函數(shù)遇骑,常見的離散/連續(xù)分布;
    • 隨機(jī)變量的數(shù)字特征(期望揖曾,方差)
    • 假設(shè)檢驗的基本思想落萎,p-value;t-test
    • 單因素方差分析
    • 簡單線性回歸(本質(zhì)上檢驗多重檢驗的問題)
  2. 醫(yī)學(xué)統(tǒng)計學(xué)上的學(xué)習(xí)重點
    • 上述重點的應(yīng)用
    • 列聯(lián)表檢驗(GO/KEGG):Fisher' test; 卡方檢驗
    • 生存分析炭剪,生存曲線练链,比較兩根曲線有差異;
    • Cox回歸分析(風(fēng)險回歸分析)
  3. 一些進(jìn)階的課程
    • 《多元統(tǒng)計分析及R語言建呐梗》MOOC(icourse163)
    • 《應(yīng)用回歸分析R語言版》書籍
    • 線性代數(shù)/多元統(tǒng)計是機(jī)器學(xué)習(xí)媒鼓,人工智能的基礎(chǔ)
  4. 線性代數(shù)學(xué)習(xí)重點
    • 矩陣運算的本質(zhì)是空間變換
    • 常用矩陣運算法則
    • 特征值,特征向量的幾何理解
    • 常用矩陣分解(普分解)
    • 二次型及其性質(zhì)
  5. 多元統(tǒng)計分析(做應(yīng)用)
    • PCA主成分分析(樣本數(shù)多少的時候错妖,PCA成分好)
    • 線性判別分析
    • 聚類分析(不同聚類方法:歐式距離绿鸣,曼哈頓距離)
    • 因子分析(哪個基因最重要)
  6. 統(tǒng)計學(xué)習(xí)+機(jī)器學(xué)習(xí);吳恩達(dá)MOOC
    • 支持向量機(jī)(SVM)
    • 聚類算法
    • Logistics回歸暂氯;
    • 決策樹模型枚驻;
    • EM算法;
    • 隱馬爾可夫模型(HMM)
    • 提升算法

二. 隨機(jī)變量與概率的計算

1. 什么是隨機(jī)試驗株旷?與隨機(jī)變量?

例如擲色子尔邓,拋硬幣晾剖,任意時間到達(dá)車站。量X是隨著試驗的結(jié)果的不同而變化梯嗽。

  • 離散型隨機(jī)變量(所有可能取的值為有限個)
  • 連續(xù)型隨機(jī)變量(可能取值無窮多)

2. 什么是概率齿尽?概率如何計算?

  • 根據(jù)概率的公理化定義來推導(dǎo)出來灯节。而非概率的收斂

3. 什么是隨機(jī)變量的分布律循头,概率密度函數(shù)绵估?

  • 離散型變量:隨機(jī)變量的分布律


    隨機(jī)變量的概率分布律
  • 連續(xù)型變量X:概率密度函數(shù)f(x)


    image

4. 什么是隨機(jī)變量的概率分布函數(shù)?

  • 離散型和連續(xù)型隨機(jī)變量 二者都可以求概率分布函數(shù)F(X)卡骂。分布函數(shù)是一個累加的效應(yīng)

三. 常見離散隨機(jī)分布

1. 二項分布

image
二項分布的性質(zhì)

X軸為出現(xiàn)某個事件的次數(shù)国裳,y軸為出現(xiàn)對應(yīng)次數(shù)的概率。

  • 當(dāng)p為0.5時全跨,分布是最對稱的缝左,當(dāng)p為0~1其它數(shù)時,分布是不均勻的浓若。

  • 在生信上的應(yīng)用:在基因組上進(jìn)行mutation判斷的時候渺杉,利用二項分布進(jìn)行檢驗。(具體計算genome wide的所有突變率當(dāng)作參數(shù)p挪钓,背景mutation是越,總reads數(shù)為n;判斷某一特定位點是否為mutation:觀察到突變數(shù)為k的pvalue)

  • 缺點:計算量巨大碌上。所以通常情況下倚评,在總數(shù)n很大,p很小绍赛,np不大的時候用泊松分布進(jìn)行擬合蔓纠,效果非常好。

2. 泊松分布

泊松分布

僅有一個參數(shù)“入”吗蚌,即是期望均值腿倚,又是方差。

  • 可以理解為單位時間內(nèi)蚯妇,出現(xiàn) 概率非常小的事 的概率就服從泊松分布敷燎。
    • 具體例子如:單位時間內(nèi)洪水發(fā)生的次數(shù);礦井在某段時間發(fā)生事故的次數(shù)箩言;WGS中比對到某一個區(qū)域內(nèi)的reads count硬贯;RNA-seq中1個gene中比對到的reads count數(shù)目。
  • 泊松定理:泊松分布是二項分布的極限分布陨收,當(dāng)n比較大饭豹,p比較小(p<0.1,np<10)時候务漩,二項分布可看成是參數(shù)為np的泊松分布拄衰。
  • 大多是利用泊松分布去近似計算
n=100000
p=10^(-4)

#二項分布binorm
pbinorm(q=0,size=n,prob=p)

#泊松分布ppoison
ppois(q=0,lambda=n*p)

3. 超幾何分布

超幾何分布
  • 無放回的抽樣
  • GO富集與KEGG富集中的Fisher Exact Test就是利用超幾何分布

4. 幾何分布

幾何分布
  • 出現(xiàn)第一次成功所需要的實驗次數(shù);

  • 幾何分布是具有無記憶性的饵骨。假設(shè)已經(jīng)有m次都沒有成功翘悉,那么為了首次成功再等待的時間是與前面失敗次數(shù)m是無關(guān)的。

5. 負(fù)二項分布(帕斯卡分布)

image
  • Reads count就是使用泊松分布的估計和負(fù)二項分布的修正居触。genome很大妖混,reads落到genome的任意一個區(qū)域是一個很小概率的事件老赤。可以認(rèn)為服從泊松分布制市。reads count就是服從泊松分布抬旺。
  • 缺點:不能保證隨機(jī)抽樣的結(jié)果符合期望和方差相等。
image

disperson 即為k

6. Lander Waterman曲線

image
  • M=1表面就是個完整的基因組息堂。M>1表面還有很多部分沒測到嚷狞。需要增加很多測序量,M下降的為log的測序荣堰。

四. 常見連續(xù)隨機(jī)分布

(概率密度函數(shù))

1. 指數(shù)分布

  • 各種壽命的分布的近似床未。
  • 指數(shù)分布具有無記憶性≌窦幔可以理解為是幾何分布的極限推廣薇搁。

2. Gamma分布

  • 常作為某個事件總共出現(xiàn)N次的等待時間;
  • 可以理解稱負(fù)二項分布的連續(xù)推廣渡八。
  • 芯片數(shù)據(jù)處理時利用Gamma分布啃洋。

3. 正態(tài)分布(高斯分布,誤差分布)(Normal distribution)

image
  • 正態(tài)分布的3sigma法則:1sigma 68.3%屎鳍,2sigma 95%宏娄,3sigma 99%的面積。

  • 對應(yīng)boxplot:中位數(shù)逮壁,Q1下四分?jǐn)?shù)點孵坚,Q3上四分?jǐn)?shù)點,IQR窥淆,Q1-1.5IQR卖宠,Q3+1.5IQR,超過為離群點忧饭。2.698sigma已包含98%以上的數(shù)

    image

  • 若影響某一數(shù)量指標(biāo)的隨機(jī)因素很多扛伍,而每個因素所起的作用都不大,則這個指標(biāo)就服從正態(tài)分布词裤。

  • 正態(tài)分布的加和也服從正態(tài)分布刺洒。

4. 大數(shù)定律 和 中心極限定理

大數(shù)定律:隨機(jī)變量的平均值能夠收斂到期望值。

中心極限定理:大量隨機(jī)變量的加和之后的分布再某些條件下是逼近正態(tài)分布的吼砂。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末作媚,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子帅刊,更是在濱河造成了極大的恐慌,老刑警劉巖漂问,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赖瞒,死亡現(xiàn)場離奇詭異女揭,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)栏饮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門吧兔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人袍嬉,你說我怎么就攤上這事境蔼。” “怎么了伺通?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵箍土,是天一觀的道長。 經(jīng)常有香客問我罐监,道長吴藻,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任弓柱,我火速辦了婚禮沟堡,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘矢空。我一直安慰自己航罗,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布屁药。 她就那樣靜靜地躺著粥血,像睡著了一般。 火紅的嫁衣襯著肌膚如雪者祖。 梳的紋絲不亂的頭發(fā)上立莉,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機(jī)與錄音七问,去河邊找鬼蜓耻。 笑死,一個胖子當(dāng)著我的面吹牛械巡,可吹牛的內(nèi)容都是我干的刹淌。 我是一名探鬼主播,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼讥耗,長吁一口氣:“原來是場噩夢啊……” “哼有勾!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起古程,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蔼卡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后挣磨,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體雇逞,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡荤懂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了塘砸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片节仿。...
    茶點故事閱讀 39,965評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖掉蔬,靈堂內(nèi)的尸體忽然破棺而出廊宪,到底是詐尸還是另有隱情,我是刑警寧澤女轿,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布箭启,位于F島的核電站,受9級特大地震影響谈喳,放射性物質(zhì)發(fā)生泄漏册烈。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一婿禽、第九天 我趴在偏房一處隱蔽的房頂上張望赏僧。 院中可真熱鬧,春花似錦扭倾、人聲如沸淀零。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽驾中。三九已至,卻和暖如春模聋,著一層夾襖步出監(jiān)牢的瞬間肩民,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工链方, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留持痰,地道東北人。 一個月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓祟蚀,卻偏偏與公主長得像工窍,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子前酿,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,914評論 2 355

推薦閱讀更多精彩內(nèi)容