本文是對 孟浩巍
生物信息學(xué)入門課:學(xué)習(xí)生信你需要了解的統(tǒng)計學(xué)課程的學(xué)習(xí)阶界。即將開始新的PhD life,乘著暑期時間充裕涡相,再重新回顧學(xué)習(xí)下生物信息的底層知識——生物統(tǒng)計學(xué)趁尼。
一. 統(tǒng)計學(xué)入門路線與基礎(chǔ)知識導(dǎo)讀
1. 教材與課程資源推薦
- 概率論與數(shù)理統(tǒng)計(《概率論基礎(chǔ)教程——Sheldon Ross》);醫(yī)學(xué)統(tǒng)計學(xué)嚎尤;概率論教程荔仁;
- 線性代數(shù)+多元統(tǒng)計學(xué);應(yīng)用回歸分析(最小二乘法回歸)芽死。
- 統(tǒng)計學(xué)習(xí)(統(tǒng)計需要進(jìn)行實驗設(shè)計)乏梁;機(jī)器學(xué)習(xí)
2. 概率論學(xué)習(xí)的重點
- 概率論學(xué)習(xí)重點
- 隨機(jī)變量和概率的獨立性,條件概率关贵,貝葉斯概率公式
- 隨機(jī)變量的分布函數(shù)遇骑,常見的離散/連續(xù)分布;
- 隨機(jī)變量的數(shù)字特征(期望揖曾,方差)
- 假設(shè)檢驗的基本思想落萎,p-value;t-test
- 單因素方差分析
- 簡單線性回歸(本質(zhì)上檢驗多重檢驗的問題)
- 醫(yī)學(xué)統(tǒng)計學(xué)上的學(xué)習(xí)重點
- 上述重點的應(yīng)用
- 列聯(lián)表檢驗(GO/KEGG):Fisher' test; 卡方檢驗
- 生存分析炭剪,生存曲線练链,比較兩根曲線有差異;
- Cox回歸分析(風(fēng)險回歸分析)
- 一些進(jìn)階的課程
- 《多元統(tǒng)計分析及R語言建呐梗》MOOC(icourse163)
- 《應(yīng)用回歸分析R語言版》書籍
- 線性代數(shù)/多元統(tǒng)計是機(jī)器學(xué)習(xí)媒鼓,人工智能的基礎(chǔ)
- 線性代數(shù)學(xué)習(xí)重點
- 矩陣運算的本質(zhì)是空間變換
- 常用矩陣運算法則
- 特征值,特征向量的幾何理解
- 常用矩陣分解(普分解)
- 二次型及其性質(zhì)
- 多元統(tǒng)計分析(做應(yīng)用)
- PCA主成分分析(樣本數(shù)多少的時候错妖,PCA成分好)
- 線性判別分析
- 聚類分析(不同聚類方法:歐式距離绿鸣,曼哈頓距離)
- 因子分析(哪個基因最重要)
- 統(tǒng)計學(xué)習(xí)+機(jī)器學(xué)習(xí);吳恩達(dá)MOOC
- 支持向量機(jī)(SVM)
- 聚類算法
- Logistics回歸暂氯;
- 決策樹模型枚驻;
- EM算法;
- 隱馬爾可夫模型(HMM)
- 提升算法
二. 隨機(jī)變量與概率的計算
1. 什么是隨機(jī)試驗株旷?與隨機(jī)變量?
例如擲色子尔邓,拋硬幣晾剖,任意時間到達(dá)車站。量X是隨著試驗的結(jié)果的不同而變化梯嗽。
- 離散型隨機(jī)變量(所有可能取的值為有限個)
- 連續(xù)型隨機(jī)變量(可能取值無窮多)
2. 什么是概率齿尽?概率如何計算?
- 根據(jù)概率的公理化定義來推導(dǎo)出來灯节。而非概率的收斂
3. 什么是隨機(jī)變量的分布律循头,概率密度函數(shù)绵估?
-
離散型變量:隨機(jī)變量的分布律
隨機(jī)變量的概率分布律 -
連續(xù)型變量X:概率密度函數(shù)f(x)
image
4. 什么是隨機(jī)變量的概率分布函數(shù)?
- 離散型和連續(xù)型隨機(jī)變量 二者都可以求概率分布函數(shù)F(X)卡骂。分布函數(shù)是一個累加的效應(yīng)
三. 常見離散隨機(jī)分布
1. 二項分布
X軸為出現(xiàn)某個事件的次數(shù)国裳,y軸為出現(xiàn)對應(yīng)次數(shù)的概率。
當(dāng)p為0.5時全跨,分布是最對稱的缝左,當(dāng)p為0~1其它數(shù)時,分布是不均勻的浓若。
在生信上的應(yīng)用:在基因組上進(jìn)行mutation判斷的時候渺杉,利用二項分布進(jìn)行檢驗。(具體計算genome wide的所有突變率當(dāng)作參數(shù)p挪钓,背景mutation是越,總reads數(shù)為n;判斷某一特定位點是否為mutation:觀察到突變數(shù)為k的pvalue)
缺點:計算量巨大碌上。所以通常情況下倚评,在總數(shù)n很大,p很小绍赛,np不大的時候用泊松分布進(jìn)行擬合蔓纠,效果非常好。
2. 泊松分布
僅有一個參數(shù)“入”吗蚌,即是期望均值腿倚,又是方差。
-
可以理解為單位時間內(nèi)蚯妇,出現(xiàn) 概率非常小的事 的概率就服從泊松分布敷燎。
- 具體例子如:單位時間內(nèi)洪水發(fā)生的次數(shù);礦井在某段時間發(fā)生事故的次數(shù)箩言;WGS中比對到某一個區(qū)域內(nèi)的reads count硬贯;RNA-seq中1個gene中比對到的reads count數(shù)目。
- 泊松定理:泊松分布是二項分布的極限分布陨收,當(dāng)n比較大饭豹,p比較小(p<0.1,np<10)時候务漩,二項分布可看成是參數(shù)為np的泊松分布拄衰。
- 大多是利用泊松分布去近似計算
n=100000
p=10^(-4)
#二項分布binorm
pbinorm(q=0,size=n,prob=p)
#泊松分布ppoison
ppois(q=0,lambda=n*p)
3. 超幾何分布
- 無放回的抽樣
- GO富集與KEGG富集中的Fisher Exact Test就是利用超幾何分布
4. 幾何分布
出現(xiàn)第一次成功所需要的實驗次數(shù);
幾何分布是具有無記憶性的饵骨。假設(shè)已經(jīng)有m次都沒有成功翘悉,那么為了首次成功再等待的時間是與前面失敗次數(shù)m是無關(guān)的。
5. 負(fù)二項分布(帕斯卡分布)
- Reads count就是使用泊松分布的估計和負(fù)二項分布的修正居触。genome很大妖混,reads落到genome的任意一個區(qū)域是一個很小概率的事件老赤。可以認(rèn)為服從泊松分布制市。reads count就是服從泊松分布抬旺。
- 缺點:不能保證隨機(jī)抽樣的結(jié)果符合期望和方差相等。
disperson 即為k
6. Lander Waterman曲線
- M=1表面就是個完整的基因組息堂。M>1表面還有很多部分沒測到嚷狞。需要增加很多測序量,M下降的為log的測序荣堰。
四. 常見連續(xù)隨機(jī)分布
(概率密度函數(shù))
1. 指數(shù)分布
- 各種壽命的分布的近似床未。
- 指數(shù)分布具有無記憶性≌窦幔可以理解為是幾何分布的極限推廣薇搁。
2. Gamma分布
- 常作為某個事件總共出現(xiàn)N次的等待時間;
- 可以理解稱負(fù)二項分布的連續(xù)推廣渡八。
- 芯片數(shù)據(jù)處理時利用Gamma分布啃洋。
3. 正態(tài)分布(高斯分布,誤差分布)(Normal distribution)
正態(tài)分布的3sigma法則:1sigma 68.3%屎鳍,2sigma 95%宏娄,3sigma 99%的面積。
-
對應(yīng)boxplot:中位數(shù)逮壁,Q1下四分?jǐn)?shù)點孵坚,Q3上四分?jǐn)?shù)點,IQR窥淆,Q1-1.5IQR卖宠,Q3+1.5IQR,超過為離群點忧饭。2.698sigma已包含98%以上的數(shù)
image 若影響某一數(shù)量指標(biāo)的隨機(jī)因素很多扛伍,而每個因素所起的作用都不大,則這個指標(biāo)就服從正態(tài)分布词裤。
正態(tài)分布的加和也服從正態(tài)分布刺洒。
4. 大數(shù)定律 和 中心極限定理
大數(shù)定律:隨機(jī)變量的平均值能夠收斂到期望值。
中心極限定理:大量隨機(jī)變量的加和之后的分布再某些條件下是逼近正態(tài)分布的吼砂。