1危尿、基本統(tǒng)計學(xué)概念
假設(shè)檢驗
? 零假設(shè)(H0):即原假設(shè)
? 備擇假設(shè)(H1):與零假設(shè)對立的假設(shè)
? 計算零假設(shè)(H0)成立的概率
? 如果H0成立的概率很低(e.g. 5% or 1%)史侣,則拒絕原假設(shè)疤坝,接受備擇假設(shè)
? 否則接受原假設(shè)
兩類錯誤與統(tǒng)計功效
? I類錯誤(Type I error): 拒絕真實的H0, 即假陽性迅脐, 概率α為顯著性水平莫瞬;
? II類錯誤(Type II error): 接受錯誤的H0, 即假陰性优床, 概率為β;
? 功效(Power): 拒絕錯誤H0的概率, (1-β)
2誓焦、Case/Control關(guān)聯(lián)分析
病例對照分析
? Case/control胆敞,一般可以用Pearson’s X2檢驗來分析
? 等位基因關(guān)聯(lián),檢測性狀與等位基因的關(guān)聯(lián)性
? 假設(shè)一個標(biāo)記有兩種等位基因杂伟,分別為1和2移层,令Nca為病例,Nco為對照赫粥,列聯(lián)表如下
? H0:列變量與行變量無關(guān)观话,即該位點(diǎn)等位基因的分布與病例-對照無關(guān);
? H1:列變量與行變量有關(guān)越平,即該位點(diǎn)等位基因的分布與病例-對照有關(guān)频蛔。
卡方檢驗
當(dāng)H0成立時,總體趨向卡方分布秦叛,且自由度為(r ? 1)(c ? 1) = (2 ? 1)(2 ? 1) = 1
Note:卡方檢驗就是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度晦溪,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,卡方值越大挣跋,越不符合三圆;卡方值越小,偏差越小,越趨于符合嫌术,若兩個值完全相等時,卡方值就為0牌借,表明理論值完全符合度气。卡方檢驗針對分類變量膨报。
卡方檢驗計算示例
邏輯回歸(可以加入群體結(jié)構(gòu)協(xié)變量)
? 令Yi為第i個個體的質(zhì)量性狀的表型值Yi = {0,1}; 0為其中一種表現(xiàn)型(controls)磷籍,1為另一種表現(xiàn)型(cases);
? Yi = 0; controls; Yi = 1; cases.
? 令Xi為第i個個體某個位點(diǎn)的基因型现柠,Xi = {0,1,2}; 0為其中一種純合基因型(TT)院领,1
為雜和基因型(如GT),2為另一種純合基因型(如GG)够吩;
? Xi = 0; TT; Xi = 1; GT; Xi = 2; GG.
? 邏輯回歸:
? pi = E(Yi|Xi);在Xi條件下Yi的期望比然;
? logit(pi) = loge[pi /(1- pi) ]
? logit(pi) ~ β0 + β1Xi
? 檢驗β1與0是否存在顯著的差異,即為關(guān)聯(lián)p值
? 增加協(xié)變量(性別周循,群體結(jié)構(gòu)矩陣强法,環(huán)境因素等):
? pi = E(Yi | Xi,Ci, Di,…)
? logit(pi)~β0 + β1Xi + β2Ci + β3Di +…
質(zhì)量性狀-卡方檢驗-邏輯回歸結(jié)果比較
3、復(fù)雜性狀使用簡單統(tǒng)計方法是否可行湾笛?
數(shù)量性狀與QTL
? 數(shù)量性狀(quantitative characters):是指在一個群體內(nèi)的各個體間表現(xiàn)
為連續(xù)變異的性狀饮怯,遺傳上一般由多個微效基因控制
? 數(shù)量性狀基因座(quantitative trait locus,QTL):它指的是控制數(shù)量性
狀的基因在基因組中的位置
? QTL定位:發(fā)掘影響數(shù)量性狀變異的遺傳位置的過程
單位點(diǎn)簡單回歸模型
結(jié)論:
1)簡單的統(tǒng)計方法可以用于GWAS嚎研;
2)但是方法本身考慮的影響因素比較少蓖墅,因而假陽性比較高;
3)在標(biāo)記量比較少临扮,針對特定區(qū)間的或個別位點(diǎn)進(jìn)行分析時论矾,可以使
用t測驗、相關(guān)性分析等簡單的方法進(jìn)行杆勇。
4拇囊、復(fù)雜統(tǒng)計模型簡介
主要為 GLM 和 MLM (不做詳細(xì)介紹)