群體進化-gwas分析
群體進化基礎(chǔ)分析
PCA
- 分析原理
- PCA(Principal Component Analysis)宽堆,即主成分分析方法,是一種使用最廣泛的數(shù)據(jù)降維算法弹渔。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來的k維特征。PCA的工作就是從原始的空間中順序地找一組相互正交的坐標(biāo)軸蝎土,新的坐標(biāo)軸的選擇與數(shù)據(jù)本身是密切相關(guān)的。其中绣否,第一個新坐標(biāo)軸選擇是原始數(shù)據(jù)中方差最大的方向誊涯,第二個新坐標(biāo)軸選取是與第一個坐標(biāo)軸正交的平面中使得方差最大的,第三個軸是與第1,2個軸正交的平面中方差最大的蒜撮。依次類推暴构,可以得到n個這樣的坐標(biāo)軸。通過這種方式獲得的新的坐標(biāo)軸段磨,我們發(fā)現(xiàn)取逾,大部分方差都包含在前面k個坐標(biāo)軸中,后面的坐標(biāo)軸所含的方差幾乎為0苹支。于是砾隅,我們可以忽略余下的坐標(biāo)軸,只保留前面k個含有絕大部分方差的坐標(biāo)軸债蜜。事實上晴埂,這相當(dāng)于只保留包含絕大部分方差的維度特征,而忽略包含方差幾乎為0的特征維度寻定,實現(xiàn)對數(shù)據(jù)特征的降維處理儒洛。
- 簡潔點來講現(xiàn)在有這樣的數(shù)據(jù),100個樣品狼速,2M標(biāo)記琅锻,即是2000000X100的矩陣,那么就通過數(shù)學(xué)降維的方法簡化到100X3甚至100X2乘(即PC1向胡,PC2)
- 分析軟件
- GCTA
- tassel
- EIGENSTRAT
- 結(jié)果展示
- PCA結(jié)果矩陣(特征向量)
GWAS_1 0.0295707 0.0174155 -0.0245656
GWAS_10 0.0212291 -0.0552983 -0.0280335
GWAS_100 -0.0645872 0.00456635 0.00588907
GWAS_101 -0.0779853 -0.0317529 0.0138288
GWAS_102 -0.0790227 -0.0295285 0.0147819
GWAS_105 -0.0845384 0.000685319 0.0108059
GWAS_108 -0.0779536 -0.00380985 0.0101755
GWAS_109 -0.0789908 -0.00534946 0.012742
GWAS_11 0.0152839 0.0185823 -0.0305629
GWAS_110 -0.080786 -0.00255263 0.0131448
* 第一列樣品名稱浅浮,第二列PC1的值,第三列PC2的值捷枯,第四列PC3的值(也就是平時看到的結(jié)果圖的橫縱坐標(biāo)來源)
* PCA解釋數(shù)據(jù)結(jié)果(特征值)
54.402
32.2402
25.6809
18.0063
13.7968
9.6096
9.46086
9.00158
8.16587
7.60115
* 這個結(jié)果每一個值對應(yīng)的維度的解釋情況滚秩,行數(shù)與樣品數(shù)量一致,第一行代表第一維淮捆,依次類推郁油;每一行除以所有行數(shù)的和即是其第幾維解釋的比例
- PCA結(jié)果圖
-
- 結(jié)果要點
- 結(jié)果圖中相對分群結(jié)果合理本股,大部分跟生產(chǎn)經(jīng)驗相一致
- 解釋度可接受,這個方面想了解的話桐腌,可以看看文獻的拄显,不是硬標(biāo)準(zhǔn)
TREE
-
分析原理
- 系統(tǒng)發(fā)育分析中,最重要和最常見的內(nèi)容為構(gòu)建系統(tǒng)發(fā)育樹案站。系統(tǒng)發(fā)育樹也稱為系統(tǒng)發(fā)生樹(phylogenetic tree)躬审、聚類樹或者進化樹(evolutionary tree)。以樹狀結(jié)構(gòu)表示各個節(jié)點的進化關(guān)系蟆盐,枝點可以是物種承边、同一物種的樣本、基因等單元石挂。
- 根據(jù)SNP或者Indel 構(gòu)建其系統(tǒng)進化樹博助,可以展示群體中不同個體的相互關(guān)系,基因變異相似的往往會在同一個樹的cluster中痹愚,一顆好的樹可以給你一個群體大概的分類(你這個群體中有多少個cluster富岳,一般同一個亞種或者有親緣關(guān)系的個體會形成一個cluster),這是群體遺傳中重要的一部分拯腮。其構(gòu)建的核心原理就是把每個位點SNPs的信息提取窖式,然后計算每個變異位點的差異得到算法中的“距離”。
-
分析軟件
- treebest
- mega
- taseel
- snphylo
- phylip
-
算法
- nj 臨近算法
- ml 最大似然值
-
結(jié)果展示
- 結(jié)果要點
- 分群清晰,大部分樣品與已知生產(chǎn)經(jīng)驗一致
STructure
-
分析原理
- 先預(yù)設(shè)群體由若干亞群(k=x)構(gòu)成动壤,通過模擬算法找出在k=x的情況下萝喘,最合理的樣本分類方法。最后再根據(jù)每次模擬的最大似然值狼电,找出最適用這群體的K值。
-
分析軟件
- STRUCTURE
- ADMIXTURE
- FRAPPE
- fast-STRUCTURE
-
算法
- 亞群內(nèi)符合哈溫平衡
- 那么弦蹂,軟件在如何確定樣本的最優(yōu)分類方法呢肩碟?其實基于一個假設(shè):在各個亞群內(nèi)部個體應(yīng)該符合哈代-溫伯格平衡(哈溫平衡的概念可以在百度查詢),那么這個亞群內(nèi)的基因頻率分布應(yīng)該可通過哈溫平衡檢驗凸椿。例如削祈,現(xiàn)在有40個個體的1個SNP位點的基因型,我預(yù)設(shè)亞群數(shù)k=2脑漫。我先隨機將40個個體分成兩份髓抑,然后檢驗是否符合哈溫平衡。如果不符合优幸,我繼續(xù)調(diào)整分類策略吨拍,直到找到一種最優(yōu)的分類方法:40個個體被分為了兩份,每個亞群都由若干個體構(gòu)成网杆,每個亞群內(nèi)部都最大程度地符合哈溫平衡羹饰。
- 每個位點是獨立的
- 同一個體基因組上的不同SNP可能來源不同亞群體,軟件是對每個位點單獨進行分群的,然后統(tǒng)計比例,所以要求進行分析的每個位點是獨立,不然會造成比例的不準(zhǔn)確
- 每個樣本的血統(tǒng)構(gòu)成
- 以k=2為例伊滋,解釋一下structure是如何找到樣本的最優(yōu)分類。其實簡單說來队秩,就是利用了計算機超強的運行能力笑旺,一開始計算機只是隨機將樣本分為兩份,然后在每個亞群內(nèi)進行哈溫平衡檢驗馍资。如果不符合哈溫平衡(拍腦袋的分類筒主,一開始當(dāng)然是慘不忍睹),計算機繼續(xù)調(diào)整分類鸟蟹,然后繼續(xù)檢驗乌妙。
- 如此這般,在計算n次后戏锹,計算機再從這一堆結(jié)果中找到最佳的分類冠胯。這個過程稱為“隱馬科夫-蒙特卡羅鏈”的過程,計算次數(shù)n就是這個鏈的長度锦针,這是structure一個重要的參數(shù)“Number of MCMC Reps”荠察,需要預(yù)先設(shè)定。
- 但因為這個計算的過程是從隨機模擬開始的奈搜。如果一開始拍腦袋拍的不好(隨機分類與真實分類差距太大)悉盆,計算機一黑到底,最后把n次用完了馋吗,都沒有找到一個合理的分類焕盟。所以,分析軟件往往有個預(yù)實驗的過程宏粤。
- 就是在正式進行大規(guī)模運算前脚翘,計算機先嘗試各種各樣的隨機分類,運行非常短的次數(shù)绍哎,然后評估哪種隨機分類是最合理的来农。之后,在根據(jù)最優(yōu)的隨機分類崇堰,進行后續(xù)的大規(guī)模運算沃于。這個過程就稱為burn-in period,預(yù)實驗的次數(shù)就稱為burin-in的次數(shù)海诲。這也是structure分析另外一個重要的參數(shù)“l(fā)ength of burn-in period”繁莹。
- 選擇使用那種模型
- 主要涉及兩種模型 no admixture model和admixture model。前者假設(shè)亞群間不存在雜交特幔,后者則假設(shè)亞群間存在雜交咨演。在絕大部分情況下,當(dāng)然是選擇admixture 模型更合理了蚯斯。
- 亞群內(nèi)符合哈溫平衡
-
結(jié)果展示
- 結(jié)果要點
- 最終k值選取的結(jié)果跟實際生產(chǎn)相符性
- 一般會以該結(jié)果的0.8或者0.6以上血緣比例的作為標(biāo)準(zhǔn)(血緣復(fù)雜的根據(jù)情況有些可以追溯原因)
LD
- 分析原理
- 只要兩個基因不是完全獨立遺傳雪标,就會表現(xiàn)出某種程度的連鎖零院,這種情況就叫連鎖不平衡。
- 由于HLA不同基因座某些基因經(jīng)常連鎖在一起遺傳村刨,而連鎖的基因并非完全的隨機的組成單體型告抄,有些基因總是較多的在一起出現(xiàn),致使某些單體型在群體中呈現(xiàn)較高的頻率嵌牺,從而引起連鎖不平衡打洼。
- 假如位于同一染色體的兩個等位基因(AB)同時存在的概率大于人群中因隨機分布而同時出現(xiàn)的概率,稱這兩點處于LD狀態(tài)逆粹。
- LD的基本單位是D募疮,但是度量觀察到的單倍型頻率與平衡狀態(tài)下期望頻率的偏差。
- 雖然D能夠很好的表達LD的基本含義僻弹,但是由于其嚴格依賴于等位基因頻率(allele frequency)阿浓,故不適合應(yīng)用于表述實際的LD強度。
- 所以一般在LD的度量中最常見的是D'和r2蹋绽。二者各有各的特點和用途芭毙,但都是基于D的。
- 當(dāng)D'=0卸耘,r2=0時退敦,處于完全連鎖平衡狀態(tài)
- 當(dāng)D'=1,r2=1時蚣抗,處于完全連鎖不平衡狀態(tài)侈百。
- 其中,從0—1之間的度量越高翰铡,LD越高钝域,如果兩個位點連鎖,連鎖程度也越高锭魔。
- 分析軟件
- plink
- haploview
- 算法
- 1例证、設(shè)有兩個位點(A、B)赂毯,等位基因分別是A战虏、a拣宰、B党涕、b,在群體中對應(yīng)頻率f(A)巡社、f(a)膛堤、f(B)和f(b)
- 2、兩個位點共有四種單倍型AB晌该、Ab肥荔、aB绿渣、ab,對應(yīng)頻率f(AB)燕耿、f(Ab)中符、f(aB)和f(ab)
- 3、計算:Dab=f(AB)-f(A)*f(B)
- 當(dāng)Dab=0時誉帅,處于連鎖平衡狀態(tài)淀散;
- 當(dāng)Dab≠0時,處于連鎖不平衡狀態(tài)蚜锨。
- LD度量:
- 當(dāng)Dab>0档插,|D'|=(Dab)2/min(f(AB), f(ab));
- 當(dāng)Dab<0亚再,|D'|=(Dab)2/min(f(Ab), f(aB))郭膛;
- r2=(Dab)2/(f(A)f(a)f(B)*f(b));
-
結(jié)果展示
- 結(jié)果要點
- 一般如果是GWAS項目,沒有明顯的分群的話,會做這個作為一個平均連鎖距離的依據(jù)(文章中大多采用兩種策略:1.LD的R2降到最高點的一半時的距離作為平均連鎖距離;2.LD的R2降到0.2時的距離作為平均連鎖距離)
- 如果是群體進化項目,會有非常明確的群體劃分,各自群體分別進行LD分析,能夠從一定程度上討論進化快慢等信息
- 倒三角的具體區(qū)段的連鎖圖一般結(jié)合具體的GWAS等的位點一塊展示氛悬,這個是不可能全基因組繪制的
GWAS
- 分析原理
- 基本思想:應(yīng)用于復(fù)雜性狀则剃,采用CASE-CONTROL試驗設(shè)計,比較全基因組范圍內(nèi)所有SNP位點的等位基因或者基因型頻率在case與control組中的差異,如果某個snp位點等位基因或者等位基因型case組中的頻率明顯高于或者低于caontrol組,則認為該位點與該疾病間存在關(guān)聯(lián)
- 分析軟件
- MVP
- GEmma
- plink
- taseel
- GAPIT
- FarmCpu
- 算法
- LM
- MLM
- FarmCpu
- 方案設(shè)計要點
- 群體大小 >300
- 群體分層不明顯(具有一致的遺傳背景或者資源的群體)
- 覆蓋全基因組的高密度的標(biāo)記(至少保證平均一個block內(nèi)有一個標(biāo)記,中玉金標(biāo)記公司內(nèi)現(xiàn)有芯片只有660k符合)
- 表型數(shù)據(jù)記錄準(zhǔn)確性
- 植物數(shù)據(jù)盡量是多年多點的數(shù)據(jù)
- 表型分布比較廣泛(大體成正太分布)
-
結(jié)果展示
- 結(jié)果要點
群體進化高級分析-群體選擇消除分析
pi
-
分析原理
- π用來分析堿基多態(tài)性圆雁,多態(tài)性越低忍级,受選擇程度越高。
-
分析軟件
- vcftools
算法
結(jié)果展示
結(jié)果要點
fst
- 分析原理
- 群體的固定系數(shù)F反映了群體等位基因雜合性水平伪朽。固定系數(shù)F是F統(tǒng)計量(Fst)的一個特例轴咱。Fst分析表示群體的分化程度,值越大烈涮,群體分化程度越高朴肺,受選擇程度越高。
- 分析軟件
- vcftools
- 算法
- 結(jié)果展示
- 結(jié)果要點
XP-LXR
- 分析原理
- 分析軟件
- 算法
- 結(jié)果展示
- 結(jié)果要點
D
w
ROH
群體進化高級分析-種群動態(tài)等
PSMC
- 分析原理
- 分析軟件
- 算法
-
結(jié)果展示
- 結(jié)果要點
Treemix
- 分析原理
- 分析軟件
- 算法
-
結(jié)果展示
- 結(jié)果要點
案例解讀
群體進化
案例一:NG-熊貓群體進化-2012
- 文章:Whole-genome sequencing of giant pandas provides insights into demographic history and local adaptation
- 基礎(chǔ)數(shù)據(jù):34只熊貓,4.7x覆蓋深度
- 分析結(jié)果:
-
群體結(jié)構(gòu)分析
-
* 種群歷史動態(tài)分析
* 選擇消除分析結(jié)果注釋情況
* 該項目使用fst進行選擇消除分析,分析后受選擇的基因進行KEGG富集分析
案例二:NC-牦牛群體進化-2015
文章:Yak whole-genome resequencing reveals domestication signatures and prehistoric population expansions
基礎(chǔ)數(shù)據(jù):13野生牦牛和59馴化品種,6.7X測序深度,14.56M高質(zhì)量SNP
-
分析結(jié)果
-
群體結(jié)構(gòu)分析
-
* 選擇消除分析
* 種群歷史動態(tài)分析 && 統(tǒng)計分析
*
gwas
案例一:NG-韓斌2010年經(jīng)典水稻14農(nóng)藝性狀GWAS文章
- 文章:Genome-wide association studies of 14 agronomic traits in rice landraces
- 基礎(chǔ)數(shù)據(jù):517水稻樣品,3.6M SNP,水稻indica,japonica
-
看下文章的作者
-
分析結(jié)果
-
tree && LD && maf
-
* tree && PCA
* imputation 準(zhǔn)確性評估(2010年測序成本還很高,所以進行的地深度測序,進行缺失推斷)
* 這里評估了LD,測序錯誤,測序覆蓋情況,樣品數(shù)量對推斷結(jié)果的影響
* GWAS結(jié)果曼哈頓圖和QQ圖展示
* 使用了兩種算法,一般線性模型和混合線性模型
* gwas關(guān)聯(lián)定位情況統(tǒng)計表格
* 展示基本的性狀,定位染色體,位點,兩種基因型,最小等位基因頻率,p值以及前期研究的積累的情況
* GWAS結(jié)果曼哈頓圖局部展示與基因結(jié)構(gòu)展示
* 定位位點及數(shù)量統(tǒng)計
* 其實是有對比兩種算法的結(jié)果
案例二:NG-韓斌2011年水稻開花期與果實性狀GWAS文章
- 文章:Genome-wide association study of flowering time and grain yield traits in a worldwide collection of rice germplasm
- 基礎(chǔ)數(shù)據(jù):950水稻樣品,來源于33個國家,4.1M snp
- 數(shù)據(jù)過濾:maf 0.05
- 為什么可以很快又發(fā)一篇NG
- 樣品來源范圍及樣品數(shù)量擴大
- 性狀改變
-
重點進行了結(jié)果單體型的分析
- 分析結(jié)果
- tree && fst
-
相對于2010年的文章,該次進行了群體間fst分析
-
- tree && fst
* 6個已定位基因的關(guān)鍵變異信息
* 單體型的結(jié)果展示
* 單體型的數(shù)據(jù)統(tǒng)計
* GWAS結(jié)果曼哈頓圖和QQ圖
* 這次可以看到?jīng)]有一般線性模型了,那是因為上篇比較過,沒必要再進行比較了
* GWAS定位基因情況
* 本篇中比較簡潔,性狀,染色體,物理位置,基因,基因的描述
* 局部定位結(jié)果及基因結(jié)構(gòu)情況
* 注意,這里加入了表達量的情況
案例三:NG-日本2016年水稻開花相關(guān)基因性狀GWAS分析
- 文章:Genome-wide association study using whole-genome sequencing rapidly identifies new genes influencing agronomic traits in rice
- 基礎(chǔ)數(shù)據(jù):176japonica,5.8X,383g,426k snp,67k indel
- 過濾maf:0.05
- 分析結(jié)果
- 表型數(shù)據(jù)信息,以及176樣品能夠代表413樣品(我記得該文章是從之前文章的數(shù)據(jù)中拿了176樣品進行的GWAS分析)
* 表型處理后分布統(tǒng)計情況及PCA展示群體情況
* 不同性狀GWAS分析結(jié)果情況
* 文章證據(jù)充分:
1. 做了轉(zhuǎn)基因(轉(zhuǎn)的不同的單體型)的對照實驗
2. 單體型分析到位:包含snp和indel
3. 對gwas定位結(jié)果的分級,為后期驗證的順序有指導(dǎo)意義
案例四:NG-棉花-纖維相關(guān)性狀GWAS分析
文章:Resequencing a core collection of upland cotton identifies genomic variation and loci influencing fiber quality and yield
基礎(chǔ)數(shù)據(jù):419樣品,6.55X數(shù)據(jù),3.66M snp,13個性狀
第一批棉花gwas項目,對A,D基因組差異進行了分析,環(huán)境有12個,有相應(yīng)的擬南芥過表達表型驗證
-
分析結(jié)果
-
數(shù)據(jù)注釋統(tǒng)計
-
* 群體結(jié)構(gòu)分析
* 亞群多態(tài)性和LD分析
* GWAS分析結(jié)果
群體進化+GWAS
案例一:NBT-田志喜-大豆-2014群體gwas文章
- 文章:resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean
- 基礎(chǔ)數(shù)據(jù):302個野生,栽培,地方品種大豆,11X,
- 分析結(jié)果
-
樣品來源與群體結(jié)構(gòu)
-
* LD分析
* 選擇消除分析與GWAS分析結(jié)果
* fst統(tǒng)計分析