群體遺傳學(xué)應(yīng)知應(yīng)會(huì)
今天分享一篇關(guān)于群體遺傳學(xué)的筆記,主要參考了網(wǎng)絡(luò)公開(kāi)資料以及公開(kāi)發(fā)表的文獻(xiàn)鸭叙,包含群體遺傳的概述觉啊、研究方法、應(yīng)用領(lǐng)域递雀、分析流程柄延、統(tǒng)計(jì)學(xué)原理、群體結(jié)構(gòu)評(píng)估等缀程。
群體和個(gè)體有什么區(qū)別搜吧?
在遺傳學(xué)中,群體和個(gè)體是兩個(gè)重要的概念杨凑。群體指的是一組具有共同遺傳特征的個(gè)體滤奈,而個(gè)體則是指單個(gè)生物體。
首先撩满,群體是由多個(gè)個(gè)體組成的蜒程,而個(gè)體是指單個(gè)生物體绅你。群體中的個(gè)體之間可以存在遺傳交流和基因流動(dòng),這會(huì)導(dǎo)致群體中的基因頻率發(fā)生變化昭躺。
其次忌锯,群體遺傳學(xué)研究的是群體中基因的分布和變化規(guī)律,而個(gè)體遺傳學(xué)研究的是個(gè)體中遺傳特征和遺傳變異领炫。
群體遺傳學(xué)關(guān)注的是群體中基因的頻率和分布偶垮,通過(guò)研究群體中的基因組成來(lái)了解群體的遺傳結(jié)構(gòu)和演化過(guò)程。
分子層面對(duì)生物的研究帝洪,在個(gè)體水平上主要是看單個(gè)基因的變化以及全轉(zhuǎn)錄本的變化似舵。
在對(duì)個(gè)體的研究的基礎(chǔ)上,開(kāi)始了群體水平的研究葱峡,群體遺傳學(xué)則是主要研究由不同個(gè)體組成的群體的遺傳規(guī)律砚哗。
為什么要做群體遺傳研究?
理論體系
在測(cè)序技術(shù)大力發(fā)展之前砰奕,對(duì)群體主要是依靠表型進(jìn)行研究蛛芥,如加拉巴哥群島的 13 中鳥(niǎo)雀有著不同的喙,達(dá)爾文認(rèn)為這是自然選擇造成的后果脆淹。
達(dá)爾文的進(jìn)化論對(duì)應(yīng)的觀點(diǎn)可以簡(jiǎn)單概括為“物競(jìng)天擇常空,適者生存”,這也是最為大眾所接受的一種進(jìn)化學(xué)說(shuō)盖溺。
直到 1968 年漓糙,日本遺傳學(xué)家提出了中性進(jìn)化理論,也叫中性演化理論烘嘱。
可以這樣理解中性理論:一群人抽獎(jiǎng)昆禽,在沒(méi)有內(nèi)幕的情況下,每個(gè)人抽到一等獎(jiǎng)的概率是相等的蝇庭,這個(gè)可能性和參與抽獎(jiǎng)的人的身高醉鳖、年齡、愛(ài)好等因素都沒(méi)有關(guān)系哮内。中性理論常作為群體遺傳研究中的假設(shè)理論來(lái)計(jì)算其他各種統(tǒng)計(jì)指標(biāo)盗棵。
技術(shù)手段
測(cè)序價(jià)格大幅度降低,根據(jù) NIH 公布的數(shù)據(jù)來(lái)看北发,近幾年來(lái)測(cè)序技術(shù)普及纹因,二代高通量測(cè)序已經(jīng)成了遺傳研究的必備手段,已經(jīng)完全具備技術(shù)條件琳拨,可以實(shí)現(xiàn)對(duì)群體資源的基因解析瞭恰。
基于重測(cè)序的群體遺傳
重測(cè)序可以獲得某些樣品的基因型信息,得出變異的關(guān)鍵位點(diǎn)狱庇。通過(guò)重測(cè)序可以分析出群體中某些基因的頻率分布和變化惊畏,解析群體遺傳蘊(yùn)含的秘密恶耽。
遺傳變異的類(lèi)型
常見(jiàn)的變異類(lèi)型有SNP、IdDel颜启、SV偷俭、CNV等,重測(cè)序中最關(guān)注的是SNP农曲,其次是InDel社搅。其他的幾種結(jié)構(gòu)變異的研究不是太多驻债。(結(jié)構(gòu)變異往往需要單獨(dú)研究乳规,在此不做擴(kuò)展)
全基因組重測(cè)序
有參考基因組的物種的全基因組測(cè)序叫做重測(cè)序,沒(méi)有參考基因組的物種的全基因組測(cè)序則需要從頭組裝合呐。隨著測(cè)序價(jià)格的降低暮的,越來(lái)越多物種的參考基因組都已經(jīng)測(cè)序組裝完成。
在群體遺傳學(xué)研究中更多的是有參考基因組的物種淌实,植物中常見(jiàn)的是擬南芥冻辩、水稻、小麥和玉米等拆祈。
重測(cè)序分析流程
群體進(jìn)化選擇
正選擇
正選擇可以更好地用自然選擇來(lái)解釋?zhuān)杭偃缫粋€(gè)基因或位點(diǎn)能夠使個(gè)體有著更強(qiáng)的生存力或者是育性恨闪,這樣就會(huì)使得這個(gè)個(gè)體的后代更多,如此一來(lái)放坏,這個(gè)基因或位點(diǎn)在群體中就越來(lái)越多咙咽。
正選擇能夠使有利的突變位點(diǎn)在群體中得到傳播,但是與此同時(shí)卻降低了群體中該位點(diǎn)的多態(tài)性水平淤年。
也就是說(shuō)原先該位點(diǎn)周?chē)暮塑账峤M成是多樣的钧敞,在經(jīng)過(guò)正選擇之后,這個(gè)位點(diǎn)周?chē)塑账岬亩鄻有跃蜐u漸的趨于同質(zhì)化了麸粮。
這就好比一塊田溉苛,里面本來(lái)有水稻和稗草及其他雜草,由于稗草的適應(yīng)性增強(qiáng)弄诲,稗草在逐漸增多愚战,水稻慢慢變少,最后甚至是只剩下了稗草齐遵。
這種選擇之后多態(tài)性降低的情況叫做選擇掃蕩(Selective Sweep)
負(fù)選擇
負(fù)選擇和正選擇剛好是相反的寂玲。如果群體中的某個(gè)個(gè)體出現(xiàn)了一個(gè)致命的突變,從而使自己或者是后代從群體中被淘汰洛搀,這也導(dǎo)致群體中該位點(diǎn)的多態(tài)性的降低敢茁。
就好比我有100株水稻,其中一株在成長(zhǎng)過(guò)程中突然不見(jiàn)了留美,那么對(duì)我的這個(gè)小的水稻群體來(lái)說(shuō)彰檬,這個(gè)消失的水稻的獨(dú)有的位點(diǎn)在群體中就不見(jiàn)了伸刃,整體的多態(tài)性就降低了。
平衡選擇
平衡選擇指多個(gè)等位基因在一個(gè)群體的基因庫(kù)中以高于遺傳漂變預(yù)期的頻率被保留逢倍,如雜合子優(yōu)勢(shì)捧颅。
平衡選擇檢測(cè)的算法BetaScan2是個(gè)Python腳本,輸入文件只需要過(guò)濾好的SNP數(shù)據(jù)即可较雕。
群體遺傳學(xué)統(tǒng)計(jì)指標(biāo)
群體多態(tài)性參數(shù)
參數(shù)定義:其中是有效群體大小碉哑,是每個(gè)位點(diǎn)的突變速率。
分離位點(diǎn)數(shù)目
分離位點(diǎn)數(shù)是的估計(jì)值亮蒋,表示相關(guān)基因在多序列比對(duì)中表現(xiàn)出多態(tài)性的位置扣典。
其中為分離位點(diǎn)數(shù)量,比如SNP數(shù)量慎玖。為個(gè)體數(shù)量的倒數(shù)和贮尖。
核酸多樣性
指的是核苷酸多樣性,值越大說(shuō)明核苷酸多樣性越高趁怔。通常用于衡量群體內(nèi)的核苷酸多樣性湿硝,也可以用來(lái)推演進(jìn)化關(guān)系。
可以理解成現(xiàn)在群體內(nèi)兩兩求润努,再計(jì)算群體的均值,常用軟件是vcftools
关斜。
如上圖示例,Sh4基因(控制水稻落粒)在所有亞群中的核酸多樣性降低铺浇,說(shuō)明該基因在所有亞群中受到選擇痢畜,可能與人工育種選擇有關(guān)。
群體內(nèi)選擇檢驗(yàn)
Tajima's D
是日本學(xué)者Tajima Fumio 1989年提出的一種統(tǒng)計(jì)檢驗(yàn)方法随抠,用于檢驗(yàn)DNA序列在演化過(guò)程中是否遵循中性演化模型裁着。
D值大小有如下三種生物學(xué)意義:
- D > 0: 平衡選擇,突然收縮拱她《郏【稀有等位基因以低頻率存在】
- D < 0: 經(jīng)歷瓶頸效應(yīng),隨后群體擴(kuò)張秉沼⊥叭福【稀有等位基因以高頻率存在】
- D = 0: 平衡演變,沒(méi)有選擇的證據(jù)
群體間分歧度
叫固定分化指數(shù)唬复,用于估計(jì)亞群間平均多態(tài)性大小與整個(gè)種群平均多態(tài)性大小的差異矗积,反映的是群體結(jié)構(gòu)的變化。
的取值范圍是[0,1]敞咧。當(dāng)=1時(shí)表明亞群間有著明顯的種群分化棘捣,值越高表示分化程度越高。
在中性進(jìn)化條件下休建,的大小主要取決于遺傳漂變和遷移等因素的影響乍恐。假設(shè)種群中的某個(gè)等位基因?qū)μ囟ōh(huán)境的適應(yīng)度較高而經(jīng)歷適應(yīng)性選擇评疗,那該基因的頻率在種群中會(huì)升高,種群的分化水平增大茵烈,群體升高百匆。
值可以和GWAS的結(jié)果一起進(jìn)行分析,超過(guò)一定閾值的區(qū)域往往和GWAS篩選到的位點(diǎn)是一致的呜投。
如上圖關(guān)于棉花的重測(cè)序群體遺傳分析中加匈,GWAS顯著性峰值信號(hào)與的峰值信號(hào)有重疊,相互印證仑荐。
群體分歧度檢驗(yàn)
ROD可以基于野生群體和馴化群體間核苷酸多態(tài)性參數(shù) 的差異識(shí)別選擇型號(hào)雕拼,也可以測(cè)量馴化群體和野生型群體相比損失的多態(tài)性。
ROD和Fst一樣释漆,都可以和GWAS分析結(jié)合起來(lái)悲没,通常某個(gè)顯著關(guān)聯(lián)的重要位點(diǎn),其周?chē)鷮?duì)應(yīng)的核酸多樣性男图、選擇分化指數(shù)都有明顯變化,環(huán)環(huán)相扣甜橱。
群體結(jié)構(gòu)分析
進(jìn)化樹(shù)逊笆、PCA和群體分層圖是群體遺傳分析的常見(jiàn)三劍客,它們的目的都是為了展示群體結(jié)構(gòu)信息岂傲,比如材料之間的分組难裆,親緣關(guān)系,聚類(lèi)信息等镊掖。
進(jìn)化樹(shù)
進(jìn)化樹(shù)就是將個(gè)體按照遠(yuǎn)近關(guān)系分別連接起來(lái)的圖乃戈,其中有根樹(shù)就是所有的個(gè)體都有一個(gè)共同的祖先,線條離得越近亩进,表示樣品親緣關(guān)系越相似症虑,如下圖:
外群定根法:當(dāng)群體的個(gè)體的差異很小時(shí),可以引入其他物種作為根归薛。
無(wú)根樹(shù)只展示個(gè)體間的距離谍憔,無(wú)共同祖先,可以自由的重建拓?fù)浣Y(jié)構(gòu)主籍,從而修改樹(shù)的形狀习贫,如下圖所示:
繪制方法:常用的繪圖軟件是Phylip和Snpphylo。進(jìn)化樹(shù)修飾的軟件有MEGA千元,ggtree等苫昌,推薦網(wǎng)頁(yè)版工具iTOL,可以在線操作幸海。
PCA 主成分分析
PCA是很常見(jiàn)的降維方法祟身,能夠清晰明了的看出樣品之間的分布情況屋厘,散點(diǎn)圖中點(diǎn)的直線距離越近,說(shuō)明關(guān)系越緊密月而。PCA計(jì)算的軟件很多汗洒,plink可以直接用vcf文件計(jì)算PCA。
基于PCA進(jìn)行分群
根據(jù)PCA圖中的散點(diǎn)信息進(jìn)行材料劃分父款,比如下圖關(guān)于大豆重測(cè)序的文章附圖溢谤,不同顏色的點(diǎn)明顯呈現(xiàn)不同的分布規(guī)律,各自代表不同亞群憨攒。
基于PCA進(jìn)行離群檢測(cè)
離群樣本就是在PCA圖看起來(lái)和其他樣本差異很大的樣本世杀,有可能是這個(gè)樣本的遺傳背景和其他樣本本來(lái)就很大,也有可能是樣本混淆了肝集,比如了將野生型的樣本標(biāo)記成了馴化種進(jìn)行測(cè)序瞻坝。
基于PCA推斷亞群進(jìn)化關(guān)系
可以通過(guò)PCA分析看出不同個(gè)體之間的分布關(guān)系,通常與地理因素有關(guān)杏瞻,比如歐洲和亞洲之間由于空間距離原因所刀,導(dǎo)致兩個(gè)亞群的差異較大,在PCA結(jié)果中顯示的點(diǎn)距離較遠(yuǎn)捞挥。
群體分層圖
進(jìn)化樹(shù)和PCA能夠看出來(lái)群體是不是分層的浮创,但是無(wú)法知道群體分成幾個(gè)群合適,也無(wú)法看出群體間的基因交流砌函。不用怕斩披,群體分層圖會(huì)出手。
群體分層圖的本質(zhì)是堆疊的柱狀圖讹俊,每個(gè)柱子是一個(gè)樣本垦沉,可以看出一個(gè)樣本的血緣組成,有幾種顏色就說(shuō)明該樣本由幾個(gè)祖先而來(lái)仍劈。
如果只有一個(gè)色厕倍,那就說(shuō)明個(gè)體很純。如果有一塊顏色很統(tǒng)一耳奕,說(shuō)明這一塊兒的樣本都含有相似血脈绑青,應(yīng)該屬于同一亞群。
連鎖不平衡分析
連鎖不平衡(Linkage disequilibrium屋群,LD)由兩個(gè)名詞構(gòu)成闸婴,連鎖
+不平衡
,兩者是對(duì)立統(tǒng)一的關(guān)系芍躏,從某個(gè)角度來(lái)說(shuō)邪乍,表示變異的相關(guān)性,這個(gè)相關(guān)關(guān)系,可以使用相關(guān)系數(shù) 來(lái)度量庇楞。
LD就是度量?jī)蓚€(gè)分子標(biāo)記的基因型變化是否步調(diào)一致榜配,存在相關(guān)性的指標(biāo)。如果兩個(gè) SNP 標(biāo)記位置相鄰吕晌,那么在群體中也會(huì)呈現(xiàn)基因型步調(diào)一致的情況蛋褥。比如有兩個(gè)基因座,分別對(duì)應(yīng) A/a
和 B/b
兩種等位基因睛驳。
如果兩個(gè)基因座是連鎖的烙心,我們將會(huì)看到某些基因型往往共同遺傳,即某些單倍型的頻率會(huì)高于期望值乏沸。
LD 計(jì)算方法
通常使用 和 來(lái)表示兩個(gè)位點(diǎn)之間的LD水平淫茵,假如兩個(gè)連鎖的座位A和B,等位基因是A蹬跃、a匙瘪、B、b蝶缀,對(duì)應(yīng)的頻率用 加下標(biāo)來(lái)表示丹喻,如表示單倍型Ab對(duì)應(yīng)的頻率。(共有4個(gè)等位基因扼劈,以及4種單倍型)
則實(shí)際觀測(cè)到的單倍型頻率與期望的單倍型頻率之間差異 的計(jì)算方法是:
相關(guān)系數(shù) 的計(jì)算方法是:
的計(jì)算方法是:
LD 衰減分析
隨著標(biāo)記間的距離增加驻啤,平均的LD程度將降低,呈現(xiàn)出衰減狀態(tài)荐吵,這種情況叫LD衰減。
LD 衰減可以用于判斷群體的多樣性差異赊瞬,一般野生型群體的LD衰減快于馴化群體先煎。通過(guò)LD衰減距離和標(biāo)記間的平均距離來(lái)判斷GWAS使用的標(biāo)記數(shù)量是否足夠。
GWAS 全基因組關(guān)聯(lián)分析
全基因組關(guān)聯(lián)分析巧涧,常用在醫(yī)學(xué)和農(nóng)學(xué)領(lǐng)域薯蝎。簡(jiǎn)單理解成將SNP等遺傳標(biāo)記和表型數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,檢測(cè)和表型相關(guān)的位點(diǎn)谤绳,然后再倒回去找到對(duì)應(yīng)的基因占锯,研究其對(duì)表型的影響。這些被研究的表型在醫(yī)學(xué)上常常是疾病的表型缩筛;在農(nóng)學(xué)上常常是受關(guān)注的農(nóng)藝性狀消略,比如水稻的株高、產(chǎn)量瞎抛、穗粒數(shù)等艺演。
GWAS數(shù)學(xué)模型
以上僅做簡(jiǎn)單介紹,具體的數(shù)學(xué)模型和方法請(qǐng)根據(jù)相關(guān)資料進(jìn)行了解。
GWAS結(jié)果信息
GWAS結(jié)果文件通常只有兩個(gè)圖胎撤,一個(gè)是曼哈頓圖晓殊,另外一個(gè)是QQ圖。一般是先看QQ圖伤提,如果QQ圖正常巫俺,曼哈頓圖的結(jié)果才有意義。
QQ圖
正常的QQ圖會(huì)略微上翹肿男,如果QQ圖不正常介汹,就要考慮換個(gè)模型算法再試試了。
曼哈頓圖
其實(shí)本質(zhì)上就是散點(diǎn)圖次伶,每一個(gè)點(diǎn)表示一個(gè)位點(diǎn)痴昧,位點(diǎn)越高表示越顯著,如果點(diǎn)多了而且高低不一致冠王,看起來(lái)就像曼哈頓的高樓一樣錯(cuò)綜復(fù)雜赶撰。(優(yōu)雅的科研人)
上圖中展示的是棉花重測(cè)序進(jìn)行GWAS分析的結(jié)果,關(guān)鍵出峰的點(diǎn)就是研究目標(biāo)位置柱彻,之后再進(jìn)行功能驗(yàn)證實(shí)驗(yàn)豪娜。
最后,感謝您閱讀至此哟楷!這篇筆記的素材是整理了簡(jiǎn)書(shū)上“研究僧小藍(lán)哥”部分內(nèi)容瘤载,對(duì)群體遺傳學(xué)習(xí)有一定幫助,如果感覺(jué)有用歡迎轉(zhuǎn)發(fā)卖擅,多多交流鸣奔。
參考資料:
http://www.reibang.com/p/807e54278539
https://zhuanlan.zhihu.com/p/541850657
http://www.reibang.com/p/9793e14c0d08
本文由mdnice多平臺(tái)發(fā)布