群體遺傳學(xué)與重測(cè)序分析

分子層面對(duì)生物的研究妄壶,在個(gè)體水平上主要是看單個(gè)基因的變化以及全轉(zhuǎn)錄本的變化(RNA-seq)摔握;在對(duì)個(gè)體的研究的基礎(chǔ)上,開始了群體水平的研究丁寄。如果說常規(guī)的遺傳學(xué)主要的研究對(duì)象是個(gè)體或者個(gè)體家系的話氨淌,那么群體遺傳學(xué)則是主要研究由不同個(gè)體組成的群體的遺傳規(guī)律。
在測(cè)序技術(shù)大力發(fā)展之前伊磺,對(duì)群體主要是依靠表型進(jìn)行研究盛正,如加拉巴哥群島的13中鳥雀有著不同的喙,達(dá)爾文認(rèn)為這是自然選擇造成的后果^{[1]}屑埋。達(dá)爾文的進(jìn)化論對(duì)應(yīng)的觀點(diǎn)可以簡(jiǎn)單概括為“物競(jìng)天擇豪筝,適者生存”,這也是最為大眾所接受的一種進(jìn)化學(xué)說摘能。直到1968年续崖,日本遺傳學(xué)家提出了中性進(jìn)化理論[2],也叫中性演化理論徊哑。中性理論的提出很大程度上是基于分子生物化學(xué)的發(fā)展袜刷。可以這樣理解中性理論:一群人抽獎(jiǎng)莺丑,在沒有內(nèi)幕的情況下著蟹,每個(gè)人抽到一等獎(jiǎng)的概率是相等的,這個(gè)可能性和參與抽獎(jiǎng)的人的身高梢莽、年齡萧豆、愛好等因素都沒有關(guān)系。中性理論常作為群體遺傳研究中的假設(shè)理論(CK)來計(jì)算其他各種統(tǒng)計(jì)指標(biāo)昏名。
群體遺傳學(xué)涮雷,研究的單位是群體,比如粳稻轻局、秈稻洪鸭、野生稻,就能夠構(gòu)成不同的群體仑扑;我們國內(nèi)的各省份的水稻也可以作為一個(gè)個(gè)群體览爵。 群體遺傳學(xué)大概可以分為群體內(nèi)的研究和群體間的研究。比如研究云南元陽的水稻的遺傳多樣性镇饮;如果研究是的云南元陽的水稻和東北的水稻蜓竹,那就可以算成是群體間的研究。群體間和群體內(nèi)的研究是相互的。
測(cè)序價(jià)格的急劇下降[3]使得大規(guī)模的群體測(cè)序得以實(shí)現(xiàn)俱济。

測(cè)序價(jià)格變化趨勢(shì)


0 幾種變異類型

常見的變異類型有SNP嘶是、IdDel、SV蛛碌、CNV等聂喇。重測(cè)序中最關(guān)注的是SNP,其次是InDel左医。其他的幾種結(jié)構(gòu)變異的研究不是太多授帕。


常見的變異類型

1 重測(cè)序和從頭組裝

有參考基因組的物種的全基因組測(cè)序叫做重測(cè)序,沒有參考基因組的物種的全基因組測(cè)序則需要從頭組裝浮梢。隨著測(cè)序價(jià)格的降低跛十,越來越多物種的參考基因組都已經(jīng)測(cè)序組裝完成。plant genomes[4]網(wǎng)站實(shí)時(shí)顯示全基因組測(cè)序已經(jīng)完成的植物秕硝,其中2012年以后爆發(fā)式增長芥映。在群體遺傳學(xué)研究中更多的是有參考基因組的物種,尤其是模式物種远豺,植物中常見的是擬南芥奈偏、水稻和玉米。

重測(cè)序和從頭組裝

plant genomes

2 重測(cè)序分析流程

主要的分析流程見下圖。現(xiàn)在的測(cè)序公司基本上都會(huì)幫客戶完成整個(gè)的分析流程,因?yàn)橹饕馁M(fèi)的資源是計(jì)算資源副编。我認(rèn)為在整個(gè)分析的流程中最重要的是Linux目錄的構(gòu)建秒拔,混亂的目錄會(huì)導(dǎo)致后續(xù)的分析頻頻出問題聊训,重測(cè)序分析會(huì)生成很多的中間文件,良好的目錄管理會(huì)使得項(xiàng)目分析流程井然有序。
該部分涉及到的軟件的安裝和基礎(chǔ)的Linux基礎(chǔ)知識(shí)就不詳細(xì)說明了。


重測(cè)序分析流程

Nature Genetics[5]

3 群體進(jìn)化選擇

3.1 正選擇

正選擇似乎可以更好地用自然選擇來解釋枉证。就是一個(gè)基因or位點(diǎn)能夠使個(gè)體有著更強(qiáng)的生存力或者是育性,這樣就會(huì)使得這個(gè)個(gè)體的后代更多移必,如此一來室谚,這個(gè)基因or位點(diǎn)在群體中就越來越多。


正選擇[6]

正選擇能夠使有利的突變基因or位點(diǎn)在群體中得到傳播崔泵,但是與此同時(shí)卻降低了群體的多態(tài)性水平秒赤。也就是說原先該位點(diǎn)周圍的核苷酸組成是多樣性的,在經(jīng)過正選擇之后憎瘸,這個(gè)位點(diǎn)周圍核苷酸的多樣性就漸漸的趨于同質(zhì)化了倒脓。這就好比一塊田,里面本來有水稻和稗草及其他雜草含思,由于稗草的適應(yīng)性增強(qiáng),稗草在逐漸增多,水稻慢慢變少含潘,最后甚至是只剩下了稗草饲做。
我們將這種選擇之后多態(tài)性降低的情況叫做選擇掃蕩(Selective Sweep)。檢測(cè)選擇掃蕩的軟件有SweeD[7]遏弱。選擇掃蕩有可能是人工選擇的結(jié)果盆均,如2014年 Nature Genetics關(guān)于非洲栽培稻的文章就使用了SweeD來檢測(cè)非洲栽培稻基因組上受人工選擇的區(qū)域[8]。


SweeD在非洲栽培稻上的應(yīng)用[8]

3.2 負(fù)選擇

負(fù)選擇和正選擇剛好是相反的漱逸。簡(jiǎn)單理解成群體中的某個(gè)個(gè)體出現(xiàn)了一個(gè)致命的突變泪姨,從而自己或者是后代從群體中被淘汰。這也導(dǎo)致群體中該位點(diǎn)的多態(tài)性的降低饰抒。就好比我有10株水稻肮砾,其中一株在成長過程中突然不見了,那么對(duì)我的這個(gè)小的水稻群體來說袋坑,這個(gè)消失的水稻的獨(dú)有的位點(diǎn)在群體中就不見了仗处,整體的多態(tài)性就降低了。


圖片出處暫時(shí)不詳

3.3 平衡選擇

平衡選擇指多個(gè)等位基因在一個(gè)群體的基因庫中以高于遺傳漂變預(yù)期的頻率被保留枣宫,如雜合子優(yōu)勢(shì)婆誓。


平衡選擇[9]

平衡選擇檢測(cè)的算法有BetaScan2[10],這是個(gè)Python腳本也颤,輸入文件只需要過濾好的SNP數(shù)據(jù)即可洋幻。


4 群體遺傳學(xué)中的統(tǒng)計(jì)指標(biāo)

4.1 群體多態(tài)性參數(shù)

計(jì)算公式為:
\theta = 4N_e\mu
其中N_e是有效群體大小,\mu是每個(gè)位點(diǎn)的突變速率翅娶。但是群體大小往往是無法精確知道的文留,需要對(duì)其進(jìn)行估計(jì)。

4.2 分離位點(diǎn)數(shù)目

分離位點(diǎn)數(shù)\theta_w\theta的估計(jì)值故觅,表示相關(guān)基因在多序列比對(duì)中表現(xiàn)出多態(tài)性的位置厂庇。計(jì)算公式為:
\theta_w = \frac{K}{a_n}
其中K為分離位點(diǎn)數(shù)量,比如SNP數(shù)量输吏。
a_n為個(gè)體數(shù)量的倒數(shù)和:
a_n = \sum^{n-1}_{i = 1}\frac{1}{i}

4.3 核苷酸多樣性\pi

\pi指的是核苷酸多樣性权旷,值越大說明核苷酸多樣性越高。通常用于衡量群體內(nèi)的核苷酸多樣性贯溅,也可以用來推演進(jìn)化關(guān)系[11]拄氯。計(jì)算公式為:
\pi = \sum_{ij}x_ix_j\pi_{ij}=2*\sum_{i = 2}^{n}\sum_{j=1}^{i-1}x_ix_j\pi{ij}
可以理解成現(xiàn)在群體內(nèi)兩兩求\pi,再計(jì)算群體的均值它浅。計(jì)算的軟件最常見的是vcftools译柏,也有對(duì)應(yīng)的R包PopGenome。通常是選定有一定的基因組區(qū)域姐霍,設(shè)定好窗口大小鄙麦,然后滑動(dòng)窗口進(jìn)行計(jì)算典唇。
3KRGP文章就計(jì)算了水稻不同亞群間4號(hào)染色體部分區(qū)域上的\pi值[12],能夠看出控制水稻籽粒落粒性的基因Sh4^{[13]}位置多態(tài)性在所有的亞群中都降低了胯府。說明這個(gè)基因在所有的亞群中都是受到選擇的介衔,這可能是人工選擇的結(jié)果。

3KRGP不同亞群核苷酸多態(tài)性

4.4 群體內(nèi)選擇檢驗(yàn):Tajima's D

Tajima's D是日本學(xué)者Tajima Fumio 1989年提出的一種統(tǒng)計(jì)檢驗(yàn)方法骂因,用于檢驗(yàn)DNA序列在演化過程中是否遵循中性演化模型[14]炎咖。計(jì)算公式為:
D=\frac{\pi-\theta_w}{\sqrt{V(\pi-\theta_w)}}
D值大小有如下三種生物學(xué)意義:

D值生物學(xué)意義

4.5 群體間分歧度檢驗(yàn):F_{st}

F_{st}叫固定分化指數(shù),用于估計(jì)亞群間平均多態(tài)性大小與整個(gè)種群平均多態(tài)性大小的差異寒波,反映的是群體結(jié)構(gòu)的變化乘盼。其簡(jiǎn)單估計(jì)的計(jì)算公式為:
F_{st}=\frac{\pi_{Between}-\pi_{Within}}{\pi_{Between}}
F_{st}的取值范圍是[0,1]。當(dāng)F_{st}=1時(shí)俄烁,表明亞群間有著明顯的種群分化绸栅。
在中性進(jìn)化條件下,F_{st}的大小主要取決于遺傳漂變和遷移等因素的影響猴娩。假設(shè)種群中的某個(gè)等位基因因?yàn)閷?duì)特定的生境的適應(yīng)度較高而經(jīng)歷適應(yīng)性選擇阴幌,那該基因的頻率在種群中會(huì)升高,種群的分化水平增大卷中,使得種群有著較高的F_{st}值矛双。
F_{st}值可以和GWAS的結(jié)果一起進(jìn)行分析,F_{st}超過一定閾值的區(qū)域往往和GWAS篩選到的位點(diǎn)是一致的蟆豫,如2018年棉花重測(cè)序的文章[15]:

棉花重測(cè)序文章圖

4.6 群體分歧度檢驗(yàn):ROD

ROD可以基于野生群體和馴化群體間核苷酸多態(tài)性參數(shù)\pi的差異識(shí)別選擇型號(hào)议忽,也可以測(cè)量馴化群體和野生型群體相比損失的多態(tài)性。計(jì)算公式為:
ROD=1-\frac{\pi_{馴化群體}}{\pi_{野生群體}}
F_{st}一樣十减,ROD也可以和GWAS結(jié)合起來:

2019年油菜重測(cè)序文章圖[16]


5 群體結(jié)構(gòu)分析

群體結(jié)構(gòu)分析可以簡(jiǎn)單理解成采樣測(cè)序的這些個(gè)體可以分成幾個(gè)小組栈幸,以及給每個(gè)個(gè)體之間的遠(yuǎn)近關(guān)系是怎么樣的。群體結(jié)構(gòu)分析三劍客帮辟, 分別是進(jìn)化樹速址、PCA群體結(jié)構(gòu)圖

5.1 進(jìn)化樹

進(jìn)化樹就是將個(gè)體按照遠(yuǎn)近關(guān)系分別連接起來的圖由驹。

5.1.1 進(jìn)化樹算法

5.1.1.1 基于距離

  • 非加權(quán)算術(shù)平均對(duì)群法UPGMA
  • 鄰接法Neighbor-joining

5.1.1.2 基于特征

  • 最大簡(jiǎn)約法—最小變化數(shù)(祖先狀態(tài)最小化)
  • 最大似然法—所有枝長和模型參數(shù)最優(yōu)化
  • 貝葉斯推斷—基于后驗(yàn)概率

5.1.2 進(jìn)化樹類型

  • 有根樹
    有根樹就是所有的個(gè)體都有一個(gè)共同的祖先芍锚。就像這樣的:


    油菜重測(cè)序文章圖[16]
  • 無根樹
    無根樹只展示個(gè)體間的距離,無共同祖先蔓榄,就像這樣的:


    水稻3K文章圖[12]

5.1.3 進(jìn)化樹軟件

常用的繪圖軟件是PhylipSnpphylo并炮。進(jìn)化樹修飾的軟件有MEGAggtree等甥郑,推薦網(wǎng)頁版工具iTOL逃魄,無比強(qiáng)大。
外群定根法:當(dāng)群體的個(gè)體的差異很小時(shí)澜搅,可以引入其他物種作為根伍俘。如在對(duì)三葉草建樹時(shí)可以引入水稻的序列作為根進(jìn)行建樹邪锌。

5.2 PCA圖

PCA是很常見的降維方法,如微生物研究中常用來檢驗(yàn)樣品分群情況癌瘾。PCA計(jì)算的軟件很多秃流,plink可以直接用vcf文件計(jì)算PCA,R語言也可以進(jìn)行PCA計(jì)算柳弄。


油菜重測(cè)序文章圖[16]

PCA圖在群體重測(cè)序中有如下幾種作用:

  • 查看分群信息,就是測(cè)序的樣品大概分成幾個(gè)群概说。如2015年大豆重測(cè)序文章的圖[17]:


    大豆重測(cè)序文章圖
  • 檢測(cè)離群樣本
    離群樣本就是在PCA圖看起來和其他樣本差異很大的樣本碧注,有可能是這個(gè)樣本的遺傳背景和其他樣本本來就很大,也有可能是樣本混淆了糖赔,比如了將野生型的樣本標(biāo)記成了馴化種進(jìn)行測(cè)序萍丐。如果有離群樣本,那在后續(xù)的類似于GWAS的分析中就需要將離群樣本進(jìn)行剔除放典。當(dāng)然如果樣本本來就是個(gè)很特別的逝变,那就另當(dāng)別論。
  • 推斷亞群進(jìn)化關(guān)系
    可以從PCA圖可以看出群體的進(jìn)化關(guān)系奋构,尤其是地理位置的進(jìn)化關(guān)系壳影。


    葡萄群體重測(cè)序文章圖[18]

5.3 群體分層圖

進(jìn)化樹和PCA能夠看出來群體是不是分層的,但是無法知道群體分成幾個(gè)群合適弥臼,也無法看出群體間的基因交流宴咧,更無法看出個(gè)體的混血程度。這時(shí)候就需要群體分層圖了径缅。

葡萄群體重測(cè)序文章圖[18]

群體分層圖的本質(zhì)是堆疊的柱狀圖掺栅,和微生物研究中的物種組成柱狀圖類似。每個(gè)柱子是一個(gè)樣本纳猪,可以看出一個(gè)樣本的血緣組成氧卧,有幾種顏色就說明該樣本由幾個(gè)祖先而來,如果只有一個(gè)色氏堤,那就說明這個(gè)個(gè)體很純沙绝。
常用的軟件有structureADMIXTURE[19]。兩款軟件給出的結(jié)果都是值丽猬。一般選擇最低的點(diǎn)為最終的值宿饱。
K值選擇(圖片來自維基百科)

群體分層圖的可視化有個(gè)極強(qiáng)大的R包:Pophelper[20]。
pophelper繪圖參數(shù)[21]

5.4 其他

可以將進(jìn)化樹和群體分層圖結(jié)合進(jìn)行展示脚祟,如下圖:


棉花重測(cè)序文章[15]

6 連鎖不平衡分析

先了解下概念谬以,此處借鑒基迪奧生物網(wǎng)站的解釋[22]。
要理解 LD 衰減圖由桌,我們就必須先理解連鎖不平衡(Linkage disequilibrium为黎,LD)的概念邮丰。連鎖不平衡是由兩個(gè)名詞構(gòu)成,連鎖 + 不平衡铭乾。前者剪廉,很容易讓我們產(chǎn)生概念混淆;后者炕檩,讓這個(gè)概念變得愈加晦澀斗蒋。因此從一個(gè)類似的概念入手,大家可能更容易理解 LD 的概念笛质,那就是基因的共表達(dá)泉沾。
基因的共表達(dá),通常指的是兩個(gè)基因的表達(dá)量呈現(xiàn)相關(guān)性妇押。比較常見的例子就是:轉(zhuǎn)錄組因子和靶基因間的關(guān)系跷究。因?yàn)檗D(zhuǎn)錄因子對(duì)它的靶基因有正調(diào)控作用,所以轉(zhuǎn)錄因子的表達(dá)量提高會(huì)導(dǎo)致靶基因的表達(dá)量也上調(diào)敲霍,兩者往往存在正相關(guān)關(guān)系俊马。這個(gè)正相關(guān)關(guān)系,可以使用相關(guān)系數(shù) r^2 來度量肩杈,這個(gè)數(shù)值在 - 1~1 之間柴我。總而言之锋恬,相關(guān)性可以理解為兩個(gè)元素共同變化屯换,步調(diào)一致。
類似的与学,連鎖不平衡(LD)就是度量兩個(gè)分子標(biāo)記的基因型變化是否步調(diào)一致彤悔,存在相關(guān)性的指標(biāo)。如果兩個(gè) SNP 標(biāo)記位置相鄰索守,那么在群體中也會(huì)呈現(xiàn)基因型步調(diào)一致的情況晕窑。比如有兩個(gè)基因座,分別對(duì)應(yīng) A/a 和 B/b 兩種等位基因卵佛。如果兩個(gè)基因座是相關(guān)的杨赤,我們將會(huì)看到某些基因型往往共同遺傳,即某些單倍型的頻率會(huì)高于期望值截汪。
參照王榮煥等[23]的方法進(jìn)行LD參數(shù)計(jì)算:

LD參數(shù)計(jì)算[23]

6.1 LD衰減分析

隨著標(biāo)記間的距離增加疾牲,平均的LD程度將降低,呈現(xiàn)出衰減狀態(tài)衙解,這種情況叫LD衰減阳柔。LD衰減分析的作用:

  • 判斷群體的多樣性差異,一般野生型群體的LD衰減快于馴化群體蚓峦;


    2015年大豆重測(cè)序文章圖[17]
  • 估計(jì)GWAS中標(biāo)記的覆蓋度舌剂,通過比較LD衰減距離(0.1)和標(biāo)記間的平均距離來判斷標(biāo)記是否足夠济锄。


7 GWAS

GWAS(genome-wide association study),全基因組關(guān)聯(lián)分析霍转,常用在醫(yī)學(xué)和農(nóng)學(xué)領(lǐng)域荐绝。簡(jiǎn)單理解成將SNP等遺傳標(biāo)記和表型數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,檢測(cè)和表型相關(guān)的位點(diǎn)避消,然后再倒回去找到對(duì)應(yīng)的基因低滩,研究其對(duì)表型的影響。這些被研究的表型在醫(yī)學(xué)上常常是疾病的表型岩喷;在農(nóng)學(xué)上常常是受關(guān)注的農(nóng)藝性狀委造,比如水稻的株高、產(chǎn)量均驶、穗粒數(shù)等。GWAS思想首次提出是在心肌梗塞的治療上[24]枫虏,首次應(yīng)用是在2005年的文章上[25]妇穴。


2005年文章圖[25]

7.1 GWAS流程

GWAS流程
  • 樣品準(zhǔn)備就是要收集不同的個(gè)體,比如3KRGP就3000多個(gè)水稻材料[12]隶债,然后對(duì)這些材料進(jìn)行全基因組測(cè)序腾它,還需要表型數(shù)據(jù),比如水稻的株高死讹、產(chǎn)量等瞒滴。
  • 基因型的檢測(cè)就是前面的變異檢測(cè),只是變異檢測(cè)完的SNP數(shù)據(jù)還需要過濾才能進(jìn)行后續(xù)的關(guān)聯(lián)分析赞警。
  • 關(guān)聯(lián)分析這一步只需要將基因型數(shù)據(jù)和表型數(shù)據(jù)丟給軟件就行了妓忍。

7.2 GWAS數(shù)學(xué)模型

目前使用最廣泛的模型是混合線性模型[26]:


混合線性模型公式

所有的參數(shù)軟件(如Emmax)會(huì)自動(dòng)完成計(jì)算。

7.3 GWAS結(jié)果

GWAS結(jié)果文件通常只有兩個(gè)圖愧旦,一個(gè)是曼哈頓圖世剖,另外一個(gè)是Q-Q圖。一般是先看Q-Q圖笤虫,如果Q-Q正常旁瘫,曼哈頓圖的結(jié)果才有意義。

  • Q-Q圖
    用于推斷關(guān)聯(lián)分析使用的模型是否正確琼蚯,如下圖:


    模型正確時(shí)的Q-Q圖

    模型不適合時(shí)的Q-Q圖

    如果模型不正確酬凳,那就只能換算法或者軟件。

  • 曼哈頓圖
    之所以叫曼哈頓圖遭庶,是由于這種圖長得像曼哈頓:
    曼哈頓下城(來自維基百科)

    棉花重測(cè)序文章圖[15]

    圖中橫著的虛線通常是研究者設(shè)定的宁仔,最嚴(yán)格的的閾值線是Bonfferonin(\frac{0.05}{total{SNPs}})。閾值線以上的點(diǎn)就是很值得關(guān)注的位點(diǎn)罚拟。
    后續(xù)就是驗(yàn)證實(shí)驗(yàn)了台诗,比如驗(yàn)證不同的單倍型的生物學(xué)功能完箩。

7 其他統(tǒng)計(jì)指標(biāo)和算法

7.1 MSMC

MSMC(multiple sequentially Markovian coalescent)[27],底層算法很復(fù)雜拉队,類似于PSMC弊知。MSMC的主要功能是推斷有效群體大小和群體分離歷史。


MSMC推斷群體大小和分離歷史[27]

這樣看起來更直觀:


MSMV推斷群體大小和群體分離歷史[27]
MSM在葡萄上的應(yīng)用[18]

7.2 LAMP

LAMP(Local Ancestry in Admixed Populations粱快,混雜群體的局部族源推斷)秩彤,用于推斷采用聚類的方法假設(shè)同時(shí)檢測(cè)的位點(diǎn)間不存在重組情況,對(duì)每組相鄰的 SNP 進(jìn)行檢測(cè)分析[28]事哭,在運(yùn)算速度和推斷準(zhǔn)確度上都有了質(zhì)的飛躍漫雷。

7.3 Treemix

用于推斷群體分離和混合[29]。圖是這樣的:

Treemix結(jié)果圖[28]

這種圖和進(jìn)化樹長得特別相似鳍咱,可以將得到的結(jié)果和進(jìn)化樹進(jìn)行比較降盹。如2019年NC上關(guān)于Cushion willow的文章中就用到了這種算法根據(jù)。圖是這樣的:
NC文獻(xiàn)[30]

NC文章圖[30]

前文提到的很多軟件和算法都是用來推斷群體進(jìn)化的谤辜,也就是找到群體的祖先蓄坏。都可以看成族源推斷。具體的差異可以參考綜述法醫(yī)族源推斷的分子生物學(xué)進(jìn)展[31]丑念。



8 群體重測(cè)序方案推薦

測(cè)序方案關(guān)系到后續(xù)的分析涡戳,不同的樣本量對(duì)應(yīng)不同的測(cè)序方法和分析方法。


圖片來自genek.tv[32]

參考文獻(xiàn)

[1]. 自然選擇(維基百科)
[2]. Kimura, Motoo. "Evolutionary rate at the molecular level." Nature. 217.5129 (1968): 624-626 .
[3]. 測(cè)序價(jià)格變化趨勢(shì)
[4]. plant genomes
[5]. DePristo, Mark A., et al. "A framework for variation discovery and genotyping using next-generation DNA sequencing data." Nature Genetics. 43.5 (2011): 491.
[6]. Biswas, Shameek, and Joshua M. Akey. "Genomic insights into positive selection." **TRENDS in Genetics . 22.8 (2006): 437-446.
[7]. Pavlidis, Pavlos, et al. "Sweed: likelihood-based detection of selective sweeps in thousands of genomes." Molecular biology and evolution 30.9 (2013): 2224-2234.
[8]. Wang, Muhua, et al. "The genome sequence of African rice (
Oryza glaberrima
) and evidence for independent domestication." Nature Genetics 46.9 (2014): 982.
[9]. Bamshad, Michael, and Stephen P. Wooding. "Signatures of natural selection in the human genome." Nature Reviews Genetics 4.2 (2003): 99.
[10]. Siewert, Katherine M., and Benjamin F. Voight. "BetaScan2: Standardized statistics to detect balancing selection utilizing substitution data." BioRxiv (2018): 497255.
[11]. Yu, N.; Jensen-Seaman MI; Chemnick L; Ryder O; Li WH (March 2004). Genetics. 166 (3): 1375–83.
[12]. Wang, Wensheng, et al. "Genomic variation in 3,010 diverse accessions of Asian cultivated rice." Nature 557.7703 (2018): 43.
[13]. Li, C., Zhou, A. & Sang, T. Rice domestication by reducing shattering. Science 311, 1936–1939 (2006).
[14]. Tajima, Fumio. "Statistical method for testing the neutral mutation hypothesis by DNA polymorphism." Genetics 123.3 (1989): 585-595.
[15]. Du, Xiongming, et al. "Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits." Nature Genetics 50.6 (2018): 796.
[16]. Lu, Kun, et al. "Whole-genome resequencing reveals Brassica napus origin and genetic loci involved in its improvement." Nature communications. 10.1 (2019): 1154.
[17]. Zhou, Z., Jiang, Y., Wang, Z. et al. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean. Nat Biotechnol 33, 408–414 (2015).
[18]. Liang, Z., Duan, S., Sheng, J. et al. Whole-genome resequencing of 472 Vitis accessions for grapevine diversity and demographic history analyses. Nat Commun 10, 1190 (2019).
[19]. Alexander, D.H., Lange, K. Enhancements to the ADMIXTURE algorithm for individual ancestry estimation. BMC Bioinformatics 12, 246 (2011).
[20]. Francis, Roy M. "pophelper: an R package and web app to analyse and visualize population structure." Molecular ecology resources 17.1 (2017): 27-32.
[21]. http://www.royfrancis.com/pophelper/articles/index.html.
[22]. https://www.omicshare.com/forum/thread-878-1-1.html.
[23]. WANG Rong-Huan, WANG Tian-Yu, LI Yu. Linkage disequilibrium in plant genomes[J]. HEREDITAS, 2007, 29(11): 1317-1323.
[24]. Ozaki, K., Ohnishi, Y., Iida, A. et al. Functional SNPs in the lymphotoxin-α gene that are associated with susceptibility to myocardial infarction. Nat Genet 32, 650–654 (2002).
[25]. Klein, Robert J., et al. "Complement factor H polymorphism in age-related macular degeneration." Science 308.5720 (2005): 385-389.
[26]. Yu, Jianming, et al. "A unified mixed-model method for association mapping that accounts for multiple levels of relatedness." Nature genetics 38.2 (2006): 203.
[27]. Schiffels, Stephan, and Richard Durbin. "Inferring human population size and separation history from multiple genome sequences." Nature genetics 46.8 (2014): 919.
[28]. Sankararaman, Sriram, et al. "Estimating local ancestry in admixed populations." The American Journal of Human Genetics 82.2 (2008): 290-303.
[29]. Pickrell, Joseph K., and Jonathan K. Pritchard. "Inference of population splits and mixtures from genome-wide allele frequency data." PLoS genetics 8.11 (2012): e1002967.
[30]. Chen, Jia-hui, et al. "Genome-wide analysis of Cushion willow provides insights into alpine plant divergence in a biodiversity hotspot." Nature communications 10.1 (2019): 1-12.
[31]. 孫寬脯倚,侯一平渔彰。法醫(yī)族源推斷的分子生物學(xué)進(jìn)展 [J]. 法醫(yī)學(xué)雜志,2018,34 (03):286-293.
[32]. genek.tv

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末推正,一起剝皮案震驚了整個(gè)濱河市恍涂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌植榕,老刑警劉巖乳丰,帶你破解...
    沈念sama閱讀 206,013評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異内贮,居然都是意外死亡产园,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門夜郁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來什燕,“玉大人,你說我怎么就攤上這事竞端∈杭矗” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長技俐。 經(jīng)常有香客問我乘陪,道長,這世上最難降的妖魔是什么雕擂? 我笑而不...
    開封第一講書人閱讀 55,168評(píng)論 1 278
  • 正文 為了忘掉前任啡邑,我火速辦了婚禮,結(jié)果婚禮上井赌,老公的妹妹穿的比我還像新娘谤逼。我一直安慰自己,他們只是感情好仇穗,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評(píng)論 5 371
  • 文/花漫 我一把揭開白布流部。 她就那樣靜靜地躺著,像睡著了一般纹坐。 火紅的嫁衣襯著肌膚如雪枝冀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評(píng)論 1 283
  • 那天耘子,我揣著相機(jī)與錄音宾茂,去河邊找鬼。 笑死拴还,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的欧聘。 我是一名探鬼主播片林,決...
    沈念sama閱讀 38,271評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼怀骤!你這毒婦竟也來了费封?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤蒋伦,失蹤者是張志新(化名)和其女友劉穎弓摘,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痕届,經(jīng)...
    沈念sama閱讀 43,382評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡韧献,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了研叫。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锤窑。...
    茶點(diǎn)故事閱讀 37,989評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖嚷炉,靈堂內(nèi)的尸體忽然破棺而出渊啰,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評(píng)論 4 322
  • 正文 年R本政府宣布绘证,位于F島的核電站隧膏,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏嚷那。R本人自食惡果不足惜胞枕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望车酣。 院中可真熱鬧曲稼,春花似錦、人聲如沸湖员。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽娘摔。三九已至窄坦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間凳寺,已是汗流浹背鸭津。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評(píng)論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肠缨,地道東北人逆趋。 一個(gè)月前我還...
    沈念sama閱讀 45,401評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像晒奕,于是被迫代替她去往敵國和親闻书。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容