群體遺傳學(xué)與重測(cè)序分析

分子層面對(duì)生物的研究妄壶，在個(gè)體水平上主要是看單個(gè)基因的變化以及全轉(zhuǎn)錄本的變化（RNA-seq）摔握；在對(duì)個(gè)體的研究的基礎(chǔ)上，開始了群體水平的研究丁寄。如果說常規(guī)的遺傳學(xué)主要的研究對(duì)象是個(gè)體或者個(gè)體家系的話氨淌，那么群體遺傳學(xué)則是主要研究由不同個(gè)體組成的群體的遺傳規(guī)律。
在測(cè)序技術(shù)大力發(fā)展之前伊磺，對(duì)群體主要是依靠表型進(jìn)行研究盛正，如加拉巴哥群島的13中鳥雀有著不同的喙，達(dá)爾文認(rèn)為這是自然選擇造成的后果 $^{[1]}$ 屑埋。達(dá)爾文的進(jìn)化論對(duì)應(yīng)的觀點(diǎn)可以簡(jiǎn)單概括為“物競(jìng)天擇豪筝，適者生存”，這也是最為大眾所接受的一種進(jìn)化學(xué)說摘能。直到1968年续崖，日本遺傳學(xué)家提出了中性進(jìn)化理論[2]，也叫中性演化理論徊哑。中性理論的提出很大程度上是基于分子生物化學(xué)的發(fā)展袜刷。可以這樣理解中性理論：一群人抽獎(jiǎng)莺丑，在沒有內(nèi)幕的情況下著蟹，每個(gè)人抽到一等獎(jiǎng)的概率是相等的，這個(gè)可能性和參與抽獎(jiǎng)的人的身高梢莽、年齡萧豆、愛好等因素都沒有關(guān)系。中性理論常作為群體遺傳研究中的假設(shè)理論（CK）來計(jì)算其他各種統(tǒng)計(jì)指標(biāo)昏名。
群體遺傳學(xué)涮雷，研究的單位是群體，比如粳稻轻局、秈稻洪鸭、野生稻，就能夠構(gòu)成不同的群體仑扑；我們國內(nèi)的各省份的水稻也可以作為一個(gè)個(gè)群體览爵。群體遺傳學(xué)大概可以分為群體內(nèi)的研究和群體間的研究。比如研究云南元陽的水稻的遺傳多樣性镇饮；如果研究是的云南元陽的水稻和東北的水稻蜓竹，那就可以算成是群體間的研究。群體間和群體內(nèi)的研究是相互的。
測(cè)序價(jià)格的急劇下降[3]使得大規(guī)模的群體測(cè)序得以實(shí)現(xiàn)俱济。

測(cè)序價(jià)格變化趨勢(shì)

0 幾種變異類型

常見的變異類型有SNP嘶是、IdDel、SV蛛碌、CNV等聂喇。重測(cè)序中最關(guān)注的是SNP，其次是InDel左医。其他的幾種結(jié)構(gòu)變異的研究不是太多授帕。

常見的變異類型

1 重測(cè)序和從頭組裝

有參考基因組的物種的全基因組測(cè)序叫做重測(cè)序，沒有參考基因組的物種的全基因組測(cè)序則需要從頭組裝浮梢。隨著測(cè)序價(jià)格的降低跛十，越來越多物種的參考基因組都已經(jīng)測(cè)序組裝完成。plant genomes[4]網(wǎng)站實(shí)時(shí)顯示全基因組測(cè)序已經(jīng)完成的植物秕硝，其中2012年以后爆發(fā)式增長芥映。在群體遺傳學(xué)研究中更多的是有參考基因組的物種，尤其是模式物種远豺，植物中常見的是擬南芥奈偏、水稻和玉米。

重測(cè)序和從頭組裝

plant genomes

2 重測(cè)序分析流程

主要的分析流程見下圖。現(xiàn)在的測(cè)序公司基本上都會(huì)幫客戶完成整個(gè)的分析流程，因?yàn)橹饕馁M(fèi)的資源是計(jì)算資源副编。我認(rèn)為在整個(gè)分析的流程中最重要的是Linux目錄的構(gòu)建秒拔，混亂的目錄會(huì)導(dǎo)致后續(xù)的分析頻頻出問題聊训，重測(cè)序分析會(huì)生成很多的中間文件，良好的目錄管理會(huì)使得項(xiàng)目分析流程井然有序。
該部分涉及到的軟件的安裝和基礎(chǔ)的Linux基礎(chǔ)知識(shí)就不詳細(xì)說明了。

重測(cè)序分析流程

Nature Genetics[5]

3 群體進(jìn)化選擇

3.1 正選擇

正選擇似乎可以更好地用自然選擇來解釋枉证。就是一個(gè)基因or位點(diǎn)能夠使個(gè)體有著更強(qiáng)的生存力或者是育性，這樣就會(huì)使得這個(gè)個(gè)體的后代更多移必，如此一來室谚，這個(gè)基因or位點(diǎn)在群體中就越來越多。

正選擇[6]

正選擇能夠使有利的突變基因or位點(diǎn)在群體中得到傳播崔泵，但是與此同時(shí)卻降低了群體的多態(tài)性水平秒赤。也就是說原先該位點(diǎn)周圍的核苷酸組成是多樣性的，在經(jīng)過正選擇之后憎瘸，這個(gè)位點(diǎn)周圍核苷酸的多樣性就漸漸的趨于同質(zhì)化了倒脓。這就好比一塊田，里面本來有水稻和稗草及其他雜草含思，由于稗草的適應(yīng)性增強(qiáng)，稗草在逐漸增多，水稻慢慢變少含潘，最后甚至是只剩下了稗草饲做。
我們將這種選擇之后多態(tài)性降低的情況叫做選擇掃蕩（Selective Sweep)。檢測(cè)選擇掃蕩的軟件有SweeD[7]遏弱。選擇掃蕩有可能是人工選擇的結(jié)果盆均，如2014年 Nature Genetics關(guān)于非洲栽培稻的文章就使用了SweeD來檢測(cè)非洲栽培稻基因組上受人工選擇的區(qū)域[8]。

SweeD在非洲栽培稻上的應(yīng)用[8]

3.2 負(fù)選擇

負(fù)選擇和正選擇剛好是相反的漱逸。簡(jiǎn)單理解成群體中的某個(gè)個(gè)體出現(xiàn)了一個(gè)致命的突變泪姨，從而自己或者是后代從群體中被淘汰。這也導(dǎo)致群體中該位點(diǎn)的多態(tài)性的降低饰抒。就好比我有10株水稻肮砾，其中一株在成長過程中突然不見了，那么對(duì)我的這個(gè)小的水稻群體來說袋坑，這個(gè)消失的水稻的獨(dú)有的位點(diǎn)在群體中就不見了仗处，整體的多態(tài)性就降低了。

圖片出處暫時(shí)不詳

3.3 平衡選擇

平衡選擇指多個(gè)等位基因在一個(gè)群體的基因庫中以高于遺傳漂變預(yù)期的頻率被保留枣宫，如雜合子優(yōu)勢(shì)婆誓。

平衡選擇[9]

平衡選擇檢測(cè)的算法有BetaScan2[10]，這是個(gè)Python腳本也颤，輸入文件只需要過濾好的SNP數(shù)據(jù)即可洋幻。

4 群體遺傳學(xué)中的統(tǒng)計(jì)指標(biāo)

4.1 群體多態(tài)性參數(shù)

計(jì)算公式為：
$\theta = 4N_e\mu$
其中 $N_e$ 是有效群體大小， $\mu$ 是每個(gè)位點(diǎn)的突變速率翅娶。但是群體大小往往是無法精確知道的文留，需要對(duì)其進(jìn)行估計(jì)。

4.2 分離位點(diǎn)數(shù)目

分離位點(diǎn)數(shù) $\theta_w$ 是 $\theta$ 的估計(jì)值故觅，表示相關(guān)基因在多序列比對(duì)中表現(xiàn)出多態(tài)性的位置厂庇。計(jì)算公式為：
$\theta_w = \frac{K}{a_n}$
其中 $K$ 為分離位點(diǎn)數(shù)量，比如SNP數(shù)量输吏。
$a_n$ 為個(gè)體數(shù)量的倒數(shù)和：
$a_n = \sum^{n-1}_{i = 1}\frac{1}{i}$

4.3 核苷酸多樣性 $\pi$

$\pi$ 指的是核苷酸多樣性权旷，值越大說明核苷酸多樣性越高。通常用于衡量群體內(nèi)的核苷酸多樣性贯溅，也可以用來推演進(jìn)化關(guān)系[11]拄氯。計(jì)算公式為：
$\pi = \sum_{ij}x_ix_j\pi_{ij}=2*\sum_{i = 2}^{n}\sum_{j=1}^{i-1}x_ix_j\pi{ij}$
可以理解成現(xiàn)在群體內(nèi)兩兩求 $\pi$ ，再計(jì)算群體的均值它浅。計(jì)算的軟件最常見的是vcftools译柏，也有對(duì)應(yīng)的R包PopGenome。通常是選定有一定的基因組區(qū)域姐霍，設(shè)定好窗口大小鄙麦，然后滑動(dòng)窗口進(jìn)行計(jì)算典唇。
3KRGP文章就計(jì)算了水稻不同亞群間4號(hào)染色體部分區(qū)域上的 $\pi$ 值[12]，能夠看出控制水稻籽粒落粒性的基因Sh4 $^{[13]}$ 位置多態(tài)性在所有的亞群中都降低了胯府。說明這個(gè)基因在所有的亞群中都是受到選擇的介衔，這可能是人工選擇的結(jié)果。

3KRGP不同亞群核苷酸多態(tài)性

4.4 群體內(nèi)選擇檢驗(yàn)：Tajima's D

Tajima's D是日本學(xué)者Tajima Fumio 1989年提出的一種統(tǒng)計(jì)檢驗(yàn)方法骂因，用于檢驗(yàn)DNA序列在演化過程中是否遵循中性演化模型[14]炎咖。計(jì)算公式為：
$D=\frac{\pi-\theta_w}{\sqrt{V(\pi-\theta_w)}}$
D值大小有如下三種生物學(xué)意義：

D值生物學(xué)意義

4.5 群體間分歧度檢驗(yàn)： $F_{st}$

$F_{st}$ 叫固定分化指數(shù)，用于估計(jì)亞群間平均多態(tài)性大小與整個(gè)種群平均多態(tài)性大小的差異寒波，反映的是群體結(jié)構(gòu)的變化乘盼。其簡(jiǎn)單估計(jì)的計(jì)算公式為：
$F_{st}=\frac{\pi_{Between}-\pi_{Within}}{\pi_{Between}}$
$F_{st}$ 的取值范圍是[0,1]。當(dāng) $F_{st}=1$ 時(shí)俄烁，表明亞群間有著明顯的種群分化绸栅。
在中性進(jìn)化條件下， $F_{st}$ 的大小主要取決于遺傳漂變和遷移等因素的影響猴娩。假設(shè)種群中的某個(gè)等位基因因?yàn)閷?duì)特定的生境的適應(yīng)度較高而經(jīng)歷適應(yīng)性選擇阴幌，那該基因的頻率在種群中會(huì)升高，種群的分化水平增大卷中，使得種群有著較高的 $F_{st}$ 值矛双。
$F_{st}$ 值可以和GWAS的結(jié)果一起進(jìn)行分析， $F_{st}$ 超過一定閾值的區(qū)域往往和GWAS篩選到的位點(diǎn)是一致的蟆豫，如2018年棉花重測(cè)序的文章[15]：

棉花重測(cè)序文章圖

4.6 群體分歧度檢驗(yàn)：ROD

ROD可以基于野生群體和馴化群體間核苷酸多態(tài)性參數(shù) $\pi$ 的差異識(shí)別選擇型號(hào)议忽，也可以測(cè)量馴化群體和野生型群體相比損失的多態(tài)性。計(jì)算公式為：
$ROD=1-\frac{\pi_{馴化群體}}{\pi_{野生群體}}$
和 $F_{st}$ 一樣十减，ROD也可以和GWAS結(jié)合起來：

2019年油菜重測(cè)序文章圖[16]

5 群體結(jié)構(gòu)分析

群體結(jié)構(gòu)分析可以簡(jiǎn)單理解成采樣測(cè)序的這些個(gè)體可以分成幾個(gè)小組栈幸，以及給每個(gè)個(gè)體之間的遠(yuǎn)近關(guān)系是怎么樣的。群體結(jié)構(gòu)分析三劍客帮辟，分別是進(jìn)化樹速址、PCA和群體結(jié)構(gòu)圖。

5.1 進(jìn)化樹

進(jìn)化樹就是將個(gè)體按照遠(yuǎn)近關(guān)系分別連接起來的圖由驹。

5.1.1 進(jìn)化樹算法

5.1.1.1 基于距離

非加權(quán)算術(shù)平均對(duì)群法UPGMA
鄰接法Neighbor-joining

5.1.1.2 基于特征

最大簡(jiǎn)約法—最小變化數(shù)（祖先狀態(tài)最小化）
最大似然法—所有枝長和模型參數(shù)最優(yōu)化
貝葉斯推斷—基于后驗(yàn)概率

5.1.2 進(jìn)化樹類型

有根樹
有根樹就是所有的個(gè)體都有一個(gè)共同的祖先芍锚。就像這樣的：

油菜重測(cè)序文章圖[16]
無根樹
無根樹只展示個(gè)體間的距離，無共同祖先蔓榄，就像這樣的：

水稻3K文章圖[12]

5.1.3 進(jìn)化樹軟件

常用的繪圖軟件是Phylip和Snpphylo并炮。進(jìn)化樹修飾的軟件有MEGA，ggtree等甥郑，推薦網(wǎng)頁版工具iTOL逃魄，無比強(qiáng)大。
外群定根法：當(dāng)群體的個(gè)體的差異很小時(shí)澜搅，可以引入其他物種作為根伍俘。如在對(duì)三葉草建樹時(shí)可以引入水稻的序列作為根進(jìn)行建樹邪锌。

5.2 PCA圖

PCA是很常見的降維方法，如微生物研究中常用來檢驗(yàn)樣品分群情況癌瘾。PCA計(jì)算的軟件很多秃流，plink可以直接用vcf文件計(jì)算PCA，R語言也可以進(jìn)行PCA計(jì)算柳弄。

油菜重測(cè)序文章圖[16]

PCA圖在群體重測(cè)序中有如下幾種作用：

查看分群信息，就是測(cè)序的樣品大概分成幾個(gè)群概说。如2015年大豆重測(cè)序文章的圖[17]:

大豆重測(cè)序文章圖
檢測(cè)離群樣本
離群樣本就是在PCA圖看起來和其他樣本差異很大的樣本碧注，有可能是這個(gè)樣本的遺傳背景和其他樣本本來就很大，也有可能是樣本混淆了糖赔，比如了將野生型的樣本標(biāo)記成了馴化種進(jìn)行測(cè)序萍丐。如果有離群樣本，那在后續(xù)的類似于GWAS的分析中就需要將離群樣本進(jìn)行剔除放典。當(dāng)然如果樣本本來就是個(gè)很特別的逝变，那就另當(dāng)別論。
推斷亞群進(jìn)化關(guān)系
可以從PCA圖可以看出群體的進(jìn)化關(guān)系奋构，尤其是地理位置的進(jìn)化關(guān)系壳影。

葡萄群體重測(cè)序文章圖[18]

5.3 群體分層圖

進(jìn)化樹和PCA能夠看出來群體是不是分層的，但是無法知道群體分成幾個(gè)群合適弥臼，也無法看出群體間的基因交流宴咧，更無法看出個(gè)體的混血程度。這時(shí)候就需要群體分層圖了径缅。

葡萄群體重測(cè)序文章圖[18]

群體分層圖的本質(zhì)是堆疊的柱狀圖掺栅，和微生物研究中的物種組成柱狀圖類似。每個(gè)柱子是一個(gè)樣本纳猪，可以看出一個(gè)樣本的血緣組成氧卧，有幾種顏色就說明該樣本由幾個(gè)祖先而來，如果只有一個(gè)色氏堤，那就說明這個(gè)個(gè)體很純沙绝。
常用的軟件有structure和ADMIXTURE[19]。兩款軟件給出的結(jié)果都是值丽猬。一般選擇最低的點(diǎn)為最終的值宿饱。

K值選擇(圖片來自維基百科)

群體分層圖的可視化有個(gè)極強(qiáng)大的R包：Pophelper[20]。

pophelper繪圖參數(shù)[21]

5.4 其他

可以將進(jìn)化樹和群體分層圖結(jié)合進(jìn)行展示脚祟，如下圖：

棉花重測(cè)序文章[15]

6 連鎖不平衡分析

先了解下概念谬以，此處借鑒基迪奧生物網(wǎng)站的解釋[22]。
要理解 LD 衰減圖由桌，我們就必須先理解連鎖不平衡（Linkage disequilibrium为黎，LD）的概念邮丰。連鎖不平衡是由兩個(gè)名詞構(gòu)成，連鎖 + 不平衡铭乾。前者剪廉，很容易讓我們產(chǎn)生概念混淆；后者炕檩，讓這個(gè)概念變得愈加晦澀斗蒋。因此從一個(gè)類似的概念入手，大家可能更容易理解 LD 的概念笛质，那就是基因的共表達(dá)泉沾。
基因的共表達(dá)，通常指的是兩個(gè)基因的表達(dá)量呈現(xiàn)相關(guān)性妇押。比較常見的例子就是：轉(zhuǎn)錄組因子和靶基因間的關(guān)系跷究。因?yàn)檗D(zhuǎn)錄因子對(duì)它的靶基因有正調(diào)控作用，所以轉(zhuǎn)錄因子的表達(dá)量提高會(huì)導(dǎo)致靶基因的表達(dá)量也上調(diào)敲霍，兩者往往存在正相關(guān)關(guān)系俊马。這個(gè)正相關(guān)關(guān)系，可以使用相關(guān)系數(shù) $r^2$ 來度量肩杈，這個(gè)數(shù)值在 - 1~1 之間柴我。總而言之锋恬，相關(guān)性可以理解為兩個(gè)元素共同變化屯换，步調(diào)一致。
類似的与学，連鎖不平衡（LD）就是度量兩個(gè)分子標(biāo)記的基因型變化是否步調(diào)一致彤悔，存在相關(guān)性的指標(biāo)。如果兩個(gè) SNP 標(biāo)記位置相鄰索守，那么在群體中也會(huì)呈現(xiàn)基因型步調(diào)一致的情況晕窑。比如有兩個(gè)基因座，分別對(duì)應(yīng) A/a 和 B/b 兩種等位基因卵佛。如果兩個(gè)基因座是相關(guān)的杨赤，我們將會(huì)看到某些基因型往往共同遺傳，即某些單倍型的頻率會(huì)高于期望值截汪。
參照王榮煥等[23]的方法進(jìn)行LD參數(shù)計(jì)算：

LD參數(shù)計(jì)算[23]

6.1 LD衰減分析

隨著標(biāo)記間的距離增加疾牲，平均的LD程度將降低，呈現(xiàn)出衰減狀態(tài)衙解，這種情況叫LD衰減阳柔。LD衰減分析的作用：

判斷群體的多樣性差異，一般野生型群體的LD衰減快于馴化群體蚓峦；

2015年大豆重測(cè)序文章圖[17]
估計(jì)GWAS中標(biāo)記的覆蓋度舌剂，通過比較LD衰減距離(0.1)和標(biāo)記間的平均距離來判斷標(biāo)記是否足夠济锄。

7 GWAS

GWAS(genome-wide association study)，全基因組關(guān)聯(lián)分析霍转，常用在醫(yī)學(xué)和農(nóng)學(xué)領(lǐng)域荐绝。簡(jiǎn)單理解成將SNP等遺傳標(biāo)記和表型數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析，檢測(cè)和表型相關(guān)的位點(diǎn)避消，然后再倒回去找到對(duì)應(yīng)的基因低滩，研究其對(duì)表型的影響。這些被研究的表型在醫(yī)學(xué)上常常是疾病的表型岩喷；在農(nóng)學(xué)上常常是受關(guān)注的農(nóng)藝性狀委造，比如水稻的株高、產(chǎn)量均驶、穗粒數(shù)等。GWAS思想首次提出是在心肌梗塞的治療上[24]枫虏，首次應(yīng)用是在2005年的文章上[25]妇穴。

2005年文章圖[25]

7.1 GWAS流程

GWAS流程

樣品準(zhǔn)備就是要收集不同的個(gè)體，比如3KRGP就3000多個(gè)水稻材料[12]隶债，然后對(duì)這些材料進(jìn)行全基因組測(cè)序腾它，還需要表型數(shù)據(jù)，比如水稻的株高死讹、產(chǎn)量等瞒滴。
基因型的檢測(cè)就是前面的變異檢測(cè)，只是變異檢測(cè)完的SNP數(shù)據(jù)還需要過濾才能進(jìn)行后續(xù)的關(guān)聯(lián)分析赞警。
關(guān)聯(lián)分析這一步只需要將基因型數(shù)據(jù)和表型數(shù)據(jù)丟給軟件就行了妓忍。

7.2 GWAS數(shù)學(xué)模型

目前使用最廣泛的模型是混合線性模型[26]：

混合線性模型公式

所有的參數(shù)軟件（如Emmax）會(huì)自動(dòng)完成計(jì)算。

7.3 GWAS結(jié)果

GWAS結(jié)果文件通常只有兩個(gè)圖愧旦，一個(gè)是曼哈頓圖世剖，另外一個(gè)是Q-Q圖。一般是先看Q-Q圖笤虫，如果Q-Q正常旁瘫，曼哈頓圖的結(jié)果才有意義。

Q-Q圖
用于推斷關(guān)聯(lián)分析使用的模型是否正確琼蚯，如下圖：

模型正確時(shí)的Q-Q圖

模型不適合時(shí)的Q-Q圖

如果模型不正確酬凳，那就只能換算法或者軟件。
曼哈頓圖
之所以叫曼哈頓圖遭庶，是由于這種圖長得像曼哈頓：

曼哈頓下城（來自維基百科）

棉花重測(cè)序文章圖[15]

圖中橫著的虛線通常是研究者設(shè)定的宁仔，最嚴(yán)格的的閾值線是Bonfferonin( $\frac{0.05}{total{SNPs}}$ )。閾值線以上的點(diǎn)就是很值得關(guān)注的位點(diǎn)罚拟。
后續(xù)就是驗(yàn)證實(shí)驗(yàn)了台诗，比如驗(yàn)證不同的單倍型的生物學(xué)功能完箩。

7 其他統(tǒng)計(jì)指標(biāo)和算法

7.1 MSMC

MSMC（multiple sequentially Markovian coalescent）[27]，底層算法很復(fù)雜拉队，類似于PSMC弊知。MSMC的主要功能是推斷有效群體大小和群體分離歷史。

MSMC推斷群體大小和分離歷史[27]

這樣看起來更直觀：

MSMV推斷群體大小和群體分離歷史[27]

MSM在葡萄上的應(yīng)用[18]

7.2 LAMP

LAMP(Local Ancestry in Admixed Populations粱快，混雜群體的局部族源推斷)秩彤，用于推斷采用聚類的方法假設(shè)同時(shí)檢測(cè)的位點(diǎn)間不存在重組情況，對(duì)每組相鄰的 SNP 進(jìn)行檢測(cè)分析[28]事哭，在運(yùn)算速度和推斷準(zhǔn)確度上都有了質(zhì)的飛躍漫雷。

7.3 Treemix

用于推斷群體分離和混合[29]。圖是這樣的：

Treemix結(jié)果圖[28]

這種圖和進(jìn)化樹長得特別相似鳍咱，可以將得到的結(jié)果和進(jìn)化樹進(jìn)行比較降盹。如2019年NC上關(guān)于Cushion willow的文章中就用到了這種算法根據(jù)。圖是這樣的：

NC文獻(xiàn)[30]

NC文章圖[30]

前文提到的很多軟件和算法都是用來推斷群體進(jìn)化的谤辜，也就是找到群體的祖先蓄坏。都可以看成族源推斷。具體的差異可以參考綜述法醫(yī)族源推斷的分子生物學(xué)進(jìn)展[31]丑念。

8 群體重測(cè)序方案推薦

測(cè)序方案關(guān)系到后續(xù)的分析涡戳，不同的樣本量對(duì)應(yīng)不同的測(cè)序方法和分析方法。

圖片來自genek.tv[32]

參考文獻(xiàn)

[1]. 自然選擇(維基百科)
[2]. Kimura, Motoo. "Evolutionary rate at the molecular level." Nature. 217.5129 (1968): 624-626 .
[3]. 測(cè)序價(jià)格變化趨勢(shì)
[4]. plant genomes
[5]. DePristo, Mark A., et al. "A framework for variation discovery and genotyping using next-generation DNA sequencing data." Nature Genetics. 43.5 (2011): 491.
[6]. Biswas, Shameek, and Joshua M. Akey. "Genomic insights into positive selection." **TRENDS in Genetics . 22.8 (2006): 437-446.
[7]. Pavlidis, Pavlos, et al. "Sweed: likelihood-based detection of selective sweeps in thousands of genomes." Molecular biology and evolution 30.9 (2013): 2224-2234.
[8]. Wang, Muhua, et al. "The genome sequence of African rice (Oryza glaberrima) and evidence for independent domestication." Nature Genetics 46.9 (2014): 982.
[9]. Bamshad, Michael, and Stephen P. Wooding. "Signatures of natural selection in the human genome." Nature Reviews Genetics 4.2 (2003): 99.
[10]. Siewert, Katherine M., and Benjamin F. Voight. "BetaScan2: Standardized statistics to detect balancing selection utilizing substitution data." BioRxiv (2018): 497255.
[11]. Yu, N.; Jensen-Seaman MI; Chemnick L; Ryder O; Li WH (March 2004). Genetics. 166 (3): 1375–83.
[12]. Wang, Wensheng, et al. "Genomic variation in 3,010 diverse accessions of Asian cultivated rice." Nature 557.7703 (2018): 43.
[13]. Li, C., Zhou, A. & Sang, T. Rice domestication by reducing shattering. Science 311, 1936–1939 (2006).
[14]. Tajima, Fumio. "Statistical method for testing the neutral mutation hypothesis by DNA polymorphism." Genetics 123.3 (1989): 585-595.
[15]. Du, Xiongming, et al. "Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits." Nature Genetics 50.6 (2018): 796.
[16]. Lu, Kun, et al. "Whole-genome resequencing reveals Brassica napus origin and genetic loci involved in its improvement." Nature communications. 10.1 (2019): 1154.
[17]. Zhou, Z., Jiang, Y., Wang, Z. et al. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean. Nat Biotechnol 33, 408–414 (2015).
[18]. Liang, Z., Duan, S., Sheng, J. et al. Whole-genome resequencing of 472 Vitis accessions for grapevine diversity and demographic history analyses. Nat Commun 10, 1190 (2019).
[19]. Alexander, D.H., Lange, K. Enhancements to the ADMIXTURE algorithm for individual ancestry estimation. BMC Bioinformatics 12, 246 (2011).
[20]. Francis, Roy M. "pophelper: an R package and web app to analyse and visualize population structure." Molecular ecology resources 17.1 (2017): 27-32.
[21]. http://www.royfrancis.com/pophelper/articles/index.html.
[22]. https://www.omicshare.com/forum/thread-878-1-1.html.
[23]. WANG Rong-Huan, WANG Tian-Yu, LI Yu. Linkage disequilibrium in plant genomes[J]. HEREDITAS, 2007, 29(11): 1317-1323.
[24]. Ozaki, K., Ohnishi, Y., Iida, A. et al. Functional SNPs in the lymphotoxin-α gene that are associated with susceptibility to myocardial infarction. Nat Genet 32, 650–654 (2002).
[25]. Klein, Robert J., et al. "Complement factor H polymorphism in age-related macular degeneration." Science 308.5720 (2005): 385-389.
[26]. Yu, Jianming, et al. "A unified mixed-model method for association mapping that accounts for multiple levels of relatedness." Nature genetics 38.2 (2006): 203.
[27]. Schiffels, Stephan, and Richard Durbin. "Inferring human population size and separation history from multiple genome sequences." Nature genetics 46.8 (2014): 919.
[28]. Sankararaman, Sriram, et al. "Estimating local ancestry in admixed populations." The American Journal of Human Genetics 82.2 (2008): 290-303.
[29]. Pickrell, Joseph K., and Jonathan K. Pritchard. "Inference of population splits and mixtures from genome-wide allele frequency data." PLoS genetics 8.11 (2012): e1002967.
[30]. Chen, Jia-hui, et al. "Genome-wide analysis of Cushion willow provides insights into alpine plant divergence in a biodiversity hotspot." Nature communications 10.1 (2019): 1-12.
[31]. 孫寬脯倚，侯一平渔彰。法醫(yī)族源推斷的分子生物學(xué)進(jìn)展 [J]. 法醫(yī)學(xué)雜志，2018,34 (03):286-293.
[32]. genek.tv

最后編輯于：2020.01.05 18:46:32

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末推正，一起剝皮案震驚了整個(gè)濱河市恍涂，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌植榕，老刑警劉巖乳丰，帶你破解...
沈念sama閱讀 206,013評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異内贮，居然都是意外死亡产园，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門夜郁，熙熙樓的掌柜王于貴愁眉苦臉地迎上來什燕，“玉大人，你說我怎么就攤上這事竞端∈杭矗” “怎么了？”我有些...
開封第一講書人閱讀 152,370評(píng)論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長技俐。經(jīng)常有香客問我乘陪，道長，這世上最難降的妖魔是什么雕擂？我笑而不...
開封第一講書人閱讀 55,168評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任啡邑，我火速辦了婚禮，結(jié)果婚禮上井赌，老公的妹妹穿的比我還像新娘谤逼。我一直安慰自己，他們只是感情好仇穗，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布流部。她就那樣靜靜地躺著，像睡著了一般纹坐。火紅的嫁衣襯著肌膚如雪枝冀。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,954評(píng)論 1贊 283
城市分裂傳說
那天耘子，我揣著相機(jī)與錄音宾茂，去河邊找鬼。笑死拴还，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的欧聘。我是一名探鬼主播片林，決...
沈念sama閱讀 38,271評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼怀骤！你這毒婦竟也來了费封？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤蒋伦，失蹤者是張志新（化名）和其女友劉穎弓摘，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體痕届，經(jīng)...
沈念sama閱讀 43,382評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡韧献，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了研叫。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锤窑。...
茶點(diǎn)故事閱讀 37,989評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖嚷炉，靈堂內(nèi)的尸體忽然破棺而出渊啰，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 33,624評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布绘证，位于F島的核電站隧膏，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏嚷那。R本人自食惡果不足惜胞枕，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望车酣。院中可真熱鬧曲稼，春花似錦、人聲如沸湖员。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽娘摔。三九已至窄坦，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間凳寺，已是汗流浹背鸭津。一陣腳步聲響...
開封第一講書人閱讀 31,418評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留肠缨，地道東北人逆趋。一個(gè)月前我還...
沈念sama閱讀 45,401評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像晒奕，于是被迫代替她去往敵國和親闻书。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評(píng)論 2贊 345