序言:種群歷史()是指描述種群大小改變隨著時間變化的一個特定模型。給定一個種群模型能產生很多可能的譜系肤晓,不同的譜系導致不同的遺傳變異式樣,也就是說基因組每一個位點都有一個特別的譜系描述它的歷史,種群大小的擴張和收縮會在基因組上留下印記(Hein et al 2004, Wakeley 2009)。溯祖時間和種群大小的推斷是種群遺傳學的一個基本問題补憾。
早期推斷種群參數(shù)和種群歷史動態(tài)有如下幾類方法:
(1)基于兩兩差異分布的總結性統(tǒng)計結果()漫萄,其假設前提為已知譜系關系,沒有種群結構或亞種群和遵從中性進化(Watterson 1975盈匾,Tajima 1983 and 1989)腾务。此種方法集中研究種群大小的變化如何影響個體DNA序列之間成對差異()的分布,以及某個種群內分隔位點的數(shù)量(Slatkin and Hudson 1991削饵,Rogers and Harpending 1992)岩瘦。其不足在于不能用于刻畫恒定種群大小的歷史。因為兩兩差異的樣本分布通常會偏離預期的幾何分布窿撬,所以單個基因樣本中的合并事件的歷史會對兩兩差異產生很大的相關性启昧。假設兩兩比較相互獨立的幾何分布對觀測到的兩兩差異進行擬合優(yōu)度檢驗,并不是對基因從一個大小恒定的泛生種群中抽樣假設的有效檢驗劈伴。種群的增長和衰退在成對的個體之間的核苷酸(或限制性)位點差異分布中留下了特征性的信號密末。
(2)基于圖的方法,其假設前提與(1)一致跛璧。有兩種方式严里,一種是構造帶時間的譜系圖(,LTT)追城,另一種是天際線圖()刹碾。這兩種方法都是基于種群數(shù)據(jù)的系統(tǒng)發(fā)生樹,前者認為在譜系內部節(jié)點都對應一個溯祖事件座柱,從種群譜系關系的節(jié)點時間分布推斷種群大小的歷史變化(Nee et al 1995迷帜,Sanderson 1997,Thorne et al 1998辆布,Huelsenbeck et al 2000)瞬矩;后者是通過譜系關系圖的節(jié)間間隔大小及其序列信息估計每個節(jié)間間隔的有效種群大小,節(jié)間間隔大小用時間周期相對應的突變事件來衡量(Pybus et al 2000)锋玲。但這兩種方法都不能進行完整的假設檢驗和模型選擇。
(3)生存模型涵叮,其假設前提同(1)惭蹂。其過程是這樣的:對于每個譜系都有一個瞬時多樣化速率δ(t),它是由最大似然法分析的割粮,包括一個瞬時出生率σ(t)(通過hazard函數(shù)指定)和一個瞬時死亡率ε(t)盾碗,σ(t)和ε(t)不能單獨估計(Paradis 1997,1998a and 1998b)舀瓢。然后計算LRT和AIC廷雅,以比較對δ(t)有不同假設的模型,從而檢驗對譜系數(shù)量增長速度的假設『阶海可以構建具體定義的多樣化模型商架,用于分析各支系(或各系群)之間種群歷史的差異。這種方法的優(yōu)勢是允許樹的拓撲結構里有多重變化芥玉。
(4)基于溯祖法的種群參數(shù)估計蛇摸,包括了基于MCMC(,MCMC)采樣的最大似然法(Kuhner et al 1995)灿巧,基于遞推方程的最大似然法(Vila et al 1999)赶袄,中等深度的方法(Pybus et al 1999)和最小二乘法(Fu 1994)。其中最大似然法的基本假設前提是基于無限位點模型和接受中性進化理論抠藕,中等深度的方法的基本假設前提是無限位點模型和恒定的種群大小饿肺,最小二乘法的假設是分析的片段沒有發(fā)生重組和恒定的種群大小。這些基于溯祖的方法都是再討論個體間分歧時間的分布和有效種群大小之間的關系盾似』8瘢基于MCMC()采樣的最大似然法在估計θ時允許譜系的不確定性,計算資源上要求比較高颜说;基于遞推方程的最大似然估計主要是利用蒙特卡洛積分計算參數(shù)θ的似然曲線购岗,在相對單態(tài)的數(shù)據(jù)上表現(xiàn)較好,近似于進化的無限位點模型门粪,但偏離該模型可能會導致Metropolis-Hastings抽樣方法表現(xiàn)不佳喊积;基于最小二乘法是采用最佳線性無偏模型來估計各種種群參數(shù),對于一個給定的樹形拓撲結構玄妈,θ是由發(fā)生突變的分支對突變數(shù)量的劃分來估計乾吻,其不足之處在于假設序列服從無限位點模型是不真實的。
自2000年以來發(fā)展的種群歷史動態(tài)推斷方法主要有如下五類:
(1)基于位點頻譜(拟蜻,SFS)的方法绎签,其假設數(shù)據(jù)集中的所有SNPs都是獨立的,不考慮它們之間的連鎖信息酝锅。位點頻譜是指樣本中特定頻率的SNPs數(shù)量诡必。SFS用于種群歷史動態(tài)推斷主要有兩種方式:利用樣本中不同頻率SNPs所占的比例服從多項式分布,得到多項式似然函數(shù)去推斷(Adams and Hudson 2004,Nielsen 2000);利用數(shù)據(jù)中不同頻率的SNPs數(shù)目進行推斷莉钙,得到一個泊松似然函數(shù)(Hartl et al 1994)瀑焦。SFS的方法是關于樣本大小的函數(shù),一般要求每個種群至少要有10個樣本。種群結構會影響SFS的分布,如果從兩個不同的種群中取樣相等數(shù)量的譜系,遷移率較低涂炎,且種群在很久以前就相互分裂忠聚,那么很可能每個子種群內部的譜系在與另一個亞種群的譜系合并之前就會相互合并;如果在構建SFS時將來自兩個種群的數(shù)據(jù)合并唱捣,這種種群結構會導致SFS的中頻SNP過剩两蟀;如果一個亞種群中比另一個亞種群中取樣更多的譜系(或樣本),則長內分支子代數(shù)所對應的SFS的bin將更高爷光〉婢海基于SFS的推斷軟件包括fastsimcoal(Excoffier and Foll 2011,Excofffier et al 2021)蛀序,δaδi(Gutenkunst et al 2009), TNSFS(Chen et al 2015)欢瞪,F(xiàn)astNeutrino(Bhaskar et al 2015),stairway plot (Liu 2015 and 2020)徐裸,momi2 (Kamm et al 2020), dnadna(Théophile S. et al, 2023),另外還有結合采樣的空間尺度的方法disperseNN(Smith C C R. et al遣鼓,2023)。
(2)帶有總結性統(tǒng)計結果()的近似貝葉斯算法(重贺,ABC)(Fu and Li 1997骑祟,Tavaré et al 1997,Pritchard et al 1999气笙,Marjoram et al 2003)次企,主要依賴于對于的分布情況。對于在多個數(shù)量級的參數(shù)潜圃,如遷移率和選擇系數(shù)缸棵,要選擇對數(shù)正態(tài)分布進行數(shù)據(jù)預處理。為了得到穩(wěn)健的先驗分布谭期,可選擇多個先驗模型參數(shù)堵第。ABC法的過程大致是這樣的:將模擬數(shù)據(jù)集得到的匯總統(tǒng)計量(允許多元統(tǒng)計量)與實驗數(shù)據(jù)進行比較,如果足夠接近隧出,則保留模擬數(shù)據(jù)所使用的參數(shù)值踏志,有助于后驗分布。如果不接近胀瞪,那就拒絕這些先驗參數(shù)针余,這個過程需要重復到先驗參數(shù)(至少幾千次)被保留為止。ABC法的優(yōu)勢在于可以得到非常復雜和接近真實的模型赏廓,可用于多種測序數(shù)據(jù)類型涵紊,如簡化基因組,全基因組重測序和古DNA幔摸。其不足有如下幾點:計算強度大,常有上億次的溯祖模擬颤练,這受限于探索參數(shù)空間并可能會導致不正確的推斷既忆;如果先驗分布較寬,或者考慮的模型類型不太可能生成觀測數(shù)據(jù),ABC方法可能并不有效患雇;此法推理的成功嚴重依賴于總結性統(tǒng)計量(summary statistics)的選擇跃脊。實現(xiàn)ABC推斷的程序包有DIY-ABC(Cornuet et al 2008,Jean-Marie et al 2014)苛吱,popABC(Joao et al 2009), ABC-toolbox(Wegmann et al 2010), ABC-DL(Mondal et al 2019),dnadna(Théophile S. et al, 2023)酪术。除了ABC法,也有探索深度學習在總結性統(tǒng)計結果和參數(shù)值組合之間匹配的非線性關系的新方法(Sheehan and Song 2016)翠储,如近似似然法(Weiss and Haeseler 1998绘雁,Plagnol and Wall 2006,Lohmueller et al 2009)援所。
(3)序貫馬爾科夫溯祖方法()庐舟,此類方法認為基因組中純合和雜合位點的區(qū)域包含了大量的譜系信息,算法中以含有大量純合位點推斷近期的溯祖時間住拭,以含有多個雜合位點區(qū)域用于推斷更古老的種群事件挪略。2006年報道的SMC++對重組率有較優(yōu)的估計(Marjoram and Wall 2006),基于數(shù)百個樣本的重測序數(shù)據(jù)的SFS與單個基因組的溯祖時間分布相結合推斷種群歷史滔岳,2011年哈佛大學李恒團隊開發(fā)的PSMC通過隱馬爾科夫模型預測近期的溯祖時間杠娱,要求至少有一個全基因組重測序樣本數(shù)據(jù),且要得到高質量的變異位點(Li and Durbin 2011)谱煤,2014年英國著名的Wellcome Trust Sanger研究所的Richard Durbin和Stephan Schiffels開發(fā)了MSMC摊求,除了優(yōu)化重組率的估計,還可以針對多個基因組的任意兩個單倍型進行推斷溯祖時間(Schiffels and Durbin 2014)趴俘,2017年埃默里大學的Daniel B. Weissman和加州大學Oskar Hallatschek報道了MAGIC工具睹簇,額外考慮了溯祖率的分布和其他遺傳變異的情況,實現(xiàn)了從任意樣本量的基因組中推斷溯祖時間的單個基因座分布(Weissman and Hallatschek 2017)寥闪。
(4)(IBS)/(IBD)太惠,考慮到位點之間連鎖關系的重要性,開發(fā)了基于單倍型式樣分布的方法疲憋,即“特定等位基因在給定遺傳區(qū)段內發(fā)生在同一染色體上的排列”(Harris and Nielsen 2013)凿渊。在基因組給定區(qū)域中,單倍型之間的相似性可能是由于IBS/IBD導致的缚柳。IBD是指由于共同祖先而具有共同的序列含量(樣本是最近共同祖先的后代埃脏,沒有發(fā)生DNA片段的重組事件),而IBS是指不論是否具有共同祖先秋忙,它們的組成都是相同的彩掐。一般短的IBD片段對長的TMRCAs(),長的IBD片段(大于2 cM)對應短的TMRCAs灰追。鑒定IBD前需要先鑒定種群結構堵幽,然后推斷祖先共有序列狗超。IBD并不總是意味著IBS發(fā)生,因為在給定的基因片段上可能發(fā)生了新的突變朴下,所以不需要具有相同的序列組成努咐,盡管有共同的祖先。近期發(fā)生的種群擴張或收縮情況殴胧,地理距離和種群亞結構會影響長IBD片段的共享情況渗稍。相比IBD,IBS可以從數(shù)據(jù)直接進行推斷祖先和近期的種群事件团滥。相比基于SFS的推斷方法竿屹,IBS融合了位點間的關聯(lián)信息,比大多數(shù)基于隱馬爾可夫模型的方法(如PSMC)能夠適應復雜的種群統(tǒng)計學場景惫撰,可以使用大樣本量羔沙。典型案例包括2014年發(fā)表的北極熊和棕熊種群基因組學研究(Liu et al 2014)和2015年報道的美國本土人種群基因組學研究(Raghavan et al 2015)。實現(xiàn)鑒定IBD的工具有GERMLINE(Gusev et al 2009)厨钻,rIBD(Browning 2011)扼雏,diCal-IBD(Tataru et al 2014),HaploScore IBD(Durand et al 2014)夯膀,diCal2(Steinrücken 2019)诗充,RaPID(Naseri et al 2019),MAPs(Al-Asadi et al. 2019), FastSMC (Nait et al 2020)诱建,ILASH(Shemirani et al 2021)和Phaseibd(Freyman et al 2021)蝴蜓。
(5)廣義系統(tǒng)發(fā)生溯祖采樣器法,該方法假設每個片段上沒有重組俺猿,每個樣本上的位點都是獨立的(Gronau et al 2011)茎匠。該方法實現(xiàn)的工具為G-PhoCS(Gronau et al 2011),它不對譜系進行隨機抽樣押袍,而是在馬爾科夫鏈蒙特卡洛方法(诵冒,MCMC)中使用抽樣,對可能與數(shù)據(jù)兼容的譜系進行優(yōu)先抽樣谊惭,以提高推斷的效率和可靠性汽馋。此種方法的鮮明特點是使用多個樣本的所有數(shù)據(jù)進行種群歷史推斷,在統(tǒng)計上是全似然法圈盔,這也導致了在分析周期較長豹芯,且對于近期的種群事件不夠敏感。
參考文獻
Adams AM, Hudson RR. . Maximum-Likelihood Estimation of Demographic Parameters Using the Frequency Spectrum of Unlinked Single-Nucleotide Polymorphisms[J]. ,168(3):1699-1712.
Al-Asadi H, Petkova D, Stephens M, et al. . Estimating recent migration and population-size surfaces. , 15(1):e1007908.
Bhaskar A, Wang Y, Song YS. . Efficient inference of population size histories and locus-specific mutation rates from large-sample genomic variation data[J]. ,25(2):268-279.
Browning BL, Browning SR. . A fast, powerful method for detecting identity by descent[J]. ,88(2):173-182.
Chen H, Jody H, Chen K.. Inferring very recent population growth rate from population-scale sequencing data: using a large-sample coalescent estimator[J]. , 32(11):2996-3011.
Cornuet JM, Santos F, Beaumont MA, et al. . Inferring population history with DIY ABC: a user-friendly approach to approximate Bayesian computation[J]. ,24(23):2713-2719.
Excoffier L, Foll M. . fastsimcoal: a continuous-time coalescent simulator of genomic diversity under arbitrarily complex evolutionary scenarios[J]. ,27(9):1332-1334.
Excofffier L, Marchi N, Marques DA, et al. . fastsimcoal2: demographic inference under complex evolutionary scenarios[J]. ,23:btab468.
Freyman WA, McManus KF, Shringarpure SS, et al. . Fast and robust identity-by-descent inference with the templated positional Burrows-Wheeler transform[J]. ,38(5):2131-2151.
Fu YX. . A phylogenetic estimator of effective population size or mutation rate[J]. ,136(2):685-692.
Fu YX, Li WH. . Estimating the age of the common ancestor of a sample of DNA sequences[J].,14(2):195-199.
Gronau I, Hubisz MJ, Gulko B, et al. . Bayesian inference of ancient human demography from individual genome sequences[J]. ,43(10):1031-1034.
Gusev A, Lowe JK, Stoffel M, et al.. Whole population, genome-wide mapping of hidden relatedness[J]. ,19(2):318-326.
Gutenkunst RN, Hernandez RD, Williamson SH, et al. . Inferring the Joint Demographic History of Multiple Populations from Multidimensional SNP Frequency Data[J]. ,5(10):e1000695.
Harris K, Nielsen R. . Inferring demographic history from a spectrum of shared haplotype lengths[J]. ,9(6):e1003521.
Hartl DL, Moriyama EN, Sawyer SA. . Selection intensity for codon bias.[J]. ,138(1):227-234.
Hein J, Schierup M, Wiuf C. . Gene Genealogies, Variation and Evolution: A primer in coalescent theory[M]. USA:.
Huelsenbeck JP, Larget B, Swofford D. . A compound poisson process for relaxing the molecular clock[J]. ,154(4):1879-1892.
Jean-Marie C, Pierre P, Julien V, et al. . DIYABC v2.0: a software to make approximate Bayesian computation inferences about population history using single nucleotide polymorphism, DNA sequence and microsatellite data[J].,(8):1187-1189.
Joao S Lopes, David Balding, Mark A Beaumont. . PopABC: a program to infer historical demographic parameters[J]. ,25(20):2747-2749.
Kamm J , Terhorst J , Durbin R, et al. . Efficiently Inferring the demographic history of many populations with allele count data[J]. ,115(531):1472-1487.
Kuhner MK, Yamato J, Felsenstein J. . Estimating effective population size and mutation rate from sequence data using Metropolis-Hastings sampling[J]. ,140(4):1421-1430.
Li H, Durbin R. . Inference of human population history from individual whole-genome sequences[J]. ,475(7357):493-496.
Liu S, Lorenzen ED, Fumagalli M, et al. . Population Genomics Reveal Recent Speciation and Rapid Evolutionary Adaptation in Polar Bears[J]. ,157(4):785-794.
Liu X , Fu Y X . . Exploring population size changes using SNP frequency spectra[J]. ,47(5):555-559.
Liu X , Fu Y X . . Stairway Plot 2: demographic history inference with folded SNP frequency spectra[J]. ,21(1):280.
Lohmueller KE, Bustamante CD , Clark AG. . Methods for human demographic inference using haplotype patterns from genomewide single-nucleotide polymorphism data[J]. , 182(1):217-231.
Marjoram P, Wall JD. 2006. Fast "coalescent" simulation[J]. ,7(1):1-9.
Marjoram P, Molitor J, Plagnol V, et al. . Markov chain Monte Carlo without likelihoods[J].,100(26):15324-15328.
Mondal, M., Bertranpetit, J. Lao, O. . Approximate Bayesian computation with deep learning supports a third archaic introgression in Asia and Oceania. , 10(1), 246.
Naseri A, Liu X, Tang K, et al. . RaPID: ultra-fast, powerful, and accurate detection of segments identical by descent (IBD) in biobank-scale cohorts[J]. ,20(1):1-15.
Nait Saada J, Kalantzis G, Shyr D, et al. . Identity-by-descent detection across 487,409 British samples reveals fine scale population structure and ultra-rare variant associations[J].,11(1):6130.
Nee S , Holmes E C , Rambaut A , et al. . Inferring population history from molecular phylogenies[J].,349(1327):25-31.
Nielsen R. . Estimation of population parameters and recombination rates from single nucleotide polymorphisms.[J]. ,154(2):931-942
Paradis, E.. Assessing temporal variations in diversification rates from phylogenies: estimation and hypothesis testing[J].,264(1385), 1141–1147.
Paradis E. . Detecting shifts in diversification rates without fossils[J]. ,152(2):176-187.
Paradis, E. . Testing for constant diversification rates using molecular phylogenies: a general approach based on statistical tests for goodness of fit[J]. ,15(4): 476-479.
Plagnol V, Wall JD. . Possible ancestral structure in human populations[J]. , 2(7):e105.
Pritchard JK, Seielstad MT, Perez-Lezaun A, et al. . Population growth of human Y chromosomes: a study of Y chromosome microsatellites[J]. ,16(12):1791-1798
Pybus OG, Holmes EC, Harvey PH. . The mid-depth method and HIV-1: a practical approach for testing hypotheses of viral epidemic history[J]. ,16(7):953-959.
Pybus OG, Rambaut A, Harvey PH. . An integrated framework for the inference of viral population history from reconstructed genealogies[J]. , 155(3):1429-1437.
Raghavan M, Steinrücken M, Harris K, et al. . Genomic evidence for the Pleistocene and recent population history of Native Americans[J]. ,349(6250):aab3884.
Rogers AR, Harpending H. . Population growth makes waves in the distribution of pairwise genetic differences[J]. ,9(3):552-569.
Sanchez T, Bray E M, Jobic P, et al. . dnadna: a deep learning framework for population genetics inference[J]. , 39(1): btac765.
Sanderson, MJ. . A nonparametric approach to estimating divergence times in the absence of rate constancy[J]. ,14(12):1218-1231.
Schiffels S, Durbin R. . Inferring human population size and separation history from multiple genome sequences[J]. ,46(8):919-925.
Sheehan S, Song Y S. . Deep learning for population genetic inference[J].,12(3):e1004845.
Shemirani R, Belbin GM, Avery CL, et al. . Rapid detection of identity-by-descent tracts for mega-scale datasets[J]. ,12(1):3546.
Slatkin M, Hudson RR. . Pairwise comparisons of mitochondrial DNA sequences in stable and exponentially growing populations[J]. ,129(2):555-562.
Smith C C R, Tittes S, Ralph P L, et al. . Dispersal inference from population genetic variation using a convolutional neural network[J]. , 224(2): iyad068.
Steinrücken M, Kamm J, Spence J P, et al. . Inference of complex population histories using whole-genome sequences from multiple populations[J]. , 116(34): 17115-17120.
Tajima F. 1983. Evolutionary relationship of DNA sequences in finite populations[J]. ,105(2):437-460.
Tajima F. . The effect of change in population size on DNA polymorphism[J]. ,123(3):597-601.
Tataru P, Nirody JA, Song YS. . diCal-IBD: demography-aware inference of identity-by-descent tracts in unrelated individuals[J].,30(23):3430-3431.
Tavaré S, Balding DJ, Griffiths RC, et al. . Inferring coalescence times from DNA sequence data[J]. ,145(2):505-518.
Théophile S. et al, . dnadna: a deep learning framework for population genetics inference, , 39(1):
Thorne JL, Kishino H, Painter IS.1. Estimating the rate of evolution of the rate of molecular evolution[J]. ,15(12):1647-1657.
Vila C, Amorim IR, Leonard JA, et al. . Mitochondrial DNA phylogeography and population history of the grey wolf canis lupus[J]. ,8(12):2089-2103.
Wakeley, J. . Coalescent theory: an introduction[M]. Greenwood Village, Colorado:.
Watterson GA. . On the number of segregating sites in genetical models without recombination[J].,7(2):256-276.
Wegmann D, Leuenberger C, Neuenschwander S, et al. . ABCtoolbox: a versatile toolkit for approximate Bayesian computations[J]. ,11(1):116-116.
Weiss G, Haeseler A V. . Inference of population history using a likelihood approach[J]. ,149(3):1539-1546.
Weissman DB, Hallatschek O. . Minimal-assumption inference from population-genomic data[J]. ,6:e24836.
文字:百香果
圖片:百香果
審校:梔 子
Copyright: 采用知識共享許可協(xié)議進行許可:CC4.0 BY-NC-SA