序言
開一個(gè)新坑周崭,緬懷最近快讀吐了的重組和選擇主導(dǎo)下的微生物中的進(jìn)化柳譬。由于該領(lǐng)域其實(shí)還十分的新,所以其中有很多的詞我會(huì)盡可能中英夾雜续镇,以避免我翻譯的主觀性(還有錯(cuò)誤)美澳。另外順序方面我會(huì)盡可能保證邏輯的連貫性,但是最大可能還是我想到哪里就寫到哪了摸航。
另外制跟,以下大部分的內(nèi)容我都是基于wiki翻譯的,還會(huì)加上自己一些理解和補(bǔ)充酱虎,算是對(duì)中文材料的補(bǔ)充吧雨膨。
glossary
概念or現(xiàn)象
-
概念
物種形成是一個(gè)群落進(jìn)化成為一個(gè)distinct的物種的過程-
分類
從地理模式上,是可以分成allopatric(異域)读串、peripatric(外域)聊记、parapatric(鄰域)、sympatric(同域)恢暖。前兩者都是完全地理分隔排监,鄰域則是部分分隔,同域則是無明顯的地理分隔杰捂。
Comparision of allopatric, peripatric, parapatric and sympatric speciation 個(gè)人理解
物種形成的核心應(yīng)該就是如何形成舆床,以及如何維持分離,前者經(jīng)臣藜眩可以看到挨队,但是后者也是十分重要的一個(gè)環(huán)節(jié)。當(dāng)然分離不一定是一個(gè)完整的分離蒿往,如果分離(物種隔離/地理隔離)不完整的話盛垦,還是有可能繼續(xù)的發(fā)生雜交的事件,甚至形成新的物種熄浓。
-
- 概念
擴(kuò)展適應(yīng)情臭,指在進(jìn)化過程中某條路徑可能是由于某個(gè)蛋白質(zhì)功能的改變省撑。例如一個(gè)鳥類的羽毛開始為了保暖赌蔑,后來進(jìn)化出了輔助飛翔的功能。也可以叫preadaptation(預(yù)適應(yīng))
- 概念
-
Genetic hitchhiking/genetic draft/hitchhiking effect
- 概念
中文名很難聽就不叫了竟秫,如果一個(gè)allele的頻率改變不是因?yàn)樽匀贿x擇娃惯,而是因?yàn)槠溧徑嬖谝粋€(gè)經(jīng)受selective sweep的基因,這樣的現(xiàn)象稱之為hitchhiking(順風(fēng)車)肥败。 - 易錯(cuò)
也可以叫g(shù)enetic draft 而不是drift趾浅。雖然兩者都是隨機(jī)的進(jìn)化過程愕提。 - 個(gè)人理解
關(guān)于selective sweep可以看后面的詞條和示意圖。hitchhiking就是說由于基因不是一個(gè)個(gè)獨(dú)立的個(gè)體皿哨,同在一個(gè)DNA單鏈上的相鄰基因往往會(huì)同時(shí)的發(fā)生一些變化和轉(zhuǎn)移浅侨,這樣其中一個(gè)基因受選擇的同時(shí),也會(huì)對(duì)鄰近的基因造成影響证膨。(一人得道雞犬升天)如输,但是這個(gè)現(xiàn)象只有在早期的selective sweep時(shí)才很明顯。
- 概念
-
- 概念
背景選擇央勒,類似于hitchhiking不见。但恰好相反,即非有害的locus由于靠近有害的alleles崔步,加上自然地負(fù)選擇稳吮,從而導(dǎo)致自身基因頻率的降低。 - 討論
由于背景選擇而導(dǎo)致的neutral variation的改變井濒,可以通過在有害區(qū)域的總突變率的改變的指數(shù)函數(shù)來建模灶似。
背景選擇的總貢獻(xiàn)(overall effect)更像是effective population size的減少,所以這個(gè)現(xiàn)象可以作為“當(dāng)基因diversity與population size”無關(guān)的一種補(bǔ)充假設(shè)瑞你。
在高重組速率的區(qū)域中喻奥,中性的loci更像是可以“逃脫”這個(gè)效應(yīng)。 - measure
可以通過測(cè)量捏悬,neutral variants與“基于突變率和genetic drift”的中性預(yù)測(cè)模型的偏移程度來定量衡量該效應(yīng)的大小撞蚕。
- 概念
-
- 概念
中文名大概可以叫“選擇掃描”,也很難聽过牙。與上面的hitchhiking相對(duì)應(yīng)甥厦,這個(gè)現(xiàn)象就是由于選擇(selective),而導(dǎo)致DNA上鄰近某個(gè)適應(yīng)性突變的差異(variation)的減少或者消失的過程寇钉。 - 分類
大致上可以分成三種刀疙,其中。- classic or hard selective sweep扫倡,即一個(gè)非常占優(yōu)勢(shì)的突變的產(chǎn)生谦秧,會(huì)非常快的reducing genetic variation
- soft sweep撵溃,即原本就有一些中性的突變疚鲤,但是由于環(huán)境的改變,但由于本來就存在多種variation缘挑,所以不會(huì)消除所有的差異集歇。
- multiple origins soft sweep,2的加強(qiáng)版语淘。
(有個(gè)毛線差異)
-
示意圖
HardSelectiveSweep
SoftSGVSelectiveSweep - 個(gè)人理解和補(bǔ)充
鄰近的基因之間的關(guān)系可以稱之為linkage disequilibrium诲宇,但由于在自然的進(jìn)化中际歼,基因間的重組會(huì)導(dǎo)致haplotype中allele的reshuffling而導(dǎo)致沒有單個(gè)haplotype可以dominate該群體。所以如果可以檢測(cè)到很強(qiáng)的linkage disequilibrium的話姑蓝,可以說存在一個(gè)最近的selective sweep鹅心。
該現(xiàn)象在與疾病相關(guān)的醫(yī)院菌株間可能會(huì)發(fā)現(xiàn)較多。由于抗生素的使用纺荧、宿主與致病菌之間的“軍備競(jìng)賽”使菌株經(jīng)常遭受bottleneck巴帮。
- 概念
-
- 概念
基因滲入,也可以叫做滲透性的雜交虐秋¢偶耄基因上來說,就是兩個(gè)基因在兩個(gè)基因庫(gene pool)之間的交流客给,一般需要與其中某個(gè)父代進(jìn)行多次的回交(backcrossing)才能產(chǎn)生用押。是個(gè)長(zhǎng)期的過程 - 討論
與簡(jiǎn)單的雜交(hybridization)不同,introgression一般會(huì)造成復(fù)雜的父代基因的混合靶剑。
- 概念
-
negative selection/purify slection
- 概念
負(fù)選擇蜻拨,相較于正選擇∽可以去除在隨機(jī)突變中產(chǎn)生的有害的基因多樣性缎讼。
- 概念
-
Ecotype
- 概念
直譯大概叫“生態(tài)型”,有時(shí)也叫“生態(tài)物種”(ecospecies)坑匠,描述一個(gè)物種內(nèi)部血崭,出現(xiàn)的地理、群落厘灼、race上的顯著基因差異夹纫,一般是為了適應(yīng)特定的環(huán)境。
- 概念
-
- 概念
有效種群大小设凹,在一個(gè)理想群體中舰讹,在隨機(jī)漂變影響下,能夠與野生群體產(chǎn)生相同的等位基因分布或者等量的同系繁殖的個(gè)體(individual)數(shù)量闪朱。(在某些簡(jiǎn)單的場(chǎng)景中月匣,即能夠繁衍的個(gè)體的數(shù)量,)但一般都比有效種群大小大很多奋姿。并且同樣的一個(gè)群落由于討論的東西不同锄开,可以有不同的有效種群大小。 - 定量方法
有效種群大小一般以coalescence time(溯祖時(shí)間) 或者 平均逗留時(shí)間(sojourn) 來進(jìn)行定量胀蛮。
- within-species genetic diversity / mutation rate院刁,稱之為coalescent effective population size糯钙。(見coalescent time的定義) 由于理想的二倍體群落中粪狼,pairwise nucleotide diversity = 4 * 突變率 * effective population size
- 1/S_critical退腥,其中被除數(shù)為selection coefficient(當(dāng)選擇比基因漂變強(qiáng)時(shí))稱之為selectioneffective population size
- 影響因素
- fluctuating population size
- breeding sex ratio
- Overlapping generations (降低Ne)
- spatial dispersion (Ne = 4π * dispersal distance的方差的平方 * 個(gè)體的密度)
- 方差與平均數(shù)的差異。由于有效種群大小是假定Poisson distribution of family (offspring) numbers再榄。而Poisson又是假設(shè)方差和平均數(shù)相等
- 討論
容易受到瓶頸效應(yīng)的影響狡刘。有效種群大小(small = more drift, vice versa)困鸥。
- 概念
-
- 概念
指兩個(gè)進(jìn)化上并不關(guān)聯(lián)的兩個(gè)物種嗅蔬,由于受到相同的進(jìn)化壓力而導(dǎo)致相似的進(jìn)化路徑 - 相似的詞
convergent evolution(趨同進(jìn)化)
- 概念
-
- 概念
通過基因組在沒有先驗(yàn)假設(shè)(priori assumptions)的情況下研究生態(tài)的研究思路。 - 提出者
2007被Matthew Rockman提出 - 詞源
由于reverse genetics是通過比較同個(gè)基因在不同表型下的不同序列來研究基因的功能疾就。
- 概念
-
- 概念
在進(jìn)化過程中澜术,第一個(gè)細(xì)胞將其基因的轉(zhuǎn)移由主要是水平轉(zhuǎn)移變化到垂直轉(zhuǎn)移的轉(zhuǎn)移時(shí)間段。這個(gè)過程開始于最近共同祖先開始難以被HGT并且變成一個(gè)可以被自然選擇有效選擇的帶有垂直遺傳能力的個(gè)體猬腰。自此開始鸟废,生命才有了現(xiàn)代的樹結(jié)構(gòu)的譜系。
- 概念
Metrics or test
由于以下涉及很多的方法姑荷、test盒延、定量方法,原理方面盡量不說太多鼠冕,畢竟每一個(gè)都是可以說很多很多包括計(jì)算的添寺,這里主要講,是什么懈费,怎么算计露,代表什么,為什么等問題憎乙。
-
- 目的
通過比較物種內(nèi)部的多態(tài)性和物種之間的差異(divergence)薄坏,判斷觀測(cè)到的差別(differences)是由于中性進(jìn)化還是適應(yīng)性進(jìn)化導(dǎo)致的。作為McDonald-Kreitman test的前身寨闹。 - 解讀
不打算解讀了胶坠,因?yàn)橄旅娴?a target="_blank" rel="nofollow">McDonald-Kreitman test更清晰直接一點(diǎn)。 - 計(jì)算方式
即對(duì)每個(gè)locus(L)繁堡,A樣本中觀測(cè)到的具有多態(tài)性的位點(diǎn)上的差異的數(shù)目的和沈善,減去,多態(tài)性的期望的平方椭蹄,然后除以方差闻牡。然后將該公式應(yīng)用于樣本B,
- 目的
-
- 目的:用于檢測(cè)是否發(fā)生了適應(yīng)性進(jìn)化(adaptive evolution)绳矩,并且檢測(cè)替換中有多少導(dǎo)致了正選擇罩润。
-
為什么?
一般正/負(fù)選擇都是影響非同義突變翼馆,如果負(fù)選擇增強(qiáng)割以,那么非同義突變就會(huì)減少金度,但被選擇掉的個(gè)體同時(shí)也會(huì)對(duì)多態(tài)性(polymorphism)也影響很大,所以最后會(huì)導(dǎo)致Dn/Ds < Pn/Ps(Pn, Dn變小严沥,Ps也變小猜极,Ds幾乎不變)。相反消玄,如果是正選擇變強(qiáng)了的話跟伏,其對(duì)多態(tài)性(polymorphism)的影響很小,但對(duì)分化(divergence)影響就很大翩瓜,最后導(dǎo)致Dn/Ds < Pn/Ps(Pn, Dn變大受扳,Ps幾乎不變,Ds變大) - 計(jì)算方法
比較組內(nèi)兩種(中性/非中性)的(polymorphism)變化兔跌,和物種間的(substitutions)辞色。其中polymorphism即組內(nèi)的比較,substitutions則是組間的比較浮定,這里的組指物種相满。
其中零假設(shè)即Dn/Ds = Pn/Ps。如果負(fù)選擇占優(yōu)桦卒,即Dn/Ds < Pn/Ps立美,即有害的突變強(qiáng)影響了polymorphism。反之亦然方灾。
并且也可以通過以上比例的換算建蹄,得出有多少成分的堿基替換fixed by natural selection。
其中α代表了proportion of substitutions driven by positive selection裕偿,取值范圍為負(fù)無窮到1洞慎,負(fù)數(shù)為sampling error或者violations of the model. -
目的:
Tajima's D 是定量?jī)煞Ngenetic diversity之間的差值,即pairwise differences的平均數(shù)目和segregating sites的數(shù)目的差嘿棘。
Tajima's D test是為了區(qū)分隨機(jī)(中性)進(jìn)化的DNA序列與非隨機(jī)進(jìn)化的DNA序列劲腿。其中包括directional selection or balancing selection-
核心:
- the mean pairwise difference (π)
- the number (S) of segregating sites
為什么這么算?
這里講不完鸟妙,看我的下一篇文章吧焦人,希望可以盡快寫完。-
計(jì)算方法
雙倍體的基因組重父,基于neutral theory model花椭,對(duì)于一個(gè)有著固定數(shù)目的群落來說,存在以下關(guān)系房午。
其中S為segragating sites的數(shù)目矿辽,N為有效種群大小,n為樣本數(shù)目,i為index袋倔,θ為pairwise的差異雕蔽。但如果發(fā)生了選擇、地理變化奕污、其它破壞中性模型的因素(其中也包括了rate heterogeneity和introgression)萎羔,那么就會(huì)破壞公式兩邊的相等液走,其中兩邊的差異就需要可以作為計(jì)算Tajima's D*的關(guān)鍵碳默。
d則是兩個(gè)θ之間的差異,而分母則是variance.如果展開這個(gè)式子的話缘眶,就是
其中嘱根,
k代表了平均的SNP數(shù)目,pairwise的將兩兩之間的SNP加起來巷懈,再除以N中選2的所有可能性的數(shù)目(不考慮順序)
S代表樣本中總的polymorphisms的數(shù)目该抒,即有多少個(gè)segragating sites
剩下的a1,e1......這些都是在neutral model中推導(dǎo)出來的,所以十分復(fù)雜顶燕,在這里就先簡(jiǎn)單的記住好了凑保。也可以看watterson estimator
我會(huì)開新的一篇文章專門講一下這個(gè)過程的推導(dǎo)。
(一起學(xué)習(xí))主要的文獻(xiàn)就是1975的watterson在On the Number of Segregating Sites in Genetical Models without Recombination提到的kimura的一些補(bǔ)充和推導(dǎo)涌攻。-
如何解讀
Value of Tajima's D Mathematical reason biological interpretation 1 biological interpretation 2 equal 0 兩種對(duì)θ(pairwise差異的估計(jì))相等欧引,Average Heterozygosity = Segregating sites observed variation similar to expected variation No evidence of selection negative Fewer haplotypes(lower average heterozygosity) than segregating sites 少數(shù)的alleles頻率很高 最近發(fā)生selective sweep, 在瓶頸效應(yīng)后發(fā)生了種群擴(kuò)張, 與某個(gè)sweep的基因相關(guān)聯(lián) positive More haplotypes than segregating sites 稀有的alleles頻率低 平衡的選擇(Balancing selection), 突然的種群收縮
-
如何解讀
-
概念
類似于Tajima's D,是它的一種進(jìn)階版恳谎。-
進(jìn)階之處
在某種情境下是芝此,如果某些alleles在不同群落之間的多態(tài)性很低。那么可能由三種原因造成因痛。- 該序列受到很強(qiáng)的負(fù)選擇婚苹,所以任何新的突變都是有害的并且會(huì)很快的唄消除掉
- 該序列剛剛經(jīng)受selective sweep,所以所有的alleles變得同質(zhì)性很強(qiáng)鸵膏。而這個(gè)觀測(cè)到的alleles則是少數(shù)派膊升,突變時(shí)間很近。
- 剛剛經(jīng)受了瓶頸效應(yīng)谭企,所以現(xiàn)在的個(gè)體都是從很少/一個(gè)共同祖先起源的用僧。
這種情況下,計(jì)算Tajima's D會(huì)得到一個(gè)負(fù)數(shù)的值赞咙,但是無法區(qū)分是選擇還是selective sweep造成的责循,所以需要Fay and Wu's H.
不僅僅考慮兩個(gè)種群,而且考慮outgroup的物種數(shù)據(jù)攀操,從而得知在這兩個(gè)物種分開之前的祖先的狀態(tài)院仿。
-
- 目的
用以判斷在一堆的同源蛋白質(zhì)編碼基因上的突變是受neutral、purifying、beneficial那種主導(dǎo)歹垫。定義上來說很長(zhǎng)the ratio of the number of nonsynonymous substitutions per non-synonymous site (pN) to the number of synonymous substitutions per synonymous site (pS)
剥汤,這里就不說中文了,如果對(duì)其中的per site有疑問排惨,可以見我的另一篇文章用以判斷選擇壓力的Ka/Ks的計(jì)算 - 同義詞/易錯(cuò)詞
Ka/Ks又叫做ω或者dN/dS - 解讀
- 大于1吭敢,則是Positive or Darwinian selection (driving change) 使其發(fā)生突變
- 小于1,則是purifying or stabilizing selection (acting against change) 抵消/消除了突變
- 等于1暮芭,有可能no/neutral selection鹿驼,但也可能是正負(fù)選擇的相互抵消。
- 目的
-
目的
由遺傳結(jié)構(gòu)(genetic structure)計(jì)算種群的差異程度辕宏。算是Wright's F-statistics的特例畜晰。為什么這么算?
-
計(jì)算方法
其中p是整個(gè)群落中該allele的平均頻率瑞筐,σS的平方是該allele在不同子群落(subpopulation)中頻率的方差凄鼻,并根據(jù)子群落的大小進(jìn)行加權(quán)。σT的平方則是該allele在整個(gè)群落中的方差聚假。
其中如果mutation rate很低块蚌,也可以將Fst與溯祖時(shí)間(coalescent times)相聯(lián)系上,從而用T0:子群落中祖先到個(gè)體的時(shí)間和T:整個(gè)群落祖先到個(gè)體的時(shí)間膘格,來對(duì)Fst進(jìn)行估計(jì)峭范。
某種程度上說,F(xiàn)st也可以理解成闯袒,相較于整個(gè)群體虎敦,從子群體中拿出隨機(jī)兩個(gè)個(gè)體能有多接近?
由于以上兩種計(jì)算方式有點(diǎn)麻煩政敢,也很難定量的得到需要的等式右邊的變量其徙。所以一種簡(jiǎn)單的估算如下:
在between or within 不同的子群落中任選兩個(gè)個(gè)體(individual),比較pairwise之間差異的平均數(shù)目喷户。其中的bias會(huì)由于樣本的數(shù)量太小唾那、與群落差異大而造成
解讀
Fst取值從0到1,0時(shí)認(rèn)為是個(gè)完全隨機(jī)交配的群體褪尝。1時(shí)則認(rèn)為所有的遺傳變異都可以被群落結(jié)構(gòu)所解釋闹获,所以兩個(gè)群落之間不分享任何遺傳的差異。
Reference
維基百科 biodiversity的詞條
Review 15 Krause
Population Genetics V: Effective population size, Ne
how to calculate Tajima's D
Tajima's D original paper
On the Number of Segregating Sites in Genetical Models without Recombination