在這篇文章中酪耕,作者提到候選基因受到正選擇。看附表19給的數(shù)據(jù)轨淌,該說(shuō)法的依據(jù)是作者對(duì)普通蕎麥和苦蕎的直系同源基因?qū)ψ隽薑a/Ks分析迂烁,其值大于1。
今天的推送递鹉,將介紹如何對(duì)兩個(gè)基因組之間的直系同源基因?qū)τ?jì)算Ka盟步、Ks及Ka/Ks.
中性理論與自然選擇
中性理論認(rèn)為:大部分對(duì)種群的遺傳結(jié)構(gòu)與進(jìn)化有貢獻(xiàn)的分子突變?cè)谧匀贿x擇的意義上都是中性或近中性的,因而自然選擇對(duì)這些突變并不起作用梳虽。中性突變的進(jìn)化是隨機(jī)漂移的過(guò)程全闷,或被固定在種群中凿将,或消失顽悼。也就是說(shuō)顽决,中性理論認(rèn)為我們今天觀察到的遺傳變異(無(wú)論是種內(nèi)多態(tài)性還是種間分歧)泳梆,均不取決于自然選擇所驅(qū)動(dòng)的有利突變的固定垄开,而是取決于那些中性突變的隨機(jī)固定阐肤。有利突變對(duì)個(gè)體具有優(yōu)勢(shì)抬闯,從而得以保留和固定拓颓;有害突變可能導(dǎo)致個(gè)體的生存力或育性降低從而被淘汰语婴。
需要注意的是,發(fā)生在基因區(qū)域的大多數(shù)突變是有害的,會(huì)被凈化選擇所清除砰左;核昔酸置換率近似等于中性突變率匿醒;功能較重要的基因或基因區(qū)域的進(jìn)化較慢,即觀測(cè)到的突變比較少缠导。
同義置換和非同義置換
不導(dǎo)致氨基酸改變的核昔酸變異稱為同義置換廉羔,反之則稱為非同義置換。一般認(rèn)為僻造,同義置換不受自然選擇憋他,而非同義置換則受到自然選擇。
基于Ka/Ks鑒定正選擇
dn(可寫為Ka): 平均每個(gè)潛在非同義位點(diǎn)上發(fā)生非同置換的數(shù)目髓削,一般簡(jiǎn)稱非同義置換率竹挡。
ds(可寫為Ks):平均每個(gè)潛在同義位點(diǎn)上發(fā)生同義置的數(shù)目,一般簡(jiǎn)稱同義置換率立膛。
ω:非同義/同義置換率的比率揪罕,ω=dn/ds
若將同義置換率作為基準(zhǔn)點(diǎn)(作為分母),我們可以推斷自然選擇在非同義置換固定過(guò)程中是起推動(dòng)還是阻礙作用宝泵。非同義/同義置換率的比可在蛋白質(zhì)水平度量選擇壓力耸序。
計(jì)算過(guò)程
s表示潛在同義位點(diǎn)數(shù),等于所有位置上發(fā)生同義改變的比例之和鲁猩,在給定的實(shí)例中坎怪,phase0和1出現(xiàn)同義替換的比例均為0,phase出現(xiàn)同義替換的概率為1廓握,所以s=0+0+1=1.
n表示潛在的非同一位點(diǎn)數(shù)目搅窿,等于所有位點(diǎn)數(shù)目減去s,即3-1=2.
在給定的例子中隙券,假設(shè)突變后的結(jié)果為GCG (Ala)男应,即發(fā)生了一次非同義替換
則平均每個(gè)潛在非同義位點(diǎn)上發(fā)生非同置換的數(shù)目(即dn)為1/2=0.5;
平均每個(gè)潛在同義位點(diǎn)上發(fā)生同義置的數(shù)目(即ds)為0/1=0娱仔;
ω=dn/ds的值用來(lái)檢測(cè)基因是否受到正選擇:
ω明顯大于1沐飘,即非同義替換都被保留了,基因受到正選擇牲迫,這種情況較少耐朴,也是后續(xù)分析的重點(diǎn);
ω接近1盹憎,基因受到中性選擇筛峭;
ω明顯小于1,基因受到純化選擇陪每,大多數(shù)基因計(jì)算得到的是這種情況影晓,說(shuō)明凈化選擇的普遍性镰吵。
正選擇分析
本想用homo以及苦蕎的基因組重復(fù)下本文的分析,但是始終找不到本文組裝的homo基因組挂签,挺奇怪的疤祭。
后面的演示用擬南芥和鹽芥的數(shù)據(jù),用到CDS和蛋白序列饵婆。
第一步 鑒定直系同源基因?qū)??
這一步可以直接用兩次blast完成勺馆,在這里用到了wgd軟件的dmd功能,也可以達(dá)到類似的目的啦辐。wgd(https://github.com/arzwa/wgd)軟件可直接用conda完成配置谓传,該軟件主要用來(lái)做全基因組復(fù)制分析,本次推送不涉及芹关,后續(xù)可能會(huì)有專門的推送续挟。
--eval 設(shè)置blast的閾值,一般為1e-10侥衬,最終的輸出文件保存了在擬南芥和鹽芥中鑒定到的同源基因?qū)Α?/p>
第二步 同源系列比對(duì)
這一步主要用到ParaAT工具诗祸,下載鏈接https://ngdc.cncb.ac.cn/tools/paraat,解壓后即可使用轴总。
運(yùn)行ParaAT時(shí)輸入的CDS和蛋白序列是fa格式直颅,需要主要把標(biāo)題行中其他不必要信息去除,否則輸出目錄align_out下面為空怀樟。
第三步 計(jì)算Ka功偿、Ks值
Kaks_Calculator軟件可從https://github.com/lizzhao/Kaks_Calculator下載。
-m指定計(jì)算模型往堡,設(shè)定為YN更接近CodeML的計(jì)算結(jié)果械荷。如果不指定,會(huì)利用所有模型計(jì)算一遍虑灰,運(yùn)行非常慢吨瞎。
輸出結(jié)果保存在result.txt。
第一列為直系同源基因?qū)δ赂溃诙袨橹付ǖ挠?jì)算模型颤诀,三四列為Ka和Ks值,第五列為兩者的比值对湃,第六列是該計(jì)算的Pvalue崖叫。大多數(shù)的Ka/Ks都是小于1的,>1即表示存在正選擇熟尉,結(jié)合Pvalue確定受到正選擇的基因归露。
參考內(nèi)容
https://genek.cn/
侵刪,后臺(tái)聯(lián)系即可斤儿。