選擇壓力及基因在進(jìn)化過程中所受到的壓力悬荣,也稱自然選擇菠秒。
- 在遺傳學(xué)中, Ka/Ks或者dN/dS表示的是非同義突變頻率(Ka)和同義突變頻率(Ks)之間的比例氯迂。
- 一般認(rèn)為践叠,同義突變不受自然選擇,而非同義突變則受到自然選擇作用嚼蚀。由于非同義替換往往對(duì)于生命體有害禁灼,所以在負(fù)選擇的作用下,非同義替換常常會(huì)在群體中被逐漸消滅轿曙。
- 當(dāng)Ka/Ks > 1時(shí)匾二,基因受到正選擇(positive selection)
- 受到正選擇的基因可能是物種受到自然選擇/人工選擇的結(jié)果哮独。對(duì)研究物種環(huán)境適應(yīng)性、人工選育/馴化的影響具有重要意義察藐。
具體知識(shí)我不作贅述皮璧,感興趣的可以去看其他文章,本文主要介紹選擇壓力分析具體的流程及方法分飞。這方面網(wǎng)上的教程很少悴务,我也只是在各種網(wǎng)上的教程里自己摸索整理出的方法,方法不一定對(duì)譬猫,僅供參考讯檐。
1. 物種選擇及序列下載
- 物種的選擇
在進(jìn)行選擇壓力之前,我們首先要確定分析的物種染服,物種一般選擇近緣物種别洪,數(shù)量不宜太多,一般5-6個(gè)柳刮。不然會(huì)導(dǎo)致單拷貝直系同源基因太少挖垛。
- 序列下載
我們需要下載物種的CDS序列或自己測(cè)序獲得的CDS序列進(jìn)行分析,下載的數(shù)據(jù)庫推薦兩個(gè):
-
NCBI Genome Database,這個(gè)是大家平時(shí)可能最常用的基因數(shù)據(jù)庫秉颗。
-
中國國家基因庫痢毒,這個(gè)數(shù)據(jù)庫回定期同步國際數(shù)據(jù)庫的資源,網(wǎng)絡(luò)加載速度比 NCBI 快很多且中文界面比較友好蚕甥。
2. 序列去冗余及格式調(diào)整
- 這里我以Ameiurus melas基因組為例哪替,首先下載CDS序列,如下圖所示菇怀,我們首先需要修改其序列名稱凭舶,只保留紅框中我們需要的部分,這步可以自己編寫腳本爱沟,或者使用我寫的Python腳本帅霜。(使用方法: python 1_modify_NCBI_ID.py YourFastaFile.fa)
然后對(duì)序列最長CDS序列進(jìn)行提取,并將物種名稱加到ID的前面钥顽,得到如下格式:
- 另外加上自己組裝的Trinity序列义屏,首先從中提取最長轉(zhuǎn)錄本靠汁,方法見我另一篇文章用Python提取FASTA中最長轉(zhuǎn)錄本,或者直接使用我寫好的腳本蜂大。再使用TransDecoder預(yù)測(cè)CDS序列。最后提取最長CDS序列蝶怔,原理和上面類似奶浦。
3. 直系單拷貝同源基因篩選及系統(tǒng)發(fā)育樹構(gòu)建
這里使用OrthoFinder尋找同源基因并建樹,得到直系單拷貝同源基因和物種系統(tǒng)發(fā)育樹結(jié)果。
4. 多序列比對(duì)及格式轉(zhuǎn)換
-
首先將所有的直系單拷貝同源基因進(jìn)行多序列比對(duì)踢星,這里我這了很多軟件澳叉,發(fā)現(xiàn)常規(guī)的mafft, muscle 等軟件比對(duì)后會(huì)改變密碼子序列。于是使用了PhyloSuite中的mafft多序列比對(duì),選擇密碼子(codon)模式成洗。
-
最后使用PhyloSuite的格式轉(zhuǎn)換工具五督,轉(zhuǎn)換比對(duì)完成后的序列為Paml所需要的格式。到這里瓶殃,所有的數(shù)據(jù)準(zhǔn)備就完成了充包,就可以開始選擇壓力分析了。
5. 選擇壓力分析
目前我們有了選擇壓力分析所必須的文件:
- 比對(duì)好的Paml格式密碼子序列遥椿。
- 物種的系統(tǒng)發(fā)育樹基矮。(計(jì)算時(shí)要在選擇的物種名后加上 #1)
選擇壓力分析使用的是Paml中的codeml軟件包。EasyCodeML做了很好的可視化界面冠场,但是不能批量運(yùn)算家浇,只能一次分析一個(gè),并且容易卡死(Mac 和 windows上都遇到過)碴裙。
所以我自己寫了一個(gè)腳本callCodeml(使用方法:python3 callCodeml.py 序列文件夾 物種發(fā)育樹文件)來計(jì)算前景枝受到的選擇壓力钢悲,調(diào)用codeml批量運(yùn)算枝位點(diǎn)模型(Branch site model),并使用chi2檢驗(yàn)青团,只輸出 P < 0.05 的結(jié)果譬巫,最終將結(jié)果自動(dòng)整理成表格。
至此督笆,選擇壓力分析完成芦昔,我們只需要根據(jù)OrthoFinder的文件即可找到OG00XXXX同源組所對(duì)應(yīng)的基因名稱。
6. 繪圖
困了娃肿,睡覺咕缎,改天有緣再寫。