本文主要工作:
(1) 按前期處理鳳梨所需分析數(shù)據(jù)下載并處理擬南芥分析數(shù)據(jù)
(2) 對擬南芥和鳳梨 SBT?基因家族cds序列進行比對,并構(gòu)建進化樹文件
3.序列比對與進化樹構(gòu)建
3.1數(shù)據(jù)準備
由于在序列比對構(gòu)建進化樹過程中需要使用擬南芥數(shù)據(jù),在這里我們?nèi)匀话凑詹ぬ}所需基因組數(shù)據(jù)下載擬南芥相關(guān)數(shù)據(jù)胎署,并先對部分進行處理猖吴。可以看到cds和蛋白質(zhì)序列中的序列數(shù)和基因數(shù)量是相等的,因此我們不需要對其進行更改。只有g(shù)ff3文件需要對mRNA進行更改,保留在cds序列中的ID钞螟,但是由于這一大步不涉及gff3文件,而更改起來又需要自己寫個腳本谎碍,故而放在之后的過程中應(yīng)用鳞滨。最后本大步需要改動的是cds和pep序列中的id名。我們在這里只使用sed命令加正則表達式就好蟆淀。
隨后我們?nèi)匀恍枰貜?fù)之前對菠蘿的操作拯啦,鑒定擬南芥中的SBT基因家族澡匪。由于原理是相同的,我在這里就不多加以說明褒链,僅給出代碼唁情。順便一提,根據(jù)我個人的看法甫匹,在進行序列比對與構(gòu)建進化樹時甸鸟,仍然需要使用cds即基因組編碼序列。因為對基因家族的研究使用要回歸到基因組序列上兵迅,基因家族的變化實質(zhì)上是基因編碼序列的堿基變化抢韭。那么為什么我們前面要用蛋白質(zhì)序列鑒定呢?因為Pfam上保存的實際上是蛋白質(zhì)保守結(jié)構(gòu)域模型喷兼。
3.2 序列比對
在這里篮绰,我們僅進行菠蘿和擬南芥之間的序列比對后雷,而在文章中作者也添加了其它物種構(gòu)建了另一個進化樹季惯,我們并不涉及此。多序列比對我們使用的是muscle軟件臀突,也可以使用conda 安裝勉抓。而在比對時,我們只需要輸入合并了的菠蘿和擬南芥SBT?家族cds序列就可以得到新的比對文件了候学。
3.3 進化樹構(gòu)建
在得到序列比對文件后藕筋,我們?nèi)匀恍枰M行一定的處理。比對過后的文件仍然是類似fasta格式的梳码,但是我們在本章使用的建樹軟件iqtree需要輸入phylip格式文件隐圾。此外,通過less命令查看比對文件可以發(fā)現(xiàn)掰茶,比對后的文件存在大片段gap暇藏,這對于進化樹構(gòu)建的計算資源消耗較大,因此我們需要對比對文件進行處理濒蒋。以上需求我們可以通過trimal軟件實現(xiàn)盐碱,該軟件可通過conda 安裝。
在得到處理好的進化樹文件后沪伙,我們就可以構(gòu)建進化樹了瓮顽。這里用到的軟件是iqtree,它是基于最大似然法構(gòu)建進化樹的围橡。具體內(nèi)容我計劃在之后專門開專欄學(xué)習(xí)并闡明暖混。這款軟件也是可以通過conda安裝。
當(dāng)iqtree運行完成后翁授,我們會得到一系列以剛才我們規(guī)定前綴的文件拣播,在這里我們選取的主要是以treefile結(jié)尾的文件善绎,它是newick格式的樹文件,可以直接使用該文件在MEGA或是iTol等建樹專業(yè)地址進行進化樹構(gòu)建诫尽。有關(guān)它們的使用方法可以參考:iTOL美化系統(tǒng)發(fā)育樹 - 簡書禀酱;MEGA 美化進化樹 - 簡書。在這里我僅對樹文件細節(jié)做一下說明牧嫉,通過預(yù)覽可以發(fā)現(xiàn)每個基因的id都帶有類似于.1這樣的東西存在剂跟,它代表的是對可變剪切保留最長轉(zhuǎn)錄本后由某個基因編碼的第n個rna id。但是我們在構(gòu)建進化樹時為了美觀酣藻,同時也為了更符合基因id這個概念曹洽,我們選擇把它們刪去。這里結(jié)合sed命令實現(xiàn)辽剧。