前面推文所提基本性質(zhì)的分析(理化性質(zhì)瓜饥,基因染色體分布,基因結(jié)構(gòu)浴骂、基序和保守結(jié)構(gòu)域)已完成乓土,進(jìn)一步基因家族成員的進(jìn)化分析可以推測未知基因的功能,也會讓文章更為完整溯警。進(jìn)化分析包括1.基因家族成員的分類(進(jìn)化樹)2.物種內(nèi)共線性分析(本人研究栽培花生趣苏,其分為A和B兩個亞家族,可以研究A梯轻、B食磕、A和B之間的關(guān)系)3.物種間共線性分析(栽培花生與模式植物擬南芥)
1.基因家族成員進(jìn)化分析(進(jìn)化樹),如果基因家族成員數(shù)量不多喳挑,與基因結(jié)構(gòu)彬伦,基序分布和保守結(jié)構(gòu)域可以合成一張圖,根據(jù)自己需要整合伊诵,因為本人研究較大单绑,進(jìn)化分析是單獨做圖。主要是2個部分A:氨基酸序列的比對與進(jìn)化樹的構(gòu)建(MEGA軟件)B:進(jìn)化樹的美化(ITOL網(wǎng)站http://itol2.embl.de/external.cgi)
A:氨基酸序列的比對與進(jìn)化樹的構(gòu)建(MEGA7軟件):Align→Edit/Build Alignment→Create a new alignment→Protein→氨基酸序列拖入→Align by Muscle→Neighbor Joining→出現(xiàn)進(jìn)化樹(調(diào)整了相關(guān)參數(shù)并不是很滿意圖片的質(zhì)量和效果曹宴,于是保存樹文本文件搂橙,其他軟件或者網(wǎng)站進(jìn)行美化)→File→Export current tree(Newick)→ctrl+s→命名
B:進(jìn)化樹的美化(ITOL)
ITOL(最好進(jìn)行用戶注冊,方便查看保存上傳的文件)→Date uploaded→選擇之前保存的樹文本文件并命名→顯示界面有basic/advanced/diaplay controls(根據(jù)需要自行調(diào)整笛坦,我對研究的基因家族成員整體進(jìn)行顏色的分類和命名)→Export tree(根據(jù)需要選擇保存格式)
進(jìn)化樹的構(gòu)建與美化還需要與其他工作結(jié)合進(jìn)行反復(fù)確認(rèn)與修正(同一個亞家族成員基因結(jié)構(gòu)区转、基序分布保守結(jié)構(gòu)域是否一致,是否與其他物種該基因亞家族分類大致相似等)版扩。
2.物種內(nèi)共線性分析(搜索公眾號“生信藥丸”或“今日之森”講解十分詳細(xì)废离。栽培花生和栽培花生):主要分為以下3個部分C:序列的比對D:文件的整理E:物種內(nèi)的可視化
C:序列的比對:TBtools→BLAST→Two Sequences Files(參數(shù)自行調(diào)整,Outfmt為table)→Start(運行時間與物種基因組大小和相關(guān)參數(shù)設(shè)定有關(guān)礁芦,花生自身比對電腦運行了9 h左右蜻韭,建議晚上電腦過夜)
D1:文件的整理(Advanced Circos需要2個文件圖中1和3):
(1) 染色體長度文件:自行編輯,文本格式保存
(2)Linked info文件:參考“今日之森”公眾號中物種共線性推文(基因家族成員的數(shù)量少宴偿,自行編輯即可)
E1:種內(nèi)的可視化:TBtools→Graphics→Advanced Circos
D2:文件的整理(Circle Gene View需要3個文件圖中1湘捎、2和3):
(1)基因組注釋文件:原始的.gff3文件
(2)Gene Id List文件:(第一步確定家族成員已獲得)
(3)Gene Linked info文件::參考“今日之森”公眾號中物種共線性推文(基因家族成員的數(shù)量少,自行編輯即可)
E2:物種內(nèi)的可視化:TBtools→Graphics→Show Genes On Chromosomes→Circle Gene View
3.物種間共線性(栽培花生和擬南芥)窄刘,與上述一致分為以下3個部分F:序列的比對G:文件的整理H:物種間的可視化
F:序列的比對:TBtools→BLAST→Two Sequences Files(參數(shù)自行調(diào)整窥妇,Outfmt為table)→Start(運行時間與物種基因組大小和參數(shù)設(shè)定有關(guān),先花生比對到擬南芥娩践,再擬南芥比對到花生活翩,一次比對電腦運行了6.5 h左右)
G:文件的整理(總共4個文件整理后只有2個):
(1)TBtools→Comparative Genomics→File Merge for MCScanX→花生和擬南芥分別的基因組注釋文件拖入(.gff)烹骨,Merge Mode改成GtfGff2SimGxf格式→得到文件1(花生和擬南芥整合的基因組注釋文件);
(2)TBtools→Comparative Genomics→File Merge for MCScanX→花生和擬南芥的分別雙向比對的文件結(jié)果(blast.table)材泄,Merge Mode不變→得到文件2(花生和擬南芥的整合的雙向比對的文件結(jié)果)沮焕。
(3)TBtools→Comparative Genomics→Quick Run MCScanX Wrapper→拖入文件1和2得到文件3(花生和擬南芥的共線性文件.collinearity)
H:物種間的可視化:TBtools→Comparative Genomics→Dual Synteny Plot→拖入4個文件(Block參數(shù)自行設(shè)置,我設(shè)置的30)→圖片另存為(我一般選擇pdf格式導(dǎo)入PS)
準(zhǔn)備4個文件:
Ctl文件(陳程杰老師課程提供有相關(guān)模板拉宗,可自行編輯或搜索其他公眾號的推文)
GFF文件:文件1
Collinearity文件:文件3
Gene List For Highlight:基因家族的ID List(第一步確定家族成員已獲得)
以上就是基因家族成員進(jìn)化關(guān)系的分析峦树,對于成員數(shù)量較多的家族而言,工作量確實不小旦事,文件格式經(jīng)常出錯魁巩,可視化圖片沒有顯示等等,好在摸索后有比較好的結(jié)果姐浮,真誠的建議:多想谷遂,多找資料,多問卖鲤,多做肾扰。