寫在前面:非常感謝CJ開發(fā)出如此強大的TBtools工具。作者(CJchen-0410)在B站上有新手教程,大家可以給大神點個關注。
本文以《Genome-wide identification and phylogenetic analysis of rice FTIP gene
family》為例澎现,介紹TBtools基因家族分析的流程仅胞。
本文內容
1、從結構域出發(fā)鑒定基因家族成員
2剑辫、順式作用元件分析
3干旧、保守結構域分析
4、多物種共線性分析
準備工作
本文主要介紹TBtools的用法妹蔽,復現(xiàn)文章中作者用到TBtools的地方椎眯。
1、工具
(1) TBtools 1.09852 (下載地址:https://github.com/CJ-Chen/TBtools/releases)
(2) MEGA
(3) Pfam
(4) PlantCARE
2胳岂、數(shù)據(jù)集下載
(1) EnsemblPlants
1编整、從結構域出發(fā)鑒定基因家族成員
(1) 從 Pfam下載所有的結構域的hmm格式文件
Pfam-A 是 人工標注的結構域,Pfam-B 是預測的結構域
(2)EnsemblPlants 下載水稻的所有蛋白序列(pep)乳丰,基因序列(fa)掌测,全基因組序列(fa)和敬,全基因組注釋(gff3) ( 我用的是MSU的水稻數(shù)據(jù)瘫镇,MSU 和 NCBI 的基因注釋差別不大)
其他物種的相關序列也可以在這下載。
(3)文獻作者是利用C2結構域和PRT-C結構域查找OsFTIPs基因家族成員遇革,在Pfam上找到兩個相關結構域的登錄號PF00168什燕,PF08372粘勒。新建個文本
(4) 利用TBtools的hmm search 工具 查找
這里其實是做了個 hmmer 軟件的接口 。往常要用hmmer來找結構域需要在Pfam 上 下載 結構域的模型 秋冰,而且hmmer 這個軟件 win版本不太友好仲义,這里是給出了個優(yōu)化方案,TBtools內置了部分 hmmer 使其直接調用剑勾。
(4)輸出結果
每個結構域都會有兩部分 分數(shù) 埃撵,分別是序列得分和結構域得分,可以通過結果太多可以用E-value 篩選虽另。我用excel篩選了下暂刘,找個交集,共找到13個捂刺,和文獻中一致谣拣。
(5) 得到目標基因的蛋白序列、基因序列族展、啟動子序列森缠、注釋文件
利用TBtools的 Fasta Extract 工具提取蛋白序列、基因序列
要注意蛋白和mRNA序列的ID是有版本號的仪缸,如 LOC_Os06g41090.1 的.1贵涵。 提取蛋白序列需要標版本號,提取DNA序列則需要把版本號去掉”雒總之就是輸入的目標ID要和fasta文件中的ID對應瓷马。
利用GXF Selector 篩選目標基因的注釋文件
利用Gtf/Gff3 Sequences Extract 提取啟動子
輸入上步目標基因的注釋文件和基因組序列文件,選擇參數(shù)跨晴。輸入注釋文件后需要按下初始化欧聘,不然start是灰的。如果需要 基因組所有基因 的啟動子 可以輸入 全基因組的注釋文件端盆。
(6) 可視化
TBtools 畫的是矢量圖怀骤,可以改顏色 樣式 ,比較方便爱谁。具體操作如下晒喷,結果就不一一展示了孝偎。
同時访敌,TBtools也支持NCBI、MEME的預測結果
當然還有更加酷炫的進化樹衣盾、基因結構寺旺、motif分析的三合一圖,請出門向左(https://my.oschina.net/u/4579431/blog/4834581)势决。
2阻塑、順式作用元件預測
文獻中作者是用PlantCARE進行預測的。拿出提取到的啟動子序列扔上去等郵件就好了,一般在半個小時左右果复。
郵件中的tab文件是所有結果的匯總陈莽。得到的啟動子序列往往比較多,需要手動篩選下虽抄,主要保留響應元件走搁。需要整理成TBtools能識別的格式和一個序列長度的文件。
3迈窟、保守結構域分析
TBtools上可以直接運行MEME私植。
可視化 用到輸出的 xml 文件
作者還寫過一個更全的版本,出門右轉(http://www.reibang.com/p/b8ffd0fd1cbf)
4车酣、多物種共線性分析
(1)需要兩個物種的基因組序列(fa)和基因組注釋文件(gff3) 這里用水稻和擬南芥為例曲稼。原理就是blast。這一步運行時長主要還是和基因組大小和電腦線程數(shù)有關湖员,條件允許的情況下可以多開幾個線程贫悄。
(2)運行過程中可能會彈出警告,但沒事兒娘摔。這主要是注釋文件的問題
(3)可視化 主要用到結果中的gff文件窄坦、ctl文件、collinearity文件
灰色的是基因組比對上的地方,紅色的是比對上的目標基因(沒比對上就沒有嫡丙。還可以放多個物種的比對結果拴袭。也可以物種內共線性比對,查看是否發(fā)生基因復制事件(https://www.meiwen.com.cn/subject/ljltbctx.html),思路和方法也是差不多的
TBtools 不止能做基因家族分析曙博,隨著TBtools這個社區(qū)的壯大拥刻,已經有了很多教程,也有很多作者貢獻了十分有用的插件父泳,小的方面可以完成批量重命名般哼、熱圖、維恩圖惠窄、火山圖蒸眠、Logo、氣泡圖杆融,大的方面能夠完成轉錄組分析和注釋楞卡,WGCNA等工作。同時也感謝這些作者降低了生信分析的門檻脾歇,更好的幫助科研工作(湊結果)蒋腮。作者也寫了很多的教程 可以關注公眾號:生信藥丸。
參考文獻:
Genome-wide identification and phylogenetic analysis of rice FTIP gene family
愚見 | 解讀文稿 BMC Plant Biology 本氏煙類成束蛋白阿拉伯半乳聚糖基因家族分析
TBtools: An Integrative Toolkit Developed for Interactive Analyses of Big Biological Data