寫在前面
從某個物種中鑒定某個家族的全部成員缘缚,一般有兩種操作:
- 基于Domain,用
hmmsearch
等軟件 - 基于序列相似性桥滨,用
BLAST
等軟件
事實(shí)上,我個人是推薦第二種齐媒,尤其是目前絕大多數(shù)物種的基因結(jié)構(gòu)注釋存在問題纷跛。使用第一種,遺漏的幾率更大忽舟,比如正好保守結(jié)構(gòu)域區(qū)段沒有被注釋出來。當(dāng)然,使用第二種叮阅,則有一定可能引入假陽性刁品。當(dāng)然了,后者完全可以通過進(jìn)一步多類證據(jù)整合查看浩姥。這也就是可視化存在的意義(TBtools 的三圖合一)挑随。
然而,第一種確實(shí)是很快勒叠,也一直被更多人推崇兜挨。我也并不反對。所以眯分,很久以前拌汇,在 TBtools 中放了一個功能。
具體可以參考推文《使用HMM進(jìn)行基因家族鑒定弊决?無人不能》噪舀。兩年后,再來看實(shí)現(xiàn)邏輯飘诗,
Ugly!
于是与倡,我一邊帶娃,一邊寫了今天這個插件(其實(shí)是委托運(yùn)營團(tuán)隊(duì)的
Feature Request
)昆稿。
寫完這個插件纺座,我個人還是比較滿意。畢竟從某個角度來說溉潭,TBtools
又少了一些被人吐槽的點(diǎn)(盡管我還是不明白净响,不就HMM
,有啥好吐槽的)岛抄,也多了一個極度友好的功能别惦!
使用極其簡單
正如上圖,用戶只需要關(guān)心:
- 輸入文件 - 查詢信息 和 序列庫
- 輸出文件
對于輸入文件一夫椭,支持三類掸掸,且自動識別:
- PFAM ID,如 WRKY 結(jié)構(gòu)域?yàn)?
PF03106
蹭秋,MYB 結(jié)構(gòu)域?yàn)?code>PF00249扰付,這些可以直接在 PFAM 數(shù)據(jù)庫上找到,更或者在一些文獻(xiàn)中會注明羽莺。 - 多序列比對結(jié)果洞豁,如果果膠甲基酯酶 PME 家族,這類結(jié)構(gòu)蛋白刁卜,常常不像轉(zhuǎn)錄因子蛔趴,不一定有保守結(jié)構(gòu)域在PFAM上孝情。可以自己拿不同物種已知的PME蛋白序列魁亦,用TBtools 的MUSCLE Wrapper或者其他多序列比對軟件吉挣,得到的比對結(jié)果(無需注意比對結(jié)果格式睬魂,兼容幾乎所有多序列比對格式氯哮,如Fasta喉钢,Clustal肠虽,PAML等)税课,直接用作輸入韩玩。
- HMM庫陆馁,比如整個Pfam_A.hmm數(shù)據(jù)庫叮贩,當(dāng)然也可能是某幾個感興趣的保守結(jié)構(gòu)域的HMM。
而對于輸入文件二彪蓬,簡單寞焙,反正就是一個蛋白序列庫捣郊,下文我們直接使用香蕉所有蛋白序列集合呛牲。
至于輸出文件...給個路徑就行了娘扩。
下面琐旁,用三個使用實(shí)例來介紹具體使用方法灰殴。
實(shí)例一 - 直接使用 PFAM ID 列表
前述提到牺陶,轉(zhuǎn)錄因子WRKY和MYB家族的Pfam IDs分別為 PF03106 和 PF00249掰伸。這些可以直接在Pfam數(shù)據(jù)庫查到
使用這兩個Pfam ID狮鸭,我們就可以直接篩選出所有香蕉可能的WRKY和MYB家族成員怕篷。使用方法如下
非忱任剑快
點(diǎn)擊確定春弥,即可直接跳轉(zhuǎn)到輸出文件
一般 TBtools 用戶只需要看 XLS匿沛,打開就知道了
堪稱完美逃呼!這個格式者娱,可以直接用于結(jié)構(gòu)域可視化黄鳍。畢竟是 TBtools 用不,應(yīng)該知道怎么獲取對應(yīng)序列的序列長度藏古,然后用 Simple BioSequence Viewer 或者 Advanced Gene View 做可視化拧晕。
我鼓搗鼓搗防症,大概是這樣一張圖
實(shí)例二 - 直接使用多序列比對結(jié)果
正如前面提到的蔫敲,有一些家族并沒有保守的 Pfam IDs炭玫,我們可以直接使用一些已知家族成員蛋白序列(即使他們來自于不同物種)吞加,做一個多序列比對之后衔憨,用于輸入。
下載完了就用MUSCLE比對
如果你沒聽我的勸告,點(diǎn)擊“Directly Viz...”德崭,那么會看到
或許這里面就有保守結(jié)果域吧眉厨,肉眼看看比對效果也挺好的。
保險(xiǎn)起見鹿蜀,還是直接比對輸出 clutalw 格式(試了下耻姥,似乎TBtools Fasta2Clutal在特殊字符下會失效)
OK,繼續(xù)
自動彈出結(jié)果....
Emmm,似乎數(shù)目有點(diǎn)多似忧。對比了下HMM的結(jié)果和香蕉基因組注釋的結(jié)果
當(dāng)然我們有理由相信淳衙,假陽性沒那么高(HMM得到的多了46個饺著,得詳細(xì)看看了)幼衰,盡管存在。多少估計(jì)還是要精細(xì)看看梢睛,不過偏離主題了绝葡。
實(shí)例三 - 使用已有的HMM庫藏畅,如Pfam_A.hmm
有些時候,用戶會自己下載一些.hmm庫墓赴,或者從其他什么地方拿到。比如實(shí)例一中坦辟,用戶也可以自己下載WRKY結(jié)構(gòu)域的.hmm和MYB的.hmm文件章办,合并之后用這種方式來輸入藕届。這個模式的開放休偶,其實(shí)對我來說,估計(jì)還是直接上Pfam_A.hmm全庫词顾。比如我鑒定了某個家族肉盹,香蕉的某某家族上忍。這里我們就用香蕉基因組注釋的PME蛋白序列窍蓝,大概也就75個基因它抱。我們看看注釋得如何朴艰,都有什么結(jié)構(gòu)域祠墅。
于是可以直接下載Pfam_A.hmm全庫毁嗦,跑上
Emmm克锣,大概也就一兩分鐘。
也可以做個可視化
寫在后面
Emmm,整完了巾乳。又是一個插件胆绊。作為委托團(tuán)隊(duì)的Feature Request压状。這個插件納入眾籌系列(未定價)。先想想再說~~ 感興趣的朋友镣丑,可看看這兩天插件商店的更新。對插件商店不了解的谷婆,建議看看推文《Plugin | 高速版插件商店辽聊!我又有一個絕妙的 idea》异袄。
是誰玛臂?說 TBtools 不好用了~