寫(xiě)在前面
很久很久以前愿卒,各種原因,我寫(xiě)過(guò)一個(gè)帖子潮秘,《零基礎(chǔ)-完全重現(xiàn)某個(gè)基因家族分析文章(的分析部分)》 http://www.reibang.com/p/88075f6cd4f1琼开。其中,我用了hmmer這個(gè)軟件枕荞。但是后續(xù)我釋放《基因家族分析》課程(無(wú)需虛擬機(jī)柜候,無(wú)需命令行,更無(wú)需一行代碼)時(shí)躏精,我完全沒(méi)有使用hmmer渣刷。
主要原因是,我覺(jué)得完全沒(méi)必要矗烛,或者換句話說(shuō)辅柴,hmmer直接檢索某個(gè)motif,實(shí)際效果完全不如blast(因?yàn)槟壳按蠖鄶?shù)物種基因組的基因結(jié)構(gòu)注釋非常粗糙)瞭吃。
但是碌嘀,今天我還是要寫(xiě)下這個(gè)帖子。
推出TBtools的Simple HMM Wrapper的原因
我一直認(rèn)為歪架,如果你要用linux環(huán)境分析數(shù)據(jù)股冗,那么最好是用純凈的linux環(huán)境。同時(shí)我非衬的矗看不慣那些喜歡整天讓別人安裝Vitural Box然后開(kāi)展各種數(shù)據(jù)分析的操作魁瞪。既然穆律,你要讓用戶在windows下操作,那么就給出windows下的一套解決方案导俘,而不是安利一些低效率的東西峦耘。說(shuō)歸說(shuō),TBtools我從來(lái)都是安利出去旅薄。
這兩日辅髓,我正好在糾結(jié)某個(gè)課題,因?yàn)槲覀冃枰b定幾十個(gè)物種中某一類蛋白少梁。這類蛋白涵蓋了幾十個(gè)基因家族洛口,結(jié)構(gòu)域也沒(méi)有絕對(duì)保守的某個(gè)或者某幾個(gè),最終的解法就是凯沪,我篩選了pfam中的50多個(gè)模式第焰,隨后用HMMER進(jìn)行掃描,隨之調(diào)出妨马。
我突然發(fā)現(xiàn)挺举,看來(lái)HMMER在一些時(shí)候,還是比較有用烘跺。
那么既然有用湘纵,命令行的我也寫(xiě)完了,索性滤淳,再發(fā)一個(gè)windows下(也包括任何其他操作系統(tǒng))都可以無(wú)需命令梧喷,無(wú)需虛擬機(jī)就可以快速掃描序列集合中的結(jié)構(gòu)域的功能。
使用方式
打開(kāi)TBtools脖咐,找到Others菜單铺敌,找到
設(shè)置輸入文件:
-
蛋白序列集合,fasta格式屁擅,可以是某個(gè)物種的所有蛋白序列适刀,如擬南芥
Pfam-A.hmm, 這個(gè)是pfam數(shù)據(jù)庫(kù)的所有模式數(shù)據(jù)庫(kù),下載并解壓即可煤蹭,可長(zhǎng)期使用,請(qǐng)保持定期更新取视,具體下載鏈接是 ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
Pfam模式的ID列表 硝皂,這個(gè)基于自己的需要準(zhǔn)備,正如上面所說(shuō)作谭,你可以輸入50多個(gè)稽物,只是會(huì)很慢。一般幾個(gè)還是很快的折欠。
輸出文件
整體上贝或,輸入結(jié)果如下圖
輸出結(jié)果
在上述示例中吼过,我使用了一個(gè)MYB結(jié)構(gòu)域和MYC結(jié)構(gòu)域,可以得到如下輸出咪奖,具體還是要看使用的人自行解讀盗忱。建議參考Hmmer官網(wǎng)的輸出說(shuō)明,
寫(xiě)在最后
Emmmm....這應(yīng)該是一個(gè)無(wú)趣的功能羊赵。
總的來(lái)說(shuō)趟佃,很多時(shí)候我還是想說(shuō),
“其實(shí)我只是寫(xiě)一個(gè)我自己覺(jué)得有用的工具昧捷,并釋放出來(lái)闲昭。但這不代表我是一個(gè)樂(lè)于分享的人。恰恰相反靡挥,我認(rèn)為所有的樂(lè)于分享序矩,只是另有所求“掀疲”