Motif,模式碟嘴,pattern溪食,如下。我個(gè)人理解為:一組具有類似特征的序列娜扇。而在分子序列中错沃,那么就是具有類似分子(如堿基或氨基酸)的序列。
Motif雀瓢,不是一個(gè)序列枢析,所以在生物序列分析時(shí),無(wú)論是預(yù)測(cè)和挖掘刃麸,都并不是簡(jiǎn)單的完全匹配就能完成醒叁,他的處理,有點(diǎn)像正則表達(dá)式,但事實(shí)上把沼,應(yīng)是HMM断傲。這種情況下,使用已有工具智政,其實(shí)是最合適的认罩。
MEME suite是一個(gè)motif挖掘和分析工具。在大多數(shù)情況下续捂,我們會(huì)使用它從批量數(shù)據(jù)中鑒定出某些保守的motif垦垂,比如Chip-seq;當(dāng)然牙瓢,我們也會(huì)使用某個(gè)特定的motif劫拗,去海量的序列中,查找可能包含該motif的序列矾克,比如轉(zhuǎn)錄因子結(jié)合位點(diǎn)或特定元件页慷。
寫在前面
Emm......生物信息,應(yīng)是一門完整的學(xué)科胁附。而整個(gè)市場(chǎng)在批量生產(chǎn)生信工程師酒繁,這個(gè)跟IT是類似的,比如批量生產(chǎn)程序員控妻。這種情況的出現(xiàn)州袒,可能是因?yàn)榇嬖谝恍o(wú)法自動(dòng)化的東西,而需要人工干預(yù)弓候。這個(gè)話題郎哭,已經(jīng)很久沒有再談及。故菇存,這里也不做展開夸研。
一些思考
無(wú)論生物信息學(xué)怎么發(fā)展,但是生物(或者美其名曰依鸥,生物信息)數(shù)據(jù)分析亥至,總是可以有相對(duì)簡(jiǎn)單地方式去完成一些相對(duì)簡(jiǎn)單的目的。我一直對(duì)外推薦毕籽,新手用python抬闯,然而我還是在用perl。推薦python关筒,主要原因是溶握,主流如此。而我還在用perl蒸播,是因?yàn)槲蚁矚g我所理解的和接受的perl的設(shè)計(jì)理念睡榆。
使簡(jiǎn)單的事情萍肆,可以非常方便地完成;而對(duì)于復(fù)雜的事情胀屿,努力一下塘揣,也可以完成。
我最喜歡的是前半句宿崭。我之所以這么說(shuō)亲铡,可以看我QQ空間幾年前寫的perl one-liner日志,里面是一些我現(xiàn)在不太看得上的葡兑,但是可以完成很多事情的奖蔓,單行命令。
如下讹堤,單行進(jìn)行序列批量提取
或者單行獲取所有序列長(zhǎng)度
perl -0076 -ane '@F=map{s/[>\r\n]//gr}@F;$id=shift @F;print $id,qq{\t},length (join q{},@F),qq{\n} if $id' in.fa
事實(shí)上吆鹤,或許你沒有意識(shí)過(guò)來(lái),上述的perl單行洲守,其實(shí)是跨平臺(tái)的且隨時(shí)可以copy-paste運(yùn)行疑务,而你幾乎不需要下載任何程序。換句話說(shuō)梗醇,找個(gè)linux或者windows(當(dāng)然perl解釋器先安裝好)知允,就可以直接黏貼運(yùn)行,并輸出結(jié)果
這些想法婴削,出發(fā)點(diǎn)廊镜,從一開始就長(zhǎng)在我的潛意識(shí)中牙肝,并蔓延到所有我寫的腳本或者工具唉俗。
很明顯,TBtools就是這樣一個(gè)體現(xiàn)配椭。而他的開發(fā)虫溜,卻被一部分人誤解(我其實(shí)甚至不知道誤解我個(gè)人出發(fā)點(diǎn)的那部分人是否有自己對(duì)生物信息的認(rèn)知)。TBtools的存在股缸,名義上是為了濕實(shí)驗(yàn)工作者開發(fā)衡楞,實(shí)際上則是為了在是實(shí)驗(yàn)室工作的干實(shí)驗(yàn)工作者開發(fā)。每一個(gè)課題組敦姻,每個(gè)人都有擅長(zhǎng)的事情瘾境;通力合作,各取所長(zhǎng)镰惦,才是整體前行的最大助力迷守。作為一個(gè)自稱搞分析的,難道你最擅長(zhǎng)的是幫別人提序列旺入?做熱圖兑凿?做Venn凯力?跑本地Blast?....礼华,我想咐鹤,不是吧。以任何方式圣絮,消滅一些高重復(fù)低復(fù)雜的工作祈惶,才是事實(shí)上節(jié)約彼此時(shí)間的事情。
Windows下直接運(yùn)行MEME suite
課題組最近做了一些測(cè)序扮匠,需要做類似的分析行瑞。我個(gè)人的建議是,把序列抓出來(lái)餐禁,然后到MEME suite官網(wǎng)跑一下看看血久。結(jié)果是什么?無(wú)盡地等待帮非!MEME suite網(wǎng)頁(yè)分析常常需要排隊(duì)氧吐,且每次排隊(duì)可能是一兩天。解決的辦法只有兩個(gè):
- 上服務(wù)器末盔,命令行運(yùn)行
- 讓其他人上服務(wù)器筑舅,命令行運(yùn)行
而我變成了上面的其他人。分析的要求陨舱,有各種各樣翠拣,我有事的時(shí)候,其實(shí)并不想過(guò)多地溝通游盲,但拒絕合作误墓,并不是課題組發(fā)展的最好選擇。
于是益缎,我小修了MEME和MAST的源碼谜慌,并編譯,隨后打包到了TBtools莺奔。
于是欣范,所有人都可以自己跑了,即是你在windows下令哟。
使用MEME恼琼,任何平臺(tái)都可以
注:如果是linux或者M(jìn)ac,需要自行安裝好MEME suite....屏富;如果是windows用戶晴竞,直接TBtools.exe安裝器安裝即可
使用的示例數(shù)據(jù)輸入為擬南芥的126個(gè)MYB蛋白(注意,核酸序列也可以)役听,運(yùn)行時(shí)間大體是2min颓鲜,序列越多表窘,時(shí)間則指數(shù)型增長(zhǎng)。
與運(yùn)行網(wǎng)頁(yè)工具的操作是類似的甜滨,設(shè)置好對(duì)應(yīng)的參數(shù)即可乐严,
以上,設(shè)置motifs個(gè)數(shù)為3衣摩,motifs長(zhǎng)度為6到50昂验,得到輸出文件如下
其中meme.txt文件,直接用文本編輯器打開艾扮,即可看到類似MEME suite網(wǎng)頁(yè)版運(yùn)行結(jié)果的純文字版本既琴;
而meme.xml文件可以直接用于TBtools做可視化
同時(shí),也會(huì)得到3個(gè)motifs對(duì)應(yīng)的SeqLogo信息
使用矢量圖編輯器打開即可
MAST的使用是類似的泡嘴。當(dāng)我們獲得一些motifs之后甫恩,我們可以用這些motifs,從海量數(shù)據(jù)中快速搜索包含該motifs的序列酌予。MAST的運(yùn)行是很快的磺箕。上萬(wàn)個(gè)序列,也是秒級(jí)出結(jié)果抛虫。我們可以直接上述使用meme.xml文件作為輸入松靡。這里我們使用原來(lái)的蛋白序列集合作為輸入。
注:MEME的主要目的是從一堆序列中抓出可能的保守模式建椰,在于挖掘雕欺;MAST的主要目的是基于模式找位點(diǎn),在于鑒定棉姐。相對(duì)而言屠列,后者敏感度可調(diào)整性高些。具體使用者谅海,應(yīng)有自己的理解脸哀。
寫在后面
但行好事,莫問(wèn)前程扭吁。是嗎?
需求來(lái)自于課題組的實(shí)際需要盲镶,如果你的課題組也做這類似的生物學(xué)問(wèn)題/實(shí)驗(yàn)侥袜,那么或許你還是可以關(guān)注一下的
歡迎訪問(wèn)本課題組網(wǎng)站
園藝植物小分子RNA與基因組研究-夏瑞課題組
課題組主頁(yè):http://xialab.scau.edu.cn/