FIMO官網(wǎng)教程
官網(wǎng):這里
(一)什么FIMO慎框?
FIMO掃描一組序列棚菊,用每條序列來以匹配你提供的motifs艘儒。換言之辕漂,你需要提供你的序列(比如ChIP-seq峰,或者ATAC-seq峰蝠嘉,或任何你感興趣的序列片段)灯萍;并且,你還需要提供motif文件端铛,目的就是要查看感興趣的序列里有沒有這些motif泣矛。
FIMO這個(gè)名字的意思是“Find Individual Motif Occurrences”。該程序?yàn)橐阎膍otif在一組序列里搜索沦补,查看是否存在乳蓄。motif必須是MEME Motif格式(具體格式請參考這里)。在線版的FIMO還允許你輸入其他格式的motif夕膀。
注意:FIMO不會(huì)對包含模糊字符的序列位置進(jìn)行評分虚倒。
(二)FIMO的應(yīng)用
(1)確定轉(zhuǎn)錄因子(TF)motif在一個(gè)或多個(gè)啟動(dòng)子序列中匹配的所有位置。
(2)使用已知motif(來自提供的數(shù)據(jù)庫之一)或由motif發(fā)現(xiàn)算法(如MEME 或DREME)發(fā)現(xiàn)的新motif产舞,準(zhǔn)確預(yù)測轉(zhuǎn)錄因子在其每個(gè)ChIP-seq峰中的結(jié)合位置魂奥。
(3)確定一個(gè)蛋白motif在一個(gè)或多個(gè)蛋白序列中匹配的所有位置。
(三)FIMO是如何工作的易猫?
FIMO將每個(gè)輸入motif轉(zhuǎn)換為一個(gè)log-odds PSSM耻煤,并使用每個(gè)PSSM獨(dú)立掃描輸入序列。它報(bào)告每個(gè)序列中匹配一個(gè)具有統(tǒng)計(jì)意義的log-odds分?jǐn)?shù)的motif的所有位置准颓。
(四)序列Database
這些序列應(yīng)該都在相同的序列字母表哈蝇。它們的長度可以不同。例如攘已,它們可以是一組被認(rèn)為是協(xié)同調(diào)節(jié)的啟動(dòng)子炮赦,或一組ChIP-seq區(qū)域,或有機(jī)體的蛋白質(zhì)組样勃。(用簡單的話說就是:你輸入的序列要么都是DNA序列吠勘,要么都是蛋白質(zhì)序列性芬,不能兩個(gè)混著作為輸入序列)
(五)準(zhǔn)備序列文件
各種MEME套件程序需要一個(gè)蛋白質(zhì)、DNA剧防、RNA或其他一些潛在的自定義序列的文件作為輸入植锉。這些輸入文件必須是FASTA格式,它必須是純文本峭拘,而不是WORD俊庇、.doc、.docx棚唆、.rtf或任何其他文字格式暇赤。
格式規(guī)范
每個(gè)FASTA條目由一個(gè)序列標(biāo)識符行后跟一個(gè)或多個(gè)序列行組成。序列標(biāo)識符行以第1列中的“>”字符開始宵凌,必須緊接其后是序列標(biāo)識符(ID)鞋囊。ID后面可以跟一個(gè)(可選的)序列描述(注釋)∠贡梗“>”和ID之間可以沒有空格溜腐,但是必須用空格分隔ID和注釋。格式是這樣的:
>ID1 COMMENT
SEQUENCE
SEQUENCE
...
>ID2 COMMENT
SEQUENCE
...
NOTE:
(1)對于DNA瓜喇、RNA和蛋白質(zhì)等序列來說挺益,大小寫并不重要。
(2)序列中的空白(空格和換行)將被忽略乘寒。
(六)Motif文件格式
除了序列文件望众,還需要準(zhǔn)備motif文件。這個(gè)文件你可以自己構(gòu)建伞辛,也可以直接下載數(shù)據(jù)庫烂翰。如果是自己構(gòu)建的motif文件,應(yīng)該像下面這樣:
格式規(guī)范:
包括以下部分:
版本(必需): 這一行必須出現(xiàn)在文件中任何其他部分之前蚤氏。版本號必須是MEME Suite的版本號甘耿。
Alphabet(推薦):Alphabet告訴MEME Suite,motif是以DNA還是RNA竿滨,或者蛋白質(zhì)的字母出現(xiàn)的佳恬。如果這一行沒有出現(xiàn),那么MEME Suite可以嘗試從背景或motif本身中發(fā)現(xiàn)這一點(diǎn)于游。
鏈(可選):只對互補(bǔ)字母(如DNA)的motif有意義毁葱,并表明motif是否由給定和反向互補(bǔ)的鏈所創(chuàng)造。如果這一行沒有提供贰剥,那么MEME Suite就會(huì)假定互補(bǔ)字母的motif是由這兩條鏈創(chuàng)造的头谜。
Background frequencies背景頻率(推薦):
背景頻率告訴MEME Suite,motif字母表中的每個(gè)字母在用于創(chuàng)建motif的源序列中有多普遍鸠澈。如果沒有提供背景頻率柱告,那么MEME Suite套件將采用統(tǒng)一的背景頻率。
Motifs(必需):關(guān)于這部分的格式請看下面笑陈。
對于每個(gè)motif文件里的motif部分還需要包括以下內(nèi)容:
Motif name(需要):
motif名稱行表明一個(gè)新的motif的開始际度,并為它指定一個(gè)標(biāo)識符,在該文件里必須是唯一的涵妥。不能包含空格或等號(=)乖菱。
Motif letter-probability matrix (必需):包含字母表中每個(gè)字母的概率,所以每行的概率之和必須為1蓬网。
Motif URL(可選)
這里我下載的是Jaspar數(shù)據(jù)庫中motif文件窒所,官網(wǎng)在這里:http://jaspar.genereg.net/downloads/,你可以選擇下載一個(gè)一個(gè)的motif文件帆锋,也可以選擇下載合并在一個(gè)文件里的motif文件吵取。
(七)在線版FIMO軟件使用
MEME suite里的每個(gè)套件都有在線版和command line版,我就直接使用在線版的了锯厢,因?yàn)楹芊奖闫す伲挥迷儋M(fèi)時(shí)去安裝MEME套件。FIMO的在線版網(wǎng)站:http://meme-suite.org/tools/fimo
運(yùn)行后(運(yùn)行時(shí)間取決于你的序列多少)实辑,頁面會(huì)自動(dòng)轉(zhuǎn)換:
(八)輸出文件
如果你使用的是command line運(yùn)行的FIMO捺氢,F(xiàn)IMO將創(chuàng)建一個(gè)目錄,名為fimo_out剪撬。目錄中任何現(xiàn)有的輸出文件都將被覆蓋摄乒。該目錄將包含:
HTML:一個(gè)HTML文件,它以可讀的格式提供結(jié)果
fimo.tsv :一個(gè)tsv(tab分隔)文件残黑,適合腳本解析和Excel查看
fimo.gff :一個(gè)GFF3格式的文件馍佑,以適合在UCSC基因組瀏覽器中顯示
cisml.xml:以CisML模式提供結(jié)果
fimo.xml:描述FIMO的輸入并引用CISML文件CISML .xml
打開HTML文件,這是一個(gè)很長的文件萍摊,開頭長這樣:
在motif文件的后面是輸出的結(jié)果:
上面這個(gè)表和fimo.tsv 輸出文件是一樣的:
$ head fimo.tsv
motif_id motif_alt_id sequence_name start stop strand score p-value q-value matched_sequence
MA0155.1 INSM1 peak_3_1 306 317 + 18.3571 2.2e-07 0.00039 TGTCTGGGGGCA
MA0478.1 FOSL2 peak_5_1 28 38 - 16.7455 3.73e-07 0.000696 GGGTGACTCAG
MA0500.2 MYOG peak_3_1 226 237 + 15.4037 4.31e-07 0.000355 CAGCAGCTGCTT
MA0500.2 MYOG peak_3_1 226 237 - 15.4037 4.31e-07 0.000355 AAGCAGCTGCTG
MA0591.1 Bach1::Mafk peak_5_1 25 39 - 18.3158 4.81e-07 0.000771 AGGGTGACTCAGCCC
MA1642.1 NEUROG2(var.2) peak_5_1 47 59 - 15.2358 6.08e-07 0.00106 GGACCAGATGGCC
MA1638.1 HAND2 peak_5_1 48 57 - 13.8143 7.46e-07 0.00126 ACCAGATGGC
MA0816.1 Ascl2 peak_3_1 227 236 + 16.9143 7.46e-07 0.00073 AGCAGCTGCT
MA0816.1 Ascl2 peak_3_1 227 236 - 16.9143 7.46e-07 0.00073 AGCAGCTGCT