Motif scanning tool: FIMO(在線版分析筆記)

FIMO官網(wǎng)教程

官網(wǎng):這里

(一)什么FIMO慎框?

FIMO掃描一組序列棚菊,用每條序列來以匹配你提供的motifs艘儒。換言之辕漂,你需要提供你的序列(比如ChIP-seq峰,或者ATAC-seq峰蝠嘉,或任何你感興趣的序列片段)灯萍;并且,你還需要提供motif文件端铛,目的就是要查看感興趣的序列里有沒有這些motif泣矛。

FIMO這個(gè)名字的意思是“Find Individual Motif Occurrences”。該程序?yàn)橐阎膍otif在一組序列里搜索沦补,查看是否存在乳蓄。motif必須是MEME Motif格式(具體格式請參考這里)。在線版的FIMO還允許你輸入其他格式的motif夕膀。

注意:FIMO不會(huì)對包含模糊字符的序列位置進(jìn)行評分虚倒。

(二)FIMO的應(yīng)用

(1)確定轉(zhuǎn)錄因子(TF)motif在一個(gè)或多個(gè)啟動(dòng)子序列中匹配的所有位置。
(2)使用已知motif(來自提供的數(shù)據(jù)庫之一)或由motif發(fā)現(xiàn)算法(如MEME 或DREME)發(fā)現(xiàn)的新motif产舞,準(zhǔn)確預(yù)測轉(zhuǎn)錄因子在其每個(gè)ChIP-seq峰中的結(jié)合位置魂奥。
(3)確定一個(gè)蛋白motif在一個(gè)或多個(gè)蛋白序列中匹配的所有位置。

(三)FIMO是如何工作的易猫?

FIMO將每個(gè)輸入motif轉(zhuǎn)換為一個(gè)log-odds PSSM耻煤,并使用每個(gè)PSSM獨(dú)立掃描輸入序列。它報(bào)告每個(gè)序列中匹配一個(gè)具有統(tǒng)計(jì)意義的log-odds分?jǐn)?shù)的motif的所有位置准颓。

(四)序列Database

這些序列應(yīng)該都在相同的序列字母表哈蝇。它們的長度可以不同。例如攘已,它們可以是一組被認(rèn)為是協(xié)同調(diào)節(jié)的啟動(dòng)子炮赦,或一組ChIP-seq區(qū)域,或有機(jī)體的蛋白質(zhì)組样勃。(用簡單的話說就是:你輸入的序列要么都是DNA序列吠勘,要么都是蛋白質(zhì)序列性芬,不能兩個(gè)混著作為輸入序列)

(五)準(zhǔn)備序列文件

各種MEME套件程序需要一個(gè)蛋白質(zhì)、DNA剧防、RNA或其他一些潛在的自定義序列的文件作為輸入植锉。這些輸入文件必須是FASTA格式,它必須是純文本峭拘,而不是WORD俊庇、.doc、.docx棚唆、.rtf或任何其他文字格式暇赤。

格式規(guī)范
每個(gè)FASTA條目由一個(gè)序列標(biāo)識符行后跟一個(gè)或多個(gè)序列行組成。序列標(biāo)識符行以第1列中的“>”字符開始宵凌,必須緊接其后是序列標(biāo)識符(ID)鞋囊。ID后面可以跟一個(gè)(可選的)序列描述(注釋)∠贡梗“>”和ID之間可以沒有空格溜腐,但是必須用空格分隔ID和注釋。格式是這樣的:

>ID1 COMMENT
SEQUENCE
SEQUENCE
...
>ID2 COMMENT
SEQUENCE
...

NOTE:
(1)對于DNA瓜喇、RNA和蛋白質(zhì)等序列來說挺益,大小寫并不重要。
(2)序列中的空白(空格和換行)將被忽略乘寒。

(六)Motif文件格式

除了序列文件望众,還需要準(zhǔn)備motif文件。這個(gè)文件你可以自己構(gòu)建伞辛,也可以直接下載數(shù)據(jù)庫烂翰。如果是自己構(gòu)建的motif文件,應(yīng)該像下面這樣:

格式規(guī)范:

包括以下部分:

版本(必需): 這一行必須出現(xiàn)在文件中任何其他部分之前蚤氏。版本號必須是MEME Suite的版本號甘耿。
Alphabet(推薦):Alphabet告訴MEME Suite,motif是以DNA還是RNA竿滨,或者蛋白質(zhì)的字母出現(xiàn)的佳恬。如果這一行沒有出現(xiàn),那么MEME Suite可以嘗試從背景或motif本身中發(fā)現(xiàn)這一點(diǎn)于游。
鏈(可選):只對互補(bǔ)字母(如DNA)的motif有意義毁葱,并表明motif是否由給定和反向互補(bǔ)的鏈所創(chuàng)造。如果這一行沒有提供贰剥,那么MEME Suite就會(huì)假定互補(bǔ)字母的motif是由這兩條鏈創(chuàng)造的头谜。
Background frequencies背景頻率(推薦)
背景頻率告訴MEME Suite,motif字母表中的每個(gè)字母在用于創(chuàng)建motif的源序列中有多普遍鸠澈。如果沒有提供背景頻率柱告,那么MEME Suite套件將采用統(tǒng)一的背景頻率。
Motifs(必需):關(guān)于這部分的格式請看下面笑陈。

對于每個(gè)motif文件里的motif部分還需要包括以下內(nèi)容:

Motif name(需要)
motif名稱行表明一個(gè)新的motif的開始际度,并為它指定一個(gè)標(biāo)識符,在該文件里必須是唯一的涵妥。不能包含空格或等號(=)乖菱。
Motif letter-probability matrix (必需):包含字母表中每個(gè)字母的概率,所以每行的概率之和必須為1蓬网。
Motif URL(可選)

這里我下載的是Jaspar數(shù)據(jù)庫中motif文件窒所,官網(wǎng)在這里:http://jaspar.genereg.net/downloads/,你可以選擇下載一個(gè)一個(gè)的motif文件帆锋,也可以選擇下載合并在一個(gè)文件里的motif文件吵取。

(七)在線版FIMO軟件使用

MEME suite里的每個(gè)套件都有在線版和command line版,我就直接使用在線版的了锯厢,因?yàn)楹芊奖闫す伲挥迷儋M(fèi)時(shí)去安裝MEME套件。FIMO的在線版網(wǎng)站:http://meme-suite.org/tools/fimo

運(yùn)行后(運(yùn)行時(shí)間取決于你的序列多少)实辑,頁面會(huì)自動(dòng)轉(zhuǎn)換:

(八)輸出文件

如果你使用的是command line運(yùn)行的FIMO捺氢,F(xiàn)IMO將創(chuàng)建一個(gè)目錄,名為fimo_out剪撬。目錄中任何現(xiàn)有的輸出文件都將被覆蓋摄乒。該目錄將包含:

HTML:一個(gè)HTML文件,它以可讀的格式提供結(jié)果
fimo.tsv :一個(gè)tsv(tab分隔)文件残黑,適合腳本解析和Excel查看
fimo.gff :一個(gè)GFF3格式的文件馍佑,以適合在UCSC基因組瀏覽器中顯示
cisml.xml:以CisML模式提供結(jié)果
fimo.xml:描述FIMO的輸入并引用CISML文件CISML .xml

打開HTML文件,這是一個(gè)很長的文件萍摊,開頭長這樣:

最上面是注明了你用的是MEME套件里的哪一個(gè)工具挤茄,這里我們用的是FIMO,所以結(jié)果里注明了FIMO的版本冰木。接著就是你剛才的輸入文件穷劈,我這里輸入的是7條序列,然后下面是我輸入的Jaspar數(shù)據(jù)庫里的motif文件踊沸。這里很長歇终,我只截取了一段

在motif文件的后面是輸出的結(jié)果:

這里可以看到對于每一條我輸入的序列,都列出了可能的motif逼龟。并且所有的motif都按照p值進(jìn)行了排列评凝,最顯著的motif排在最前面。

上面這個(gè)表和fimo.tsv 輸出文件是一樣的:

$ head fimo.tsv
motif_id        motif_alt_id    sequence_name   start   stop    strand  score   p-value q-value matched_sequence
MA0155.1        INSM1   peak_3_1        306     317     +       18.3571 2.2e-07 0.00039 TGTCTGGGGGCA
MA0478.1        FOSL2   peak_5_1        28      38      -       16.7455 3.73e-07        0.000696        GGGTGACTCAG
MA0500.2        MYOG    peak_3_1        226     237     +       15.4037 4.31e-07        0.000355        CAGCAGCTGCTT
MA0500.2        MYOG    peak_3_1        226     237     -       15.4037 4.31e-07        0.000355        AAGCAGCTGCTG
MA0591.1        Bach1::Mafk     peak_5_1        25      39      -       18.3158 4.81e-07        0.000771        AGGGTGACTCAGCCC
MA1642.1        NEUROG2(var.2)  peak_5_1        47      59      -       15.2358 6.08e-07        0.00106 GGACCAGATGGCC
MA1638.1        HAND2   peak_5_1        48      57      -       13.8143 7.46e-07        0.00126 ACCAGATGGC
MA0816.1        Ascl2   peak_3_1        227     236     +       16.9143 7.46e-07        0.00073 AGCAGCTGCT
MA0816.1        Ascl2   peak_3_1        227     236     -       16.9143 7.46e-07        0.00073 AGCAGCTGCT
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
禁止轉(zhuǎn)載腺律,如需轉(zhuǎn)載請通過簡信或評論聯(lián)系作者奕短。
  • 序言:七十年代末宜肉,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子翎碑,更是在濱河造成了極大的恐慌谬返,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件日杈,死亡現(xiàn)場離奇詭異遣铝,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)莉擒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門酿炸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人涨冀,你說我怎么就攤上這事填硕。” “怎么了蝇裤?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵廷支,是天一觀的道長。 經(jīng)常有香客問我栓辜,道長恋拍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任藕甩,我火速辦了婚禮施敢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘狭莱。我一直安慰自己僵娃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布腋妙。 她就那樣靜靜地躺著默怨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪骤素。 梳的紋絲不亂的頭發(fā)上匙睹,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音济竹,去河邊找鬼痕檬。 笑死,一個(gè)胖子當(dāng)著我的面吹牛送浊,可吹牛的內(nèi)容都是我干的梦谜。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼唁桩!你這毒婦竟也來了闭树?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤朵夏,失蹤者是張志新(化名)和其女友劉穎蔼啦,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體仰猖,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年奈籽,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了饥侵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡衣屏,死狀恐怖躏升,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情狼忱,我是刑警寧澤膨疏,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站钻弄,受9級特大地震影響佃却,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜窘俺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一饲帅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧瘤泪,春花似錦灶泵、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至实檀,卻和暖如春惶洲,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背劲妙。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工湃鹊, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人镣奋。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓币呵,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子余赢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 前言 ??開始介紹工具之前芯义,先來說一說相關(guān)的知識。首先來說一下什么motif妻柒,motif就是一種序列pattern...
    生信云筆記閱讀 7,363評論 9 13
  • 1 什么是motif分析 在DNA或蛋白的同源序列中扛拨,不同位點(diǎn)的保守程度是不一樣的,一般來說举塔,對DNA或蛋白質(zhì)功能...
    bioYIYI閱讀 40,439評論 12 44
  • 小白日記第一天绑警,記錄一下自己查找motif的步驟,以便日后忘記了再重學(xué)央渣。之前也用過許多軟件计盒,都是在要用的時(shí)候上網(wǎng)上...
    沉_0cb2閱讀 50,982評論 22 48
  • 我們都知道ChIP-seq生物信息分析流程主要涉及:數(shù)據(jù)過濾、序列比對芽丹、檢峰北启、模體(motif)分析。其核心的問題...
    浩渺予懷閱讀 6,761評論 4 9
  • 久違的晴天拔第,家長會(huì)咕村。 家長大會(huì)開好到教室時(shí),離放學(xué)已經(jīng)沒多少時(shí)間了蚊俺。班主任說已經(jīng)安排了三個(gè)家長分享經(jīng)驗(yàn)懈涛。 放學(xué)鈴聲...
    飄雪兒5閱讀 7,492評論 16 22