關(guān)于查找motif,目前有很多種軟件可以進(jìn)行預(yù)測(cè)次伶。我所在的實(shí)驗(yàn)室通常使用FIMO(MEME套件里的一個(gè))痴昧,但是有很多文獻(xiàn)里也提到了HOMER這個(gè)軟件,并且不乏一些影響因子很高的paper冠王,所以感覺(jué)有必要學(xué)習(xí)一下這個(gè)軟件赶撰。這個(gè)官網(wǎng)的信息很多,寫(xiě)的也很詳細(xì)柱彻,但是感覺(jué)思維比較混亂豪娜,所以這篇學(xué)習(xí)筆記是我自己整理的官網(wǎng)信息,順序和官網(wǎng)不一樣哟楷,有興趣的同學(xué)可以直接去官網(wǎng)學(xué)習(xí):homer官方網(wǎng)站:http://homer.ucsd.edu/homer/motif/
HOMER有很多功能瘤载,這里我只集中學(xué)習(xí)用HOMER查找motif。
(一)HOMER是什么卖擅?
HOMER(Motif富集的超幾何優(yōu)化)是一套用于Motif發(fā)現(xiàn)和ChIP-Seq分析的工具惕虑。它是一個(gè)命令行程序的集合,用于unix操作系統(tǒng)磨镶,主要用perl和c++編寫(xiě)。HOMER最初是作為一個(gè)從頭(de novo)motif發(fā)現(xiàn)算法編寫(xiě)的健提,非常適合在大規(guī)牧彰ǎ基因組數(shù)據(jù)中發(fā)現(xiàn)8-12 bp的motif。
硬件要求(括號(hào)里是推薦的要求): 2+ Gb 內(nèi)存 (4-8+ Gb), 10+ Gb 硬盤(pán)空間 (50+ Gb)
軟件要求:Unix compatible OS (or cygwin), perl, gcc, make, wget, ghostscript, weblogo, blat
HOMER包含了一個(gè)新穎的motif發(fā)現(xiàn)算法私痹,設(shè)計(jì)用于在基因組學(xué)應(yīng)用里的調(diào)控元件分析(這里的元件指DNA脐嫂,而非蛋白質(zhì))统刮。這是一種不同的motif發(fā)現(xiàn)算法,這意味著它采取兩套序列账千,并試圖識(shí)別在其中一套序列上相對(duì)于另一套的特定富集的調(diào)控元件(比如說(shuō)我們的peaks序列相對(duì)于整個(gè)基因組序列)侥蒙。它使用ZOOPS評(píng)分(0或1發(fā)生在每條序列上)與超幾何富集計(jì)算(或二項(xiàng)式)來(lái)確定motif富集。HOMER也盡力考慮數(shù)據(jù)集里的排序偏差匀奏。它的設(shè)計(jì)用于ChIP-Seq和啟動(dòng)子分析鞭衩,但可以應(yīng)用于幾乎任何核酸序列的motif發(fā)現(xiàn)。
(二)HOMER的安裝
安裝homer(下面的安裝方法來(lái)自:生信技能樹(shù)視頻chipseq 17 使用homer找motif)因?yàn)槲沂褂玫氖欠?wù)器上已經(jīng)安裝好的軟件娃善,所以這一步需要大家自己摸索一下~:
#install homer
conda install -c bioconda homer
下載configureHomoer.pl:here论衍,并把這個(gè)文件放在一個(gè)單獨(dú)的文件夾里,比如我用的就是名為homer的文件夾聚磺。
(三)HOMER基因組準(zhǔn)備
HOMER使用的基因組和我們平時(shí)用的基因組不一樣坯台,要預(yù)處理一下的,可以直接下載你需要的信息瘫寝,比如:
#這里我需要hg38的基因組
#同樣下載到homer文件夾里
$ perl ./homer/configureHomer.pl -install hg38
HOMER支持的基因組有:
Human (hg18, hg19, hg38), Mouse (mm8, mm9, mm10), Rat (rn4, rn5, rn6), Frog (xenTro2, xenTro3), Zebrafish (danRer7), Drosophila (dm3), C elegans (ce6, ce10), S. cerevisiae (sacCer2, sacCer3), pombe (ASM294v1), Arabidopsis (tair10), Rice (msu6), 你也可以使用自己定義的基因組fasta格式和GTF格式的文件蜒蕾。
下載基因組后,homer文件夾里會(huì)多出來(lái)一個(gè)子文件夾焕阿,叫“data”咪啡,里面有:
$ ll
total 24
drwx------ 2 fangy04 fangy04 8192 Dec 10 14:08 GO
drwx------ 2 fangy04 fangy04 8192 Dec 10 14:08 accession
drwx------ 3 fangy04 fangy04 8192 Dec 10 14:09 genomes
其中,genomes文件夾里會(huì)有一個(gè)hg38的子文件夾捣鲸,是我剛才下載的基因組文件瑟匆,在hg38文件夾里有這些文件:
$ ll
total 4539344
drwxr-xr-x 5 fangy04 fangy04 8192 Oct 19 2019 annotations
-rw-r--r-- 1 fangy04 fangy04 11672 Oct 19 2019 chrom.sizes
-rw-r--r-- 1 fangy04 fangy04 3273481150 Jan 16 2014 genome.fa
-rw-r--r-- 1 fangy04 fangy04 3270764 Oct 19 2019 hg38.aug
-rw-r--r-- 1 fangy04 fangy04 43703292 Oct 19 2019 hg38.basic.annotation
-rw-r--r-- 1 fangy04 fangy04 705525298 Oct 19 2019 hg38.full.annotation
-rw-r--r-- 1 fangy04 fangy04 164707 Oct 19 2019 hg38.miRNA
-rw-r--r-- 1 fangy04 fangy04 528510489 Oct 19 2019 hg38.repeats
-rw-r--r-- 1 fangy04 fangy04 24471159 Oct 19 2019 hg38.rna
-rw-r--r-- 1 fangy04 fangy04 29505106 Oct 19 2019 hg38.splice3p
-rw-r--r-- 1 fangy04 fangy04 29473833 Oct 19 2019 hg38.splice5p
-rw-r--r-- 1 fangy04 fangy04 3270627 Oct 19 2019 hg38.stop
-rw-r--r-- 1 fangy04 fangy04 3270740 Oct 19 2019 hg38.tss
-rw-r--r-- 1 fangy04 fangy04 3270352 Oct 19 2019 hg38.tts
drwxrwxr-x 2 fangy04 fangy04 8192 Dec 10 14:53 preparsed
*.fa or *.fa.masked是unmasked/masked基因組文件
genome.tss (參考基因轉(zhuǎn)錄起始位點(diǎn)的位置)
genome.tts (參考基因轉(zhuǎn)錄終止位點(diǎn)的位置)
genome.splice3p (參考基因3'剪切位點(diǎn)的位置)
genome.splice5p (參考基因5'剪切位點(diǎn)的位置)
genome.aug (參考基因翻譯起始密碼子的位置)
genome.stop (參考基因翻譯終止密碼子的位置)
genome.rna (refseq RNA definition file)
genome.repeats.rna (repeat RNA definition file)
genome.basic.annotation (exon/intron/TSS/TTS/intergenic區(qū)域注釋)
genome.full.annotation (CpG島和重復(fù)區(qū)域注釋)
annotation/ subdirectory (包含GO的注釋文件)
(四)準(zhǔn)備HOMER輸入文件
可以使用HOMER peak files文件或者任何BED文件。
HOMER的peak文件應(yīng)該是最少5列的(用TAB分隔):
第一列: Unique Peak ID(peak的ID)
第二列: chromosome(染色體)
第三列: starting position(起始位置)
第四列: ending position(結(jié)束位置)
第五列: Strand (+/- or 0/1, where 0="+", 1="-")(鏈)
那么問(wèn)題來(lái)了:How many sequences can HOMER handle?
從理論上講栽惶,可以很多(即數(shù)百萬(wàn))愁溜。該算法被設(shè)計(jì)用于10k條目標(biāo)序列和50k背景序列。如果你使用大量的序列來(lái)運(yùn)行findMotifs.pl時(shí)外厂,你可能希望使用-b
參數(shù)冕象,該參數(shù)切換到cumulative binomial distribution進(jìn)行motif評(píng)分,這可以使它更快地計(jì)算汁蝶,并在使用大量序列時(shí)給出基本相同的結(jié)果渐扮。在findMotifsGenome.pl
中默認(rèn)使用二項(xiàng)式。
(五)Finding motifs
在某些情況下掖棉,用戶(hù)可能要考慮什么情況下用哪一個(gè)工具墓律,所以HOMER提供了以下選項(xiàng):
啟動(dòng)子:使用findMotifs.pl
分析啟動(dòng)子(這個(gè)功能不是本文探討的主要內(nèi)容,請(qǐng)參考官網(wǎng):這里)幔亥,如果你希望使用一組特定的啟動(dòng)子作為背景耻讽,請(qǐng)將它們放在一個(gè)文本文件中(第一列是ID),并使用-bg <background IDs file>
參數(shù)帕棉。在目標(biāo)和背景中發(fā)現(xiàn)的基因?qū)⒈粡谋尘爸幸瞥敕剩@樣它們就不會(huì)相互抵消饼记。
基因組區(qū):比如說(shuō)enhancers,或其他調(diào)控元件慰枕。當(dāng)分析峰/區(qū)域具则,使用findMotifsGenome.pl
,你可以指定適當(dāng)?shù)谋尘皡^(qū)域的基因組區(qū)域具帮,通過(guò)將它們放置在它們自己的峰文件中博肋,并使用-bg <background peak file>
。例子:當(dāng)嘗試尋找特定于某一細(xì)胞類(lèi)型特定峰的motif時(shí)匕坯,指定兩種細(xì)胞類(lèi)型的共同峰作為背景——這將有助于消除主要motif束昵,并揭示共富集motif。如果峰在外顯子附近葛峻,指定外顯子上的區(qū)域作為背景锹雏,以消除triplet偏倚。
這里我的BED峰文件是來(lái)自ATAC-seq的峰术奖,且不在啟動(dòng)子區(qū)域礁遵,所以應(yīng)該使用findMotifsGenome.pl
。代碼非常簡(jiǎn)單采记,就一行佣耐,但是建議在運(yùn)行前先看一下下面的參數(shù)介紹部分,因?yàn)楦鶕?jù)你的實(shí)驗(yàn)分析需要唧龄,可能要更改參數(shù)設(shè)置兼砖,這里我只用了默認(rèn)值,只作為練習(xí):
# finding motif
# 基本格式
# findMotifsGenome.pl <peak/BED file> <genome> <output directory> -size # [options]
$ findMotifsGenome.pl /gpfs/home/fangy04/peaks.bed /gpfs/home/fangy04/homer/data/genomes/hg38 /gpfs/home/fangy04/pks_MotifOutput_2/ -size 200
(六)findMotifsGenome.pl的一些重要參數(shù)
(1)Masked vs. Unmasked Genome (-mask
or hg18 vs. hg18r)
實(shí)際上既棺,這通常并不重要讽挟。由于HOMER是一種差異motif發(fā)現(xiàn)算法,重復(fù)序列通常在目標(biāo)序列和背景序列很常見(jiàn)丸冕。然而耽梅,一個(gè)轉(zhuǎn)錄因子與某一類(lèi)重復(fù)序列結(jié)合的情況并不少見(jiàn),這可能導(dǎo)致處理幾個(gè)大范圍的相似序列胖烛,導(dǎo)致結(jié)果偏倚的原因眼姐。通常使用masked會(huì)更安全。
(2)Region Size (-size <#>
, -size <#>,<#>
, -size given
, 默認(rèn): 200佩番,這個(gè)參數(shù)是必須輸入的)
用于尋找motif的區(qū)域的大小是重要的众旗。如果從一個(gè)轉(zhuǎn)錄因子中分析ChIP-Seq峰,推薦用50 bp建立一個(gè)給定轉(zhuǎn)錄因子結(jié)合的主motif趟畏,200 bp用于尋找一個(gè)轉(zhuǎn)錄因子的主motif和“共富集”motif逝钥。對(duì)于組蛋白標(biāo)記區(qū)域,500-1000 bp可能更合適(即H3K4me或H3/H4乙酰化區(qū)域)艘款。理論上,HOMER可以處理非常大的區(qū)域(即10kb)沃琅,但是區(qū)域越大哗咆,序列就越多,執(zhí)行時(shí)間也就越長(zhǎng)益眉。這些區(qū)域?qū)⒁苑宓闹行臑榛A(chǔ)晌柬。如果你更愿意用偏移量,可以指定-size -300,100
來(lái)搜索大小為400的區(qū)域郭脂,該區(qū)域位于峰中心上游100 bp(如果在假定的TSS區(qū)域進(jìn)行motif查找年碘,這是很有用的)。如果你的區(qū)域長(zhǎng)度不一定展鸡,使用-size given
選項(xiàng)HOMER將使用準(zhǔn)確的區(qū)域作為input屿衅。
(3)Motif length (-len <#>
或-len <#>,<#>,...
, default: 8,10,12)
指定要找到的motif長(zhǎng)度。HOMER會(huì)分別找到每個(gè)motif大小的結(jié)果莹弊,然后在最后把結(jié)果結(jié)合起來(lái)涤久。隨著長(zhǎng)度的增加,尋找motif所需的時(shí)間也大大增加忍弛。一般來(lái)說(shuō)响迂,在嘗試更長(zhǎng)的長(zhǎng)度之前,最好先嘗試短的motif(即小于15)细疚。HOMER也可以找到更長(zhǎng)的motif蔗彤,但最好使用較小的數(shù)據(jù)集來(lái)找長(zhǎng)motif,否則可能會(huì)花費(fèi)太長(zhǎng)時(shí)間(或占用太多內(nèi)存)疯兼。減少總資源消耗的另一個(gè)技巧是減少背景序列的數(shù)量(-N <#>
)然遏。
(4)Mismatches allowed in global optimization phase (-mis <#>
, default: 2)
HOMER尋找有可能的候選motif時(shí),首先檢查原始o(jì)ligos富集镇防,允許錯(cuò)配啦鸣。你允許的錯(cuò)配越多,算法就越敏感来氧,特別是對(duì)于較長(zhǎng)的motif诫给。然而,這也會(huì)降低算法的速度啦扬。如果搜索長(zhǎng)度超過(guò)12-15 bp的motif中狂,最好將這個(gè)值增加到至少3甚至4。
(5)Number of CPUs to use (-p <#>
, default: 1)
HOMER現(xiàn)在是多核兼容的扑毡。它不是完全并行的胃榕。一般來(lái)說(shuō),motif的長(zhǎng)度越長(zhǎng)瞄摊,加速的效果越好勋又。
(6)Number of motifs to find (-S <#>
, default: 25)
指定要查找的每個(gè)長(zhǎng)度的motifs的數(shù)量苦掘。25已經(jīng)足夠多了。建議減少這個(gè)數(shù)量楔壤,特別是對(duì)于長(zhǎng)motif鹤啡,以減少總執(zhí)行時(shí)間。
(7)Normalize CpG% content instead of GC% content ("-cpg")
如果HOMER在尋找類(lèi)似“CGCGCGCG”的motif時(shí)卡住了蹲嚣,你可以嘗試禁用GC/CpG 標(biāo)準(zhǔn)化(-noweight
)递瑰。
(8)Region level autonormalization (-nlen <#>
, default 3, -nlen 0
是禁用)
(9)Motif level autonormalization (-olen <#>
, default 0 ,你還可以disabled
)
自動(dòng)標(biāo)準(zhǔn)化試圖消除低排序核苷酸的序列偏倚。(1-mers, 2-mers…< # >)隙畜。區(qū)域水平自動(dòng)標(biāo)準(zhǔn)化(默認(rèn)為1/2/3 mers)嘗試通過(guò)調(diào)整背景區(qū)域的權(quán)重對(duì)其進(jìn)行標(biāo)準(zhǔn)化抖部。如果這不能完成任務(wù)(自動(dòng)標(biāo)準(zhǔn)化不能保證消除所有序列偏差),你可以嘗試motif水平的自動(dòng)標(biāo)準(zhǔn)化(-olen <#>)议惰。在發(fā)現(xiàn)新motif時(shí)慎颗,在oligo表上執(zhí)行自動(dòng)標(biāo)準(zhǔn)化程序。
(10)User defined background regions (-bg <peak file of background regions>
)
你可以自己選擇背景區(qū)域!!這非常有用换淆,因?yàn)楹神R是一個(gè)差異motif發(fā)現(xiàn)算法哗总。例如,你可以給HOMER一組peaks(由另一個(gè)因子共同結(jié)合的峰)倍试,并將它們與其他峰進(jìn)行比較(比較特定一種細(xì)胞類(lèi)型的ChIP-Seq峰與特定于另一種細(xì)胞類(lèi)型的峰)讯屈。為了實(shí)現(xiàn)這一功能,你要準(zhǔn)備第二個(gè)peak/BED文件县习,并使用參數(shù)-bg
涮母。HOMER會(huì)使用mergePeaks
自動(dòng)檢查背景峰是否與目標(biāo)峰重疊,并放棄重疊區(qū)域躁愿。
(11)Hypergeometric enrichment scoring (-h
)
默認(rèn)情況下叛本,findMotifsGenome.pl使用二項(xiàng)分布來(lái)給motifs評(píng)分。當(dāng)背景序列的數(shù)量大大超過(guò)目標(biāo)序列時(shí)彤钟,這種方法很好来候;但是,如果你使用上面的-bg
選項(xiàng)逸雹,并且背景序列的數(shù)量小于目標(biāo)序列营搅,那么使用超幾何分布(-h
)比較好。
(12)Find enrichment of individual oligos (-oligo
)
這將在名為oligo.length.txt的輸出目錄中創(chuàng)建輸出文件梆砸。
(13)Search for RNA motifs (-rna
)
如果是RNA數(shù)據(jù)(例如Clip-Seq)转质,該選項(xiàng)只會(huì)限制HOMER搜索+鏈(相對(duì)于峰),并將輸出RNA motif logo(例如U代替T)。它還將試圖把發(fā)現(xiàn)的motif與RNA motif數(shù)據(jù)庫(kù)比較帖世,但是RNA motif數(shù)據(jù)庫(kù)現(xiàn)在只包含microRNA休蟹。
(14)Optimize motifs (-opt <motif file>
)
與尋找新的motif不同,HOMER將試圖優(yōu)化所提供的motif。當(dāng)你試圖改變一個(gè)motif的長(zhǎng)度赂弓,或找到一個(gè)非常長(zhǎng)的給定motif時(shí)绑榴,這個(gè)參數(shù)就非常有用。例如盈魁,如果你指定-opt <file>
和-len 50
彭沼,它將嘗試將motif擴(kuò)展到50bp并對(duì)其進(jìn)行優(yōu)化。
(七)findMotifsGenome.pl是如何進(jìn)行分析的备埃?
findMotifsGenome.pl是通過(guò)一系列步驟來(lái)尋找高質(zhì)量的motifs的:
1. 驗(yàn)證峰/BED文件
HOMER確保你有有效的峰,并檢查確保你有唯一的峰標(biāo)識(shí)符(就是峰的ID褐奴,也就是BED文件里的第一列)按脚。如果有重復(fù),它將通知你敦冬,并將為峰名添加數(shù)字辅搬,以確保它們對(duì)于下游分析是唯一的。
2. 從基因組中提取與輸入文件區(qū)域相對(duì)應(yīng)的序列脖旱,過(guò)濾包含>70%“N”的序列
這一步很容易解釋堪遂。HOMER也會(huì)丟棄以“N”為主的序列。如果你覺(jué)得你扔掉了太多的序列萌庆,試著在一個(gè)unmasked的基因組上運(yùn)行findMotifsGenome.pl溶褪。
3.計(jì)算峰序列的GC/CpG含量
CpG島是哺乳動(dòng)物基因組中序列含量偏差最大的來(lái)源,不幸的是践险,它在轉(zhuǎn)錄起始位點(diǎn)附近猿妈,所有的活動(dòng)都在那里。巍虫。彭则。默認(rèn)情況下,HOMER跟蹤GC%(使用-cpg
來(lái)使用CpG%)占遥。
4. 準(zhǔn)備基因組序列作為背景序列
這個(gè)步驟只有在你第一次從給定大小的區(qū)域(-size <#>
)去找motif的時(shí)候才會(huì)完成俯抖。HOMER取基因TSS附近的區(qū)域(+/- 50kb),并將其分割成指定大小的區(qū)域瓦胎。然后計(jì)算它們的GC/CpG%芬萍,并將其存儲(chǔ)起來(lái),以便下次在類(lèi)似大小區(qū)域中搜索motifs時(shí)加速執(zhí)行凛捏。
5. 隨機(jī)選擇背景區(qū)域進(jìn)行motif查找
由于HOMER是差異motif發(fā)現(xiàn)算法担忧,它必須使用背景序列區(qū)域作為對(duì)照。默認(rèn)情況下坯癣,HOMER選擇了足夠多的隨機(jī)背景區(qū)域瓶盛,這樣區(qū)域總數(shù)為50000,或者是峰總數(shù)的2倍,甚至更多的數(shù)量(-N <#>
)惩猫。使用的總序列越多芝硬,程序運(yùn)行的速度就越慢,但你要確保有足夠的背景區(qū)域來(lái)可靠地估計(jì)motif頻率轧房。HOMER試圖選擇與輸入序列的GC含量分布相匹配的背景區(qū)域(以5%的增量)拌阴。例如,如果你的輸入?yún)^(qū)域富含GC, HOMER會(huì)從基因組中GC豐富的區(qū)域中隨機(jī)選擇區(qū)域作為對(duì)照奶镶。如果提供了自定義背景區(qū)域(-bg <peak/BED file>
)迟赃,HOMER會(huì)自動(dòng)確保這些區(qū)域不與目標(biāo)區(qū)域重疊(使用mergePeaks
)。自定義區(qū)域仍將按照GC含量進(jìn)行標(biāo)準(zhǔn)化厂镇。
6. 序列偏差的自動(dòng)標(biāo)準(zhǔn)化(Autonormalization)
Autonormalization是HOMER提供的一個(gè)獨(dú)特的程序纤壁,試圖消除由lower-order oligo(這個(gè)不會(huì)翻譯)序列引入的偏差。它是通過(guò)假設(shè)你的目標(biāo)區(qū)域和背景區(qū)域在1-mers, 2-mers, 3-mers中是不平衡的來(lái)工作的捺信。Autonormalization的oligo的最大長(zhǎng)度由-nlen <#>
指定(默認(rèn)為3酌媒,禁用-nlen 0
)。例如迄靠,目標(biāo)序列中不應(yīng)該比背景中有更多的A秒咨。在計(jì)算出每個(gè)oligo的不平衡后,對(duì)每個(gè)背景序列的權(quán)重進(jìn)行少量的調(diào)整掌挚,以幫助對(duì)不平衡進(jìn)行標(biāo)準(zhǔn)化雨席。如果目標(biāo)序列具有豐富的A,那么含有較多A的背景序列會(huì)被賦予較高的權(quán)重疫诽,而含有較少A的背景序列會(huì)被賦予較低的權(quán)重舅世。權(quán)重只增加了少量,并且這個(gè)過(guò)程在爬山算法優(yōu)化(hill climbing optimization)中重復(fù)了很多次奇徒。這一程序有助于消除與某些基因組區(qū)域相關(guān)的序列偏倚雏亚,或可能由偏倚(如偏倚測(cè)序)引入的的實(shí)驗(yàn)結(jié)果偏倚。
7. 檢查已知motifs的富集程度
HOMER根據(jù)目標(biāo)和背景序列篩選可靠的motif庫(kù)進(jìn)行富集摩钙,返回p值小于0.05的富集motifs罢低。先進(jìn)行已知的motif富集,因?yàn)樗ǔ1容^快胖笛,可以更快地看到你的目標(biāo)區(qū)域富集了什么网持。已知motif的富集將被輸出一個(gè)名為“knownResults.html”的文件。
8. de novo尋找新的motif
默認(rèn)情況下长踊,HOMER會(huì)搜索len 8功舀、10和12 bp的motifs(使用-len <#,#身弊,#>
辟汰,之間沒(méi)有空格列敲,即-len 6,10,15,20
)。從de novo motif查找的輸出將顯示在“homerResults.html”文件中帖汞。
(八)findMotifsGenome.pl的輸出文件
上面運(yùn)行后戴而,大概運(yùn)行了1個(gè)小時(shí),生成了以下文件:
homerMotifs.motifs8/10/12:這些是de novo 查找motif的輸出文件翩蘸,由motif長(zhǎng)度分隔所意,并代表算法的單獨(dú)運(yùn)行。
homerMotifs.all.motifs:簡(jiǎn)單地由所有homerMotifs.motifs組成的連接文件催首。
motifFindingParameters.txt:用于執(zhí)行findMotifsGenome.pl的命令扶踊,包含你使用的參數(shù)
knownResults.txt:包含關(guān)于已知motifs豐富的統(tǒng)計(jì)信息的文本文件(在EXCEL中打開(kāi))。
seq.autonorm.tsv:用于lower-order oligo標(biāo)準(zhǔn)化的autonormalization統(tǒng)計(jì)郎任。
homerResults.html:de novo查找motif的格式化輸出姻檀。
homerResults子文件夾:包含homerResults.html網(wǎng)頁(yè)文件,包括motif<#>.motif文件涝滴,用于尋找每個(gè)motif的具體實(shí)例。
knownResults.html:查找已知motifs的格式化輸出胶台。
knownResults子文件夾:包含knownResults.html網(wǎng)頁(yè)文件歼疮,包括known<#>.motif文件。
(九)理解輸出的Motif文件
HOMER的真正輸出是“*.motif”文件诈唬,其中包含必要的信息韩脏,以識(shí)別motif的未來(lái)實(shí)例。它們?cè)?code>findMotifs.pl和findMotifsGenome.pl
的輸出目錄中铸磅。一個(gè)典型的motif文件看起來(lái)是這樣的(下面這個(gè)是我運(yùn)行后生成的一個(gè)motif文件):
>NNATGASTCATH Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer 7.011739 -10.259778 0 T:4.0(57.14%),B:3353.3(3.23%),P:1e-4
0.227 0.228 0.279 0.266
0.285 0.199 0.287 0.229
0.461 0.212 0.256 0.070
0.017 0.005 0.016 0.962
0.015 0.009 0.745 0.231
0.949 0.010 0.001 0.040
0.097 0.363 0.411 0.130
0.028 0.013 0.026 0.933
0.189 0.789 0.009 0.013
0.963 0.012 0.001 0.024
0.074 0.253 0.198 0.475
0.244 0.347 0.172 0.237
第一行以一個(gè)“>”開(kāi)頭赡矢,后面跟著各種信息,其他行是每個(gè)位置的各個(gè)核苷酸具體概率(A/C/G/T)阅仔。標(biāo)題行實(shí)際上是用制表符分隔的吹散,并包含以下信息:
- “>”+序列(實(shí)際上不用于任何東西,可以是空的)示例:>NNATGASTCATH
- motif名稱(chēng)(如果幾個(gè)motif在同一個(gè)文件中八酒,應(yīng)該是唯一的)空民。例子:Fra1(bZIP)/BT549-Fra1-ChIP-Seq(GSE46166)/Homer
- log odds檢測(cè)閾值,用于確定結(jié)合的vs未結(jié)合位點(diǎn)羞迷。示例:7.011739
- 富集的log-p值
- 0(表示向后兼容性的占位符界轩,在舊版本中用于描述“gapped” motif,結(jié)果證明它并不是很有用)
- 發(fā)生的信息衔瓮,用逗號(hào)分隔浊猾,例如:T:4.0(57.14%),B:3353.3(3.23%),P:1e-4
T:帶motif的靶標(biāo)序列數(shù),占靶序列總數(shù)的%
B:帶motif的背景序列數(shù)目热鞍,占總背景的%
P:最終富集P值 - 用逗號(hào)分隔的Motif統(tǒng)計(jì)信息(這一個(gè)信息是與鏈有關(guān)的葫慎,因?yàn)槲业腂ED文件里鏈的哪一列沒(méi)有指定是+/-衔彻,我輸入的是.,所以這里沒(méi)有第7個(gè)信息)幅疼,官網(wǎng)的例子:
Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13
Tpos: motif在目標(biāo)序列中的平均位置(0 =序列開(kāi)始)
Tstd:目標(biāo)序列中位置的標(biāo)準(zhǔn)偏差
Bpos:motif在背景序列中的平均位置(0 =序列開(kāi)始)
Bstd:背景序列中位置的標(biāo)準(zhǔn)差
StrandBias:在+鏈出現(xiàn)與在-鏈出現(xiàn)的log比例米奸。
Multiplicity:在具有一個(gè)或多個(gè)結(jié)合位點(diǎn)的序列中,每個(gè)序列平均出現(xiàn)的次數(shù)爽篷。
(十)如何評(píng)價(jià)你找到的這些motif質(zhì)量悴晰?
這一部分的圖我就用官網(wǎng)上的了,因?yàn)楸容^有代表性逐工,你可以用下面的方法來(lái)評(píng)價(jià)你自己找到的motif的好壞與否铡溪,和可信度。
WARNING:因?yàn)檫@部分是最難理解的泪喊,所以官網(wǎng)在這里又說(shuō)一遍棕硫。HOMER會(huì)在motif結(jié)果的旁邊打印出最佳的motif猜測(cè),但在你確定這個(gè)motif在你的序列里富集之前袒啼,強(qiáng)烈建議你看看比對(duì)的情況!!下面是一個(gè)可能發(fā)生的例子:
在這種情況下哈扮,HOMER已經(jīng)確定YY1是“最好的猜測(cè)”匹配這個(gè)新motif。點(diǎn)擊“More Information”看看有什么:
在這個(gè)例子中蚓再,你可以看到滑肉,motif比對(duì)在已知的YY1 motif的邊緣,而不是YY1 motif 的核心(CAAGATGGC)摘仅。這并不意味著YY1 motif在你的數(shù)據(jù)中沒(méi)有得到富集靶庙,但除非有其他motif結(jié)果顯示YY1 motif在其他地方得到富集,否則YY1 motif不太可能在你的數(shù)據(jù)集中得到富集(有點(diǎn)繞娃属,多讀幾遍就懂了)六荒。
和往常一樣,記住HOMER是一個(gè)de novo的查找motif的工具!! 即使HOMER會(huì)猜出最好的匹配矾端,如果它是一個(gè)新的motif掏击,無(wú)論如何你都不想相信那個(gè)匹配。因此秩铆,你可以看到比對(duì)的重要性铐料,并得到證據(jù)來(lái)支持或反對(duì)這個(gè)匹配。
在很多情況下豺旬,HOMER會(huì)找到p值很低的motif钠惩,但這些motif可能看起來(lái)“不太靠譜”。質(zhì)量差的motif可以大致分為以下幾類(lèi):
(1)Low Complexity Motifs(低復(fù)雜度的motif):
(在v3版本里比較少見(jiàn))這些類(lèi)型的motif傾向于在每個(gè)位置顯示相同的1族阅、2篓跛、3或4個(gè)核苷酸的集合。例如:
當(dāng)目標(biāo)序列和背景序列之間存在系統(tǒng)性偏差時(shí)坦刀,這些motif通常會(huì)出現(xiàn)愧沟。通常它們的GC含量非常高蔬咬,在這種情況下,你可以嘗試在motif finding命令中添加-gc
沐寺,以總GC含量而不是CpG含量進(jìn)行標(biāo)準(zhǔn)化林艘。
其他時(shí)候,例如混坞,在一些生物體中將啟動(dòng)子序列與隨機(jī)基因組背景序列進(jìn)行比較時(shí)狐援,會(huì)顯示出對(duì)嘌呤或嘧啶的偏好。HOMER非常敏感究孕,所以如果序列的組成有偏差啥酱,HOMER很可能會(huì)發(fā)現(xiàn)。新版本中的Autonormalization解決了這個(gè)問(wèn)題厨诸。
(2)Simple Repeat Motifs(簡(jiǎn)單重復(fù)的motifs):
(在v3.0+版本里很少出現(xiàn)) 有時(shí)motifs還會(huì)顯示出重復(fù)的序列:
通常像這樣的motif將伴隨著幾個(gè)其他的motif镶殷,看起來(lái)高度相似。除非有充分的理由相信這些可能是真實(shí)的微酬,否則最好假設(shè)背景可能有問(wèn)題绘趋。如果你的目標(biāo)序列在外顯子和其他類(lèi)型的序列上高度富集,就會(huì)出現(xiàn)這種情況颗管,如果-gc
不起作用埋心,你可能必須仔細(xì)考慮你要分析的序列類(lèi)型并試圖匹配它們。(例如啟動(dòng)子vs.啟動(dòng)子忙上,外顯子vs.外顯子等)。你也可以嘗試使用-olen <#>
在寡核苷酸水平上自動(dòng)標(biāo)準(zhǔn)化序列偏差闲坎。
(3)Small Quantity Motifs / Repeats(小數(shù)量的motif):
這個(gè)解釋起來(lái)有點(diǎn)難疫粥。這些看起來(lái)像真正的motif,但在目標(biāo)序列里只有一個(gè)非常低的百分比腰懂。例如梗逮,一個(gè)oligo或一個(gè)repeat,在一些目標(biāo)序列中出現(xiàn)绣溜,看起來(lái)是一個(gè)重要motif慷彤。從統(tǒng)計(jì)學(xué)上講,它們是富集的怖喻,但可能不是真的底哗。當(dāng)從一個(gè)小的調(diào)控基因列表中尋找啟動(dòng)子的motif時(shí),這是最大的問(wèn)題锚沸。原則上跋选,motif在不到5%的靶序列中存在,這可能是個(gè)問(wèn)題哗蜈。
(4)Leftover Junk(剩下的“垃圾”前标?我并不想這么翻譯坠韩。最铁。贼陶。)
這些motif出現(xiàn)在你的結(jié)果列表比較靠后的位置倔叼。如果一個(gè)元件在你的序列中高度富集厌漂,HOMER會(huì)找到它膊夹,掩蓋它低散,然后繼續(xù)尋找motif羽历。在這種情況下铛楣,許多HOMER發(fā)現(xiàn)的其他motif將被高度富集的motif抵消目溉。例如(另一個(gè)pu1例子):
排名很高的motif:
排名靠后的motif:
這并不一定是陰性的結(jié)果明肮,但是應(yīng)該把它們放在特定的環(huán)境中。這通常發(fā)生在ChIP-Seq數(shù)據(jù)集里缭付,并與大量的結(jié)合位點(diǎn)緊密結(jié)合柿估。這些“其他”motif很可能也能結(jié)合PU.1,只是可能代表低親和力結(jié)合位點(diǎn)陷猫,但不建議在這種情況下關(guān)注它們秫舌。一個(gè)更安全的方法是重復(fù)motif尋找步驟,但是用不包含高富集motif的那些序列绣檬∽阍桑或通過(guò)添加-mask <motif file>
到motif finding 命令再?lài)L試一下。