# findMotifsGenome.pl: 在基因組區(qū)域中尋找富集Motifs
HOMER 最初設(shè)計(jì)的目的用于ChIP-Seq peaks 中尋找富集motifs 。
#命令
findMotifsGenome.pl <peak/BED file> <genome> <output directory> -size # [options]
#1. 設(shè)定尋找motif 的區(qū)域大小 (-size # or -size given, default: 200)
如果想在提供的peak中尋找motifs弓颈,使用參數(shù)-size given
。然而穴张,對(duì)于轉(zhuǎn)錄因子peaks前弯,大多數(shù)motifs 被發(fā)現(xiàn)位于peak 中心 +/- 50-75 bp的范圍內(nèi),所以最好根據(jù)peak 的大小將尋找motif的區(qū)域設(shè)為固定值砰蠢。
#2. 輸入文件格式
格式: HOMER peak/Positions 文件和BED 格式文件
HOMER peak文件有至少5列:
- Column1: Peak ID
- Column2: 染色體
- Column3: 起始位置
- Column4: 終止位置
- Column5: 鏈的方向(+/- or 0/1, where 0="+", 1="-")
BED 格式文件至少有6列:
- Column1: 染色體
- Column2: 起始位置
- Column3: 終止位置
- Column4: Peak ID
- Column5: not used
- Column6: 鏈的方向 (+/- or 0/1, where 0="+", 1="-")
Peak/Position 和 BED兩種格式之間可以相互轉(zhuǎn)換辨泳,使用Homer自帶腳本:pos2bed.pl 或bed2pos.pl
#3. 自定義背景
因?yàn)镠OMER 使用一個(gè)不同的motif 尋找算法虱岂,因此使用不同的背景會(huì)產(chǎn)生不同的結(jié)果玖院。例如,如果將某種實(shí)驗(yàn)的peak與另一種實(shí)驗(yàn)peak相比較第岖,可以再創(chuàng)建一個(gè)peak/BED文件(參數(shù):"-bg <peak/BED file>")难菌,將會(huì)對(duì)背景進(jìn)行移除GC-bias操作和自動(dòng)標(biāo)準(zhǔn)化。
#4. findMotifsGenome.pl工作流程
4.1 確認(rèn)peak/BED 文件
4.2 根據(jù)peak/BED 文件提取序列蔑滓,過(guò)濾掉序列中N >70%的序列郊酒。
4.3 計(jì)算peak 對(duì)應(yīng)序列GC/CpG含量
4.4 根據(jù)設(shè)定的大小準(zhǔn)備背景序列
用于尋找motif 區(qū)域大小使用("-size <#>")設(shè)置。HOMER 一般選取基因TSS +/- 50kb區(qū)域分成設(shè)定大屑ぁ燎窘;然后計(jì)算這些背景序列GC/CpG% 儲(chǔ)存起來(lái)用于后續(xù)分析。
4.5 隨機(jī)選擇背景區(qū)域用于尋找motif
因?yàn)镠OMER 使用一個(gè)不同的motif 尋找算法蹄咖,它需要使用背景序列區(qū)域作為對(duì)照褐健。默認(rèn)情況下,HOMER 可能選擇50000 或 peaks總數(shù)兩倍的隨機(jī)背景序列比藻,可以使用參數(shù)-N <#>
自定義。HOMER 會(huì)選擇和目標(biāo)數(shù)據(jù)一致GC 含量分布的序列作為背景序列倘屹。例如银亲,目標(biāo)序列是GC高含量的,那么背景序列也會(huì)如此纽匙。
設(shè)定-bg <peak/BED file>
自定義背景务蝠,
4.6 序列差異自動(dòng)標(biāo)準(zhǔn)化
自動(dòng)標(biāo)準(zhǔn)化是HOMER 用以移除由短寡聚序列引進(jìn)的序列偏好性,主要用于消除某些特定基因組序列烛缔、實(shí)驗(yàn)誤差和測(cè)序偏好引起的不平衡馏段。HOMER 假定目標(biāo)數(shù)據(jù)和背景序列在1-mers, 2-mers, 3-mers, etc上是沒(méi)有差異的。短寡聚序列長(zhǎng)度是通過(guò)參數(shù)-nlen <#>
設(shè)定践瓷。一個(gè)例子院喜,目標(biāo)數(shù)據(jù)和背景序列中 A's是一樣的;先計(jì)算目標(biāo)序列中各種短寡聚序列的偏好性晕翠,然后調(diào)整每條背景序列的權(quán)重來(lái)標(biāo)準(zhǔn)化這些偏好性喷舀,當(dāng)然權(quán)重矯正是按照較小的步長(zhǎng)一步一步進(jìn)行矯正。如果目標(biāo)序列富含A淋肾,那么背景序列中富含A的序列權(quán)重高于A含量一般的序列硫麻。
4.7 檢查已知motifs富集情況
HOMER 會(huì)檢索已知 motifs 在目標(biāo)序列和背景基因富集情況。結(jié)果輸出到文件:knownResults.html
4.8 重頭預(yù)測(cè)motif
默認(rèn)情況樊卓,HOMER 尋找長(zhǎng)度為 8, 10, 和12 bp的motifs 拿愧,可以通過(guò)-len <#,#,#>
自定義。
5 findMotifsGenome.pl結(jié)果文件
- homerMotifs.motifs<#> : 對(duì)應(yīng)各個(gè)長(zhǎng)度的motif結(jié)果
- homerMotifs.all.motifs : 各個(gè)長(zhǎng)度的motif結(jié)果合并到了一起
- motifFindingParameters.txt : 文件保存了程序運(yùn)行參數(shù)
- knownResults.txt : 已知motif 的富集結(jié)果
- seq.autonorm.tsv : 短核苷酸自動(dòng)矯正情況
- homerResults.html : 重新預(yù)測(cè)的motif 的富集結(jié)果
- homerResults/ directory: 對(duì)應(yīng)homerResults.html中結(jié)果
- knownResults.html : 已知motif 的富集結(jié)果
- knownResults/ directory: 對(duì)應(yīng)knownResults.html 中結(jié)果
#6 Interpreting motif finding results
#7 motif 尋找的一些重要參數(shù)
Masked vs. Unmasked Genome ("-mask" or hg18 vs. hg18r)
一般使用masked 版本Region Size ("-size <#>", "-size <#>,<#>", "-size given", default: 200)
-size -300,100:peak上游100bp碌尔,下游300bp區(qū)域浇辜。根據(jù)不同的實(shí)驗(yàn)數(shù)據(jù)選擇券敌。Motif length ("-len <#>" or "-len <#>,<#>,...", default 8,10,12)
如果要尋找長(zhǎng)Motif ,建議先尋找短的Motif(<15bp)奢赂;尋找長(zhǎng)的Motif 耗時(shí)和占據(jù)大量計(jì)算機(jī)資源陪白,建議減小尋找Motif 的區(qū)域,例如"-len 20 -size 50"膳灶。Mismatches allowed in global optimization phase ("-mis <#>", default: 2)
允許錯(cuò)配可以提升靈敏度咱士,如果尋找12-15 bp Motif ,可以設(shè)置3-4bp的錯(cuò)配轧钓。Number of motifs to find ("-S <#>", default 25)
并不是越多越好序厉。Normalize CpG% content instead of GC% content ("-cpg")
考慮到HOMER 可能卡在CGCGCGCG這樣的motifs。Region level autonormalization ("-nlen <#>", default 3, "-nlen 0" to disable)
消除短寡聚核苷酸引入的不平衡毕箍。Motif level autonormalization (-olen <#>, default 0 i.e. disabled)
對(duì)Region level autonormalization參數(shù)的補(bǔ)充弛房。User defined background regions ("-bg <peak file of background regions>")
自定義背景序列Hypergeometric enrichment scoring ("-h")
findMotifsGenome.pl默認(rèn)使用二項(xiàng)式分布對(duì)motifs打分,這是因?yàn)楸尘靶蛄羞h(yuǎn)遠(yuǎn)多于目標(biāo)序列時(shí)而柑,運(yùn)算比較快文捶。當(dāng)背景序列比較少的時(shí)候,建議使用超幾何檢驗(yàn)的方法媒咳。Find enrichment of individual oligos ("-oligo")
輸出寡聚核苷酸富集情況到文件oligo.length.txtForce findMotifsGenome.pl to re-preparse genome for the given region size ("-preparse").
Only search for motifs on + strand ("-norevopp")
Search for RNA motifs ("-rna")
Mask motifs ("-mask <motif file>")
Optimize motifs ("-opt <motif file>")
Dump FASTA files ("-dumpFasta")
根據(jù)peak文件輸出 target.fa 和 background.fa
#8. findMotifsGenome.pl使用實(shí)例:
8.1 數(shù)據(jù)包準(zhǔn)備
$perl configureHomer.pl -list
$perl configureHomer.pl -install mm10
8.2 構(gòu)建HOMER Peak/Positions 文件
#input.test.bed
#peakName #chromsome #startingPosition #endPosition #strand
1 chr2 5214158 5215219 +
2 chr2 8345384 8345769 +
3 chr2 8647810 8648265 +
4 chr2 8943836 8944187 +
5 chr2 10036538 10036796 +
6 chr3 12362628 12362865 +
7 chr3 13105367 13105590 +
8 chr3 15619314 15619600 +
9 chr3 19819943 19820193 +
10 chr3 22236595 22236910 +
8.3 運(yùn)行程序
$ perl findMotifsGenome.pl input.test.bed mm10 /homerResult/ -size 200 -len 8,10,12
常用參數(shù):
-bg:自定義背景序列
-size: 用于motif尋找得片段大小粹排,默認(rèn)200bp;-size given 設(shè)置片段大小為目標(biāo)序列長(zhǎng)度涩澡;越大需要得計(jì)算資源越多
-len:motif大小設(shè)置顽耳,默認(rèn)8,10,12;越大需要得計(jì)算資源越多
-S:結(jié)果輸出多少motifs, 默認(rèn)25
-mis:motif錯(cuò)配堿基數(shù)妙同,默認(rèn)2bp
-norevopp:不進(jìn)行反義鏈搜索motif
-nomotif:關(guān)閉重投預(yù)測(cè)motif
-rna: 輸出RNA motif射富,使用RNA motif數(shù)據(jù)庫(kù)
-h:使用超幾何檢驗(yàn)代替二項(xiàng)式分布
-N:用于motif尋找得背景序列數(shù)目,default=max(50k, 2x input)粥帚;耗內(nèi)存參數(shù)
參考:
Finding Enriched Motifs in Genomic Regions
ChIP-Seq 數(shù)據(jù)挖掘系列文章目錄:
ChIP-Seq數(shù)據(jù)挖掘系列-1:Motif 分析(1)-HOMER 安裝
ChIP-Seq數(shù)據(jù)挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟
ChIP-Seq數(shù)據(jù)挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結(jié)果在基因組區(qū)域中尋找富集的Motifs
ChIP-Seq數(shù)據(jù)挖掘系列-4: liftOver - 基因組坐標(biāo)在不同基因組注釋版本間轉(zhuǎn)換
ChIP-Seq數(shù)據(jù)挖掘系列-5.1: ngs.plot 可視化ChIP-Seq 數(shù)據(jù)
ChIP-Seq數(shù)據(jù)挖掘系列-5.2: ngs.plot 畫圖工具ngs.plot.r 和 replot.r 參數(shù)詳解
ChIP-Seq數(shù)據(jù)挖掘系列-6: 怎么選擇HOMMER結(jié)果中的motif