ChIP-Seq數(shù)據(jù)挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結(jié)果在基因組區(qū)域中尋找富集的Motifs

HOMER

# findMotifsGenome.pl: 在基因組區(qū)域中尋找富集Motifs

HOMER 最初設(shè)計(jì)的目的用于ChIP-Seq peaks 中尋找富集motifs 。

#命令

findMotifsGenome.pl <peak/BED file> <genome> <output directory> -size # [options]

#1. 設(shè)定尋找motif 的區(qū)域大小 (-size # or -size given, default: 200)
如果想在提供的peak中尋找motifs弓颈,使用參數(shù)-size given。然而穴张,對(duì)于轉(zhuǎn)錄因子peaks前弯,大多數(shù)motifs 被發(fā)現(xiàn)位于peak 中心 +/- 50-75 bp的范圍內(nèi),所以最好根據(jù)peak 的大小將尋找motif的區(qū)域設(shè)為固定值砰蠢。

#2. 輸入文件格式
格式: HOMER peak/Positions 文件和BED 格式文件

HOMER peak文件有至少5列:

  • Column1: Peak ID
  • Column2: 染色體
  • Column3: 起始位置
  • Column4: 終止位置
  • Column5: 鏈的方向(+/- or 0/1, where 0="+", 1="-")

BED 格式文件至少有6列:

  • Column1: 染色體
  • Column2: 起始位置
  • Column3: 終止位置
  • Column4: Peak ID
  • Column5: not used
  • Column6: 鏈的方向 (+/- or 0/1, where 0="+", 1="-")

Peak/Position 和 BED兩種格式之間可以相互轉(zhuǎn)換辨泳,使用Homer自帶腳本:pos2bed.pl 或bed2pos.pl

#3. 自定義背景
因?yàn)镠OMER 使用一個(gè)不同的motif 尋找算法虱岂,因此使用不同的背景會(huì)產(chǎn)生不同的結(jié)果玖院。例如,如果將某種實(shí)驗(yàn)的peak與另一種實(shí)驗(yàn)peak相比較第岖,可以再創(chuàng)建一個(gè)peak/BED文件(參數(shù):"-bg <peak/BED file>")难菌,將會(huì)對(duì)背景進(jìn)行移除GC-bias操作和自動(dòng)標(biāo)準(zhǔn)化。

#4. findMotifsGenome.pl工作流程
4.1 確認(rèn)peak/BED 文件
4.2 根據(jù)peak/BED 文件提取序列蔑滓,過(guò)濾掉序列中N >70%的序列郊酒。
4.3 計(jì)算peak 對(duì)應(yīng)序列GC/CpG含量
4.4 根據(jù)設(shè)定的大小準(zhǔn)備背景序列
用于尋找motif 區(qū)域大小使用("-size <#>")設(shè)置。HOMER 一般選取基因TSS +/- 50kb區(qū)域分成設(shè)定大屑ぁ燎窘;然后計(jì)算這些背景序列GC/CpG% 儲(chǔ)存起來(lái)用于后續(xù)分析。

4.5 隨機(jī)選擇背景區(qū)域用于尋找motif
因?yàn)镠OMER 使用一個(gè)不同的motif 尋找算法蹄咖,它需要使用背景序列區(qū)域作為對(duì)照褐健。默認(rèn)情況下,HOMER 可能選擇50000 或 peaks總數(shù)兩倍的隨機(jī)背景序列比藻,可以使用參數(shù)-N <#>自定義。HOMER 會(huì)選擇和目標(biāo)數(shù)據(jù)一致GC 含量分布的序列作為背景序列倘屹。例如银亲,目標(biāo)序列是GC高含量的,那么背景序列也會(huì)如此纽匙。
設(shè)定-bg <peak/BED file>自定義背景务蝠,

4.6 序列差異自動(dòng)標(biāo)準(zhǔn)化
自動(dòng)標(biāo)準(zhǔn)化是HOMER 用以移除由短寡聚序列引進(jìn)的序列偏好性,主要用于消除某些特定基因組序列烛缔、實(shí)驗(yàn)誤差和測(cè)序偏好引起的不平衡馏段。HOMER 假定目標(biāo)數(shù)據(jù)和背景序列在1-mers, 2-mers, 3-mers, etc上是沒(méi)有差異的。短寡聚序列長(zhǎng)度是通過(guò)參數(shù)-nlen <#>設(shè)定践瓷。一個(gè)例子院喜,目標(biāo)數(shù)據(jù)和背景序列中 A's是一樣的;先計(jì)算目標(biāo)序列中各種短寡聚序列的偏好性晕翠,然后調(diào)整每條背景序列的權(quán)重來(lái)標(biāo)準(zhǔn)化這些偏好性喷舀,當(dāng)然權(quán)重矯正是按照較小的步長(zhǎng)一步一步進(jìn)行矯正。如果目標(biāo)序列富含A淋肾,那么背景序列中富含A的序列權(quán)重高于A含量一般的序列硫麻。

4.7 檢查已知motifs富集情況
HOMER 會(huì)檢索已知 motifs 在目標(biāo)序列和背景基因富集情況。結(jié)果輸出到文件:knownResults.html

4.8 重頭預(yù)測(cè)motif
默認(rèn)情況樊卓,HOMER 尋找長(zhǎng)度為 8, 10, 和12 bp的motifs 拿愧,可以通過(guò)-len <#,#,#>自定義。

5 findMotifsGenome.pl結(jié)果文件

  • homerMotifs.motifs<#> : 對(duì)應(yīng)各個(gè)長(zhǎng)度的motif結(jié)果
  • homerMotifs.all.motifs : 各個(gè)長(zhǎng)度的motif結(jié)果合并到了一起
  • motifFindingParameters.txt : 文件保存了程序運(yùn)行參數(shù)
  • knownResults.txt : 已知motif 的富集結(jié)果
  • seq.autonorm.tsv : 短核苷酸自動(dòng)矯正情況
  • homerResults.html : 重新預(yù)測(cè)的motif 的富集結(jié)果
peakMotifs.output
  • homerResults/ directory: 對(duì)應(yīng)homerResults.html中結(jié)果
  • knownResults.html : 已知motif 的富集結(jié)果
  • knownResults/ directory: 對(duì)應(yīng)knownResults.html 中結(jié)果

#6 Interpreting motif finding results
#7 motif 尋找的一些重要參數(shù)

  • Masked vs. Unmasked Genome ("-mask" or hg18 vs. hg18r)
    一般使用masked 版本

  • Region Size ("-size <#>", "-size <#>,<#>", "-size given", default: 200)
    -size -300,100:peak上游100bp碌尔,下游300bp區(qū)域浇辜。根據(jù)不同的實(shí)驗(yàn)數(shù)據(jù)選擇券敌。

  • Motif length ("-len <#>" or "-len <#>,<#>,...", default 8,10,12)
    如果要尋找長(zhǎng)Motif ,建議先尋找短的Motif(<15bp)奢赂;尋找長(zhǎng)的Motif 耗時(shí)和占據(jù)大量計(jì)算機(jī)資源陪白,建議減小尋找Motif 的區(qū)域,例如"-len 20 -size 50"膳灶。

  • Mismatches allowed in global optimization phase ("-mis <#>", default: 2)
    允許錯(cuò)配可以提升靈敏度咱士,如果尋找12-15 bp Motif ,可以設(shè)置3-4bp的錯(cuò)配轧钓。

  • Number of motifs to find ("-S <#>", default 25)
    并不是越多越好序厉。

  • Normalize CpG% content instead of GC% content ("-cpg")
    考慮到HOMER 可能卡在CGCGCGCG這樣的motifs。

  • Region level autonormalization ("-nlen <#>", default 3, "-nlen 0" to disable)
    消除短寡聚核苷酸引入的不平衡毕箍。

  • Motif level autonormalization (-olen <#>, default 0 i.e. disabled)
    對(duì)Region level autonormalization參數(shù)的補(bǔ)充弛房。

  • User defined background regions ("-bg <peak file of background regions>")
    自定義背景序列

  • Hypergeometric enrichment scoring ("-h")
    findMotifsGenome.pl默認(rèn)使用二項(xiàng)式分布對(duì)motifs打分,這是因?yàn)楸尘靶蛄羞h(yuǎn)遠(yuǎn)多于目標(biāo)序列時(shí)而柑,運(yùn)算比較快文捶。當(dāng)背景序列比較少的時(shí)候,建議使用超幾何檢驗(yàn)的方法媒咳。

  • Find enrichment of individual oligos ("-oligo")
    輸出寡聚核苷酸富集情況到文件oligo.length.txt

  • Force findMotifsGenome.pl to re-preparse genome for the given region size ("-preparse").

  • Only search for motifs on + strand ("-norevopp")

  • Search for RNA motifs ("-rna")

  • Mask motifs ("-mask <motif file>")

  • Optimize motifs ("-opt <motif file>")

  • Dump FASTA files ("-dumpFasta")
    根據(jù)peak文件輸出 target.fa 和 background.fa

#8. findMotifsGenome.pl使用實(shí)例:
8.1 數(shù)據(jù)包準(zhǔn)備

$perl configureHomer.pl -list

$perl configureHomer.pl -install mm10

8.2 構(gòu)建HOMER Peak/Positions 文件
#input.test.bed

#peakName   #chromsome  #startingPosition   #endPosition    #strand
1   chr2    5214158 5215219 +
2   chr2    8345384 8345769 +
3   chr2    8647810 8648265 +
4   chr2    8943836 8944187 +
5   chr2    10036538    10036796    +
6   chr3    12362628    12362865    +
7   chr3    13105367    13105590    +
8   chr3    15619314    15619600    +
9   chr3    19819943    19820193    +
10  chr3    22236595    22236910    +

8.3 運(yùn)行程序

$ perl findMotifsGenome.pl input.test.bed mm10 /homerResult/ -size 200 -len 8,10,12

常用參數(shù):
-bg:自定義背景序列
-size: 用于motif尋找得片段大小粹排,默認(rèn)200bp;-size given 設(shè)置片段大小為目標(biāo)序列長(zhǎng)度涩澡;越大需要得計(jì)算資源越多
-len:motif大小設(shè)置顽耳,默認(rèn)8,10,12;越大需要得計(jì)算資源越多
-S:結(jié)果輸出多少motifs, 默認(rèn)25
-mis:motif錯(cuò)配堿基數(shù)妙同,默認(rèn)2bp
-norevopp:不進(jìn)行反義鏈搜索motif
-nomotif:關(guān)閉重投預(yù)測(cè)motif
-rna: 輸出RNA motif射富,使用RNA motif數(shù)據(jù)庫(kù)
-h:使用超幾何檢驗(yàn)代替二項(xiàng)式分布
-N:用于motif尋找得背景序列數(shù)目,default=max(50k, 2x input)粥帚;耗內(nèi)存參數(shù)

參考:
Finding Enriched Motifs in Genomic Regions



ChIP-Seq 數(shù)據(jù)挖掘系列文章目錄:
ChIP-Seq數(shù)據(jù)挖掘系列-1:Motif 分析(1)-HOMER 安裝
ChIP-Seq數(shù)據(jù)挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟
ChIP-Seq數(shù)據(jù)挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結(jié)果在基因組區(qū)域中尋找富集的Motifs
ChIP-Seq數(shù)據(jù)挖掘系列-4: liftOver - 基因組坐標(biāo)在不同基因組注釋版本間轉(zhuǎn)換
ChIP-Seq數(shù)據(jù)挖掘系列-5.1: ngs.plot 可視化ChIP-Seq 數(shù)據(jù)
ChIP-Seq數(shù)據(jù)挖掘系列-5.2: ngs.plot 畫圖工具ngs.plot.r 和 replot.r 參數(shù)詳解
ChIP-Seq數(shù)據(jù)挖掘系列-6: 怎么選擇HOMMER結(jié)果中的motif

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末胰耗,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子芒涡,更是在濱河造成了極大的恐慌宪郊,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拖陆,死亡現(xiàn)場(chǎng)離奇詭異弛槐,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)依啰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門乎串,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事叹誉⊙炝剑” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵长豁,是天一觀的道長(zhǎng)钧唐。 經(jīng)常有香客問(wèn)我,道長(zhǎng)匠襟,這世上最難降的妖魔是什么钝侠? 我笑而不...
    開(kāi)封第一講書人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮酸舍,結(jié)果婚禮上帅韧,老公的妹妹穿的比我還像新娘。我一直安慰自己啃勉,他們只是感情好忽舟,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著淮阐,像睡著了一般叮阅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上泣特,一...
    開(kāi)封第一講書人閱讀 51,115評(píng)論 1 296
  • 那天浩姥,我揣著相機(jī)與錄音,去河邊找鬼群扶。 笑死及刻,一個(gè)胖子當(dāng)著我的面吹牛镀裤,可吹牛的內(nèi)容都是我干的竞阐。 我是一名探鬼主播,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼暑劝,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼骆莹!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起担猛,我...
    開(kāi)封第一講書人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤幕垦,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后傅联,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體先改,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年蒸走,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了仇奶。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡比驻,死狀恐怖该溯,靈堂內(nèi)的尸體忽然破棺而出岛抄,到底是詐尸還是另有隱情,我是刑警寧澤狈茉,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布夫椭,位于F島的核電站,受9級(jí)特大地震影響氯庆,放射性物質(zhì)發(fā)生泄漏蹭秋。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一点晴、第九天 我趴在偏房一處隱蔽的房頂上張望感凤。 院中可真熱鬧,春花似錦粒督、人聲如沸陪竿。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)族跛。三九已至,卻和暖如春锐墙,著一層夾襖步出監(jiān)牢的瞬間礁哄,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工溪北, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留桐绒,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓之拨,卻偏偏與公主長(zhǎng)得像茉继,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蚀乔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353