在基因組調(diào)控元件分析中,HOMER 可以用于發(fā)現(xiàn)新的motif址遇。HOMER 通過(guò)比較兩個(gè)序列集,再使用ZOOPS scoring (zero or one occurrence per sequence)和超幾何檢驗(yàn)進(jìn)行富集分析。HOMER主要被用于 ChIP-Seq 和 promoter 分析摹芙,但是核酸序列motif尋找問(wèn)題都可以嘗試使用HOMER日月。
HOMER預(yù)測(cè)Motif 需要的兩個(gè)序列集
- 感興趣的目標(biāo)序列袱瓮。例如Chipseq實(shí)驗(yàn)發(fā)現(xiàn)的peaks。
- 背景序列集爱咬。HOMER 分析結(jié)果也會(huì)根據(jù)背景基因集的選擇不同而變化尺借。
HOMER 分析基本步驟:
1. 預(yù)處理
1.1 提取序列 (findMotifs.pl/findMotifsGenome.pl)
提供的數(shù)據(jù)是基因組位置信息,就需要提取對(duì)應(yīng)的DNA信息台颠;提供基因號(hào)時(shí)褐望,需要選擇啟動(dòng)子區(qū)域。
1.2 背景選擇 (findMotifs.pl/findMotifsGenome.pl)
未指定背景序列時(shí)串前,HOMER 會(huì)自動(dòng)選擇瘫里。
對(duì)基因組某些區(qū)域進(jìn)行分析時(shí),從基因組隨機(jī)選擇GC含量一致的序列作為背景序列荡碾。
對(duì)啟動(dòng)子進(jìn)行分析時(shí)谨读,除用來(lái)分析外的所有啟動(dòng)子將被作為背景。
自定義背景使用參數(shù)"-bg <file>"坛吁。
1.3 GC 標(biāo)準(zhǔn)化 (findMotifs.pl/findMotifsGenome.pl)
目標(biāo)序列和背景序列會(huì)基于GC含量按5%作為bin 查看GC含量的分布劳殖。背景序列會(huì)得到權(quán)值,從而使得其GC含量分布與目標(biāo)序列一致拨脉。
ChIP-Seq 實(shí)驗(yàn)得到序列GC含量哆姻。
1.4 自動(dòng)標(biāo)準(zhǔn)化 (New with v3.0, homer2/findMotifs.pl/findMotifsGenome.pl)
需要分析的序列除了GC含量會(huì)帶來(lái)誤差,其他的生物學(xué)現(xiàn)象玫膀,外顯子中密碼子偏好性或測(cè)序?qū)嶒?yàn)中偏好性都會(huì)影響分析矛缨。對(duì)于足夠強(qiáng)的偏差,HOMER 會(huì)自動(dòng)追蹤目標(biāo)序列和背景中顯著差異的特征序列帖旨,并通過(guò)調(diào)整背景序列的權(quán)重來(lái)平衡輸入數(shù)據(jù)和背景中短寡聚核酸序列不平衡箕昭。短寡聚核酸序列長(zhǎng)度可以通過(guò)參數(shù)"-nlen <#>"指定。
2. 重頭預(yù)測(cè)Motifs (homer2)
默認(rèn)情況下解阅,HOMER 調(diào)用homer2 進(jìn)行motif 分析落竹;通過(guò)參數(shù)"-homer1" 可以指定老版本工具。
2.1 將輸入序列解析為寡聚核苷酸序列
將輸入序列按照motif 長(zhǎng)度期望值解析為寡聚核苷酸序列货抄,以及創(chuàng)建Oligo 數(shù)據(jù)表述召。Oligo 數(shù)據(jù)表中記錄著每條oligo 在目標(biāo)序列和背景中被發(fā)現(xiàn)的次數(shù)朱转。
2.2 Oligo 自動(dòng)標(biāo)準(zhǔn)化 (可選)
2.3 全局搜索階段
Oligo 表格信息構(gòu)建好之后,HOMER 對(duì)富集的Oligo 進(jìn)行全局搜索桨武。如果一個(gè)Motif是富集的肋拔,那么屬于這個(gè)Motif的Oligo 也應(yīng)該會(huì)富集。首先呀酸,HOMER 會(huì)搜索可能富集的Oligo 凉蜂。HOMER 允許錯(cuò)配 ,使用參數(shù)"-mis <#>" 調(diào)節(jié)允許的錯(cuò)配數(shù)目性誉。
2.3.1 Motif 富集分析
Motif 富集分析使用超幾何分布和二項(xiàng)式分布窿吩。一般情況下,序列較多或者背景序列遠(yuǎn)遠(yuǎn)多于目標(biāo)序列错览,二項(xiàng)式分布計(jì)算比較快纫雁,因此findMotifsGenome.pl默認(rèn)使用二項(xiàng)式分布;當(dāng)自定義背景序列時(shí)倾哺,這時(shí)序列較少轧邪,使用超幾何檢驗(yàn)比較好("-h")。findMotifs.pl用于啟動(dòng)子分析羞海,并且默認(rèn)使用超幾何檢驗(yàn)忌愚。
2.4 矩陣優(yōu)化
2.5 Mask and Repeat
當(dāng)最優(yōu)oligo被優(yōu)化成motif后,motif 對(duì)應(yīng)的序列從要分析的數(shù)據(jù)中移除却邓,接下來(lái)再分析最優(yōu)的.....直到 25(默認(rèn)值硕糊,"-S <#>")個(gè)motifs 被發(fā)現(xiàn)。
3. 計(jì)算已知Motifs是否富集 (homer2)
3.1 導(dǎo)入Motif庫(kù)
為了搜索輸入數(shù)據(jù)中已知Motifs 腊徙,HOMER 可以輸入已知Motifs 數(shù)據(jù)简十,可以時(shí)HOMER 默認(rèn)的 ("data/knownTFs/known.motifs"),也可以是自己構(gòu)建("-mknown <file>") 撬腾。
3.2 篩選每一個(gè)Motif
對(duì)于每個(gè)motif螟蝙,HOMER 計(jì)算豐度(包含motif的序列/background sequences), ZOOPS (zero or one occurence per sequence)計(jì)數(shù)以及使用超幾何檢驗(yàn)或二項(xiàng)式計(jì)算顯著性民傻。
4. Motif 分析結(jié)果
4.1 Motif Files (homer2, findMotifs.pl, findMotifsGenome.pl)
".motif"包含motifs的信息
".motif"文件格式:
>ASTTCCTCTT 1-ASTTCCTCTT 8.059752 -23791.535714 0 T:17311.0(44 ...
0.726 0.002 0.170 0.103
0.002 0.494 0.354 0.151
0.016 0.017 0.014 0.954
0.005 0.006 0.027 0.963
0.002 0.995 0.002 0.002
0.002 0.989 0.008 0.002
0.004 0.311 0.148 0.538
0.002 0.757 0.233 0.009
0.276 0.153 0.030 0.542
0.189 0.214 0.055 0.543
一個(gè)motif 的信息分為一塊胰默。motif 信息首行是motif 各種統(tǒng)計(jì)信息;其他行對(duì)應(yīng)各個(gè)A/C/G/T的占比饰潜。
motif 信息首行解析:
- ">" + 序列 (可能是空白) example: >ASTTCCTCTT
- Motif 名字 example: 1-ASTTCCTCTT or NFkB
- 檢測(cè)閾值對(duì)數(shù)值 example: 8.059752
- 富集P-value對(duì)數(shù)值 example: -23791.535714
- 0 用于老版本格式的占位符
- T:17311.0(44.36%),B:2181.5(5.80%),P:1e-10317
- T:#(%) - 包含motif的目標(biāo)數(shù)據(jù)序列數(shù)除以目標(biāo)數(shù)據(jù)序列總數(shù)
- B:#(%) - 包含motif的背景序列數(shù)除以背景序列總數(shù)
- P:# - 富集 p-value
- Motif statistics separated by commas, example: Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13
- Tpos: average position of motif in target sequences (0 = start of sequences)
- Tstd: standard deviation of position in target sequences
- Bpos: average position of motif in background sequences (0 = start of sequences)
- Bstd: standard deviation of position in background sequences
- StrandBias: log ratio of + strand occurrences to - strand occurrences.
- Multiplicity: The averge number of occurrences per sequence in sequences with 1 or more binding site.
4.2 重頭預(yù)測(cè)的 motif (findMotifs.pl/findMotifsGenome.pl/compareMotifs.pl)
首先會(huì)對(duì)motif進(jìn)行去冗余初坠,將每個(gè)motif 的概率矩陣轉(zhuǎn)換為向量和簸,求motif之間的Pearson 相關(guān)性彭雾。
HTML 結(jié)果:
表格中,Best Match/Details項(xiàng)中:
More Information:與預(yù)測(cè)的motif相似的的已知motifs
Similar Motifs Found:與預(yù)測(cè)的motif相似的的其它預(yù)測(cè)motifs
4.2 已知 motif 的富集情況
參考:
Homer
ChIP-Seq 數(shù)據(jù)挖掘系列文章目錄:
ChIP-Seq數(shù)據(jù)挖掘系列-1:Motif 分析(1)-HOMER 安裝
ChIP-Seq數(shù)據(jù)挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟
ChIP-Seq數(shù)據(jù)挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結(jié)果在基因組區(qū)域中尋找富集的Motifs
ChIP-Seq數(shù)據(jù)挖掘系列-4: liftOver - 基因組坐標(biāo)在不同基因組注釋版本間轉(zhuǎn)換
ChIP-Seq數(shù)據(jù)挖掘系列-5.1: ngs.plot 可視化ChIP-Seq 數(shù)據(jù)
ChIP-Seq數(shù)據(jù)挖掘系列-5.2: ngs.plot 畫圖工具ngs.plot.r 和 replot.r 參數(shù)詳解