ChIP-Seq數(shù)據(jù)挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟

HOMER

在基因組調(diào)控元件分析中,HOMER 可以用于發(fā)現(xiàn)新的motif址遇。HOMER 通過(guò)比較兩個(gè)序列集,再使用ZOOPS scoring (zero or one occurrence per sequence)和超幾何檢驗(yàn)進(jìn)行富集分析。HOMER主要被用于 ChIP-Seq 和 promoter 分析摹芙,但是核酸序列motif尋找問(wèn)題都可以嘗試使用HOMER日月。

HOMER預(yù)測(cè)Motif 需要的兩個(gè)序列集

  1. 感興趣的目標(biāo)序列袱瓮。例如Chipseq實(shí)驗(yàn)發(fā)現(xiàn)的peaks。
  2. 背景序列集爱咬。HOMER 分析結(jié)果也會(huì)根據(jù)背景基因集的選擇不同而變化尺借。

HOMER 分析基本步驟:
1. 預(yù)處理
1.1 提取序列 (findMotifs.pl/findMotifsGenome.pl)
提供的數(shù)據(jù)是基因組位置信息,就需要提取對(duì)應(yīng)的DNA信息台颠;提供基因號(hào)時(shí)褐望,需要選擇啟動(dòng)子區(qū)域。

1.2 背景選擇 (findMotifs.pl/findMotifsGenome.pl)
未指定背景序列時(shí)串前,HOMER 會(huì)自動(dòng)選擇瘫里。
對(duì)基因組某些區(qū)域進(jìn)行分析時(shí),從基因組隨機(jī)選擇GC含量一致的序列作為背景序列荡碾。
對(duì)啟動(dòng)子進(jìn)行分析時(shí)谨读,除用來(lái)分析外的所有啟動(dòng)子將被作為背景。
自定義背景使用參數(shù)"-bg <file>"坛吁。

1.3 GC 標(biāo)準(zhǔn)化 (findMotifs.pl/findMotifsGenome.pl)
目標(biāo)序列和背景序列會(huì)基于GC含量按5%作為bin 查看GC含量的分布劳殖。背景序列會(huì)得到權(quán)值,從而使得其GC含量分布與目標(biāo)序列一致拨脉。
ChIP-Seq 實(shí)驗(yàn)得到序列GC含量哆姻。

GC bins HOMER

1.4 自動(dòng)標(biāo)準(zhǔn)化 (New with v3.0, homer2/findMotifs.pl/findMotifsGenome.pl)
需要分析的序列除了GC含量會(huì)帶來(lái)誤差,其他的生物學(xué)現(xiàn)象玫膀,外顯子中密碼子偏好性或測(cè)序?qū)嶒?yàn)中偏好性都會(huì)影響分析矛缨。對(duì)于足夠強(qiáng)的偏差,HOMER 會(huì)自動(dòng)追蹤目標(biāo)序列和背景中顯著差異的特征序列帖旨,并通過(guò)調(diào)整背景序列的權(quán)重來(lái)平衡輸入數(shù)據(jù)和背景中短寡聚核酸序列不平衡箕昭。短寡聚核酸序列長(zhǎng)度可以通過(guò)參數(shù)"-nlen <#>"指定。

autonormalization example

2. 重頭預(yù)測(cè)Motifs (homer2)
默認(rèn)情況下解阅,HOMER 調(diào)用homer2 進(jìn)行motif 分析落竹;通過(guò)參數(shù)"-homer1" 可以指定老版本工具。

2.1 將輸入序列解析為寡聚核苷酸序列
將輸入序列按照motif 長(zhǎng)度期望值解析為寡聚核苷酸序列货抄,以及創(chuàng)建Oligo 數(shù)據(jù)表述召。Oligo 數(shù)據(jù)表中記錄著每條oligo 在目標(biāo)序列和背景中被發(fā)現(xiàn)的次數(shù)朱转。

2.2 Oligo 自動(dòng)標(biāo)準(zhǔn)化 (可選)
2.3 全局搜索階段
Oligo 表格信息構(gòu)建好之后,HOMER 對(duì)富集的Oligo 進(jìn)行全局搜索桨武。如果一個(gè)Motif是富集的肋拔,那么屬于這個(gè)Motif的Oligo 也應(yīng)該會(huì)富集。首先呀酸,HOMER 會(huì)搜索可能富集的Oligo 凉蜂。HOMER 允許錯(cuò)配 ,使用參數(shù)"-mis <#>" 調(diào)節(jié)允許的錯(cuò)配數(shù)目性誉。

2.3.1 Motif 富集分析
Motif 富集分析使用超幾何分布和二項(xiàng)式分布窿吩。一般情況下,序列較多或者背景序列遠(yuǎn)遠(yuǎn)多于目標(biāo)序列错览,二項(xiàng)式分布計(jì)算比較快纫雁,因此findMotifsGenome.pl默認(rèn)使用二項(xiàng)式分布;當(dāng)自定義背景序列時(shí)倾哺,這時(shí)序列較少轧邪,使用超幾何檢驗(yàn)比較好("-h")。findMotifs.pl用于啟動(dòng)子分析羞海,并且默認(rèn)使用超幾何檢驗(yàn)忌愚。

2.4 矩陣優(yōu)化
2.5 Mask and Repeat
當(dāng)最優(yōu)oligo被優(yōu)化成motif后,motif 對(duì)應(yīng)的序列從要分析的數(shù)據(jù)中移除却邓,接下來(lái)再分析最優(yōu)的.....直到 25(默認(rèn)值硕糊,"-S <#>")個(gè)motifs 被發(fā)現(xiàn)。

3. 計(jì)算已知Motifs是否富集 (homer2)
3.1 導(dǎo)入Motif庫(kù)
為了搜索輸入數(shù)據(jù)中已知Motifs 腊徙,HOMER 可以輸入已知Motifs 數(shù)據(jù)简十,可以時(shí)HOMER 默認(rèn)的 ("data/knownTFs/known.motifs"),也可以是自己構(gòu)建("-mknown <file>") 撬腾。

3.2 篩選每一個(gè)Motif
對(duì)于每個(gè)motif螟蝙,HOMER 計(jì)算豐度(包含motif的序列/background sequences), ZOOPS (zero or one occurence per sequence)計(jì)數(shù)以及使用超幾何檢驗(yàn)或二項(xiàng)式計(jì)算顯著性民傻。

4. Motif 分析結(jié)果
4.1 Motif Files (homer2, findMotifs.pl, findMotifsGenome.pl)
".motif"包含motifs的信息
"
.motif"文件格式:

>ASTTCCTCTT     1-ASTTCCTCTT    8.059752        -23791.535714   0       T:17311.0(44 ...
0.726   0.002   0.170   0.103
0.002   0.494   0.354   0.151
0.016   0.017   0.014   0.954
0.005   0.006   0.027   0.963
0.002   0.995   0.002   0.002
0.002   0.989   0.008   0.002
0.004   0.311   0.148   0.538
0.002   0.757   0.233   0.009
0.276   0.153   0.030   0.542
0.189   0.214   0.055   0.543

一個(gè)motif 的信息分為一塊胰默。motif 信息首行是motif 各種統(tǒng)計(jì)信息;其他行對(duì)應(yīng)各個(gè)A/C/G/T的占比饰潜。
motif 信息首行解析:

  1. ">" + 序列 (可能是空白) example: >ASTTCCTCTT
  2. Motif 名字 example: 1-ASTTCCTCTT or NFkB
  3. 檢測(cè)閾值對(duì)數(shù)值 example: 8.059752
  4. 富集P-value對(duì)數(shù)值 example: -23791.535714
  5. 0 用于老版本格式的占位符
  6. T:17311.0(44.36%),B:2181.5(5.80%),P:1e-10317
    1. T:#(%) - 包含motif的目標(biāo)數(shù)據(jù)序列數(shù)除以目標(biāo)數(shù)據(jù)序列總數(shù)
    2. B:#(%) - 包含motif的背景序列數(shù)除以背景序列總數(shù)
    3. P:# - 富集 p-value
  7. Motif statistics separated by commas, example: Tpos:100.7,Tstd:32.6,Bpos:100.1,Bstd:64.6,StrandBias:0.0,Multiplicity:1.13
    1. Tpos: average position of motif in target sequences (0 = start of sequences)
    2. Tstd: standard deviation of position in target sequences
    3. Bpos: average position of motif in background sequences (0 = start of sequences)
    4. Bstd: standard deviation of position in background sequences
    5. StrandBias: log ratio of + strand occurrences to - strand occurrences.
    6. Multiplicity: The averge number of occurrences per sequence in sequences with 1 or more binding site.

4.2 重頭預(yù)測(cè)的 motif (findMotifs.pl/findMotifsGenome.pl/compareMotifs.pl)
首先會(huì)對(duì)motif進(jìn)行去冗余初坠,將每個(gè)motif 的概率矩陣轉(zhuǎn)換為向量和簸,求motif之間的Pearson 相關(guān)性彭雾。
HTML 結(jié)果:

motifs.denovoOutput.png

表格中,Best Match/Details項(xiàng)中:
More Information:與預(yù)測(cè)的motif相似的的已知motifs
Similar Motifs Found:與預(yù)測(cè)的motif相似的的其它預(yù)測(cè)motifs

4.2 已知 motif 的富集情況

motifs.known.png

參考:
Homer



ChIP-Seq 數(shù)據(jù)挖掘系列文章目錄:
ChIP-Seq數(shù)據(jù)挖掘系列-1:Motif 分析(1)-HOMER 安裝
ChIP-Seq數(shù)據(jù)挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟
ChIP-Seq數(shù)據(jù)挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結(jié)果在基因組區(qū)域中尋找富集的Motifs
ChIP-Seq數(shù)據(jù)挖掘系列-4: liftOver - 基因組坐標(biāo)在不同基因組注釋版本間轉(zhuǎn)換
ChIP-Seq數(shù)據(jù)挖掘系列-5.1: ngs.plot 可視化ChIP-Seq 數(shù)據(jù)
ChIP-Seq數(shù)據(jù)挖掘系列-5.2: ngs.plot 畫圖工具ngs.plot.r 和 replot.r 參數(shù)詳解

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末锁保,一起剝皮案震驚了整個(gè)濱河市薯酝,隨后出現(xiàn)的幾起案子半沽,更是在濱河造成了極大的恐慌,老刑警劉巖吴菠,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件者填,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡做葵,警方通過(guò)查閱死者的電腦和手機(jī)占哟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)酿矢,“玉大人榨乎,你說(shuō)我怎么就攤上這事√笨穑” “怎么了蜜暑?”我有些...
    開(kāi)封第一講書人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)策肝。 經(jīng)常有香客問(wèn)我肛捍,道長(zhǎng),這世上最難降的妖魔是什么之众? 我笑而不...
    開(kāi)封第一講書人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任拙毫,我火速辦了婚禮,結(jié)果婚禮上酝枢,老公的妹妹穿的比我還像新娘恬偷。我一直安慰自己,他們只是感情好帘睦,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布袍患。 她就那樣靜靜地躺著,像睡著了一般竣付。 火紅的嫁衣襯著肌膚如雪诡延。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 51,115評(píng)論 1 296
  • 那天古胆,我揣著相機(jī)與錄音肆良,去河邊找鬼。 笑死逸绎,一個(gè)胖子當(dāng)著我的面吹牛惹恃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播棺牧,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼巫糙,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了颊乘?” 一聲冷哼從身側(cè)響起参淹,我...
    開(kāi)封第一講書人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤醉锄,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后浙值,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體恳不,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年开呐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了烟勋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡筐付,死狀恐怖神妹,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情家妆,我是刑警寧澤鸵荠,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站伤极,受9級(jí)特大地震影響蛹找,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜哨坪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一庸疾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧当编,春花似錦届慈、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至鲤桥,卻和暖如春揍拆,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背茶凳。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工嫂拴, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人贮喧。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓筒狠,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親箱沦。 傳聞我的和親對(duì)象是個(gè)殘疾皇子辩恼,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容