表觀組學(xué):call peak概念和MACS2算法原理褪那,最簡明清晰的call peak一文通

在諸如:ChIP-seq幽纷、ATAC-seq、MeRIP-seq(m6A)博敬、Cut&Tag中我們常常聽到一個(gè)詞Call Peak霹崎。Call Peak究竟是什么東西,得到的結(jié)果又有什么生物學(xué)意義呢冶忱?

概念

Call Peak其實(shí)是一種計(jì)算方法尾菇,用于識(shí)別基因組中由測序得到的比對reads富集的區(qū)域。
其實(shí)通俗的來說Call peak就是把我們有蛋白富集到核酸時(shí)的區(qū)域給找出來囚枪。

  • 對于ChIPseq/Cut&Tag來說我們這個(gè)區(qū)域就是我們的轉(zhuǎn)錄因子所可以和DNA互作的區(qū)域派诬;
  • 對于ATAC-seq來說這個(gè)就是特定條件下的開放染色質(zhì)的區(qū)域;
  • 對于m6A測序來說就是發(fā)生m6A甲基化修飾的RNA區(qū)域链沼。

方法

為了找個(gè)蛋白結(jié)合核酸的區(qū)域默赂,我們需要進(jìn)行計(jì)算,因?yàn)槠鋵?shí)在通過測序我們得到的只不過是蛋白結(jié)合核酸片段的末端括勺,而非蛋白真正的結(jié)合區(qū)域缆八。所以就需要在得到的reads進(jìn)行延伸,如下圖:


image.png

理想情況下疾捍,我們認(rèn)為測得的reads最終其實(shí)會(huì)近似地平均分配到正負(fù)鏈上奈辰,這樣,對于一個(gè)結(jié)合熱點(diǎn)而言乱豆,reads在附近正負(fù)鏈上會(huì)近似地形成“雙峰”奖恰,我們偏移后就可以得到真正的結(jié)合區(qū)域了。

常用軟件

常用的Call Peak軟件很多宛裕,但總體上根據(jù)它們的推測peak的方法總體上可以分為3類:
1.基于馬爾科夫模型:HMMRATAC瑟啃;
2.基于count:MACS2、HOMER揩尸、F-seq等蛹屿;
3.基于峰形狀:PICS、PolyaPeak岩榆、CLC等错负。


image.png

不同的peak caller軟件有各自適用的范圍,但是理論上這些軟件都可以去做蛋白-核酸的call peak朗恳,對于各個(gè)軟件最適合的使用場景如下圖:


0247f4b348c2e2b0c45b6169eb709f0.png

MACS2原理

MACS2是最常用的call peaks工具湿颅,是ENCODE的ChIP-seq和ATAC-seq流程采用的工具载绿。 MACS全稱Model-based Analysis of ChIP-Seq粥诫,該工具是大名鼎鼎的Liu tao大神開發(fā)。最初的設(shè)計(jì)是用來鑒定轉(zhuǎn)錄因子的結(jié)合位點(diǎn)崭庸,但是理論上它也可以用于其他的DNA-蛋白結(jié)合類型的富集方式測序分析怀浆。

軟件的計(jì)算流程如下:


image.png
  1. 去重:首先軟件會(huì)對數(shù)據(jù)進(jìn)行去重處理谊囚;
  2. 建模:前面在圖1中,我們談到了reads在附近正負(fù)鏈上會(huì)近似地形成“雙峰”执赡,這個(gè)雙峰之間的距離稱之為d镰踏,軟件需要進(jìn)行延伸需要知道這個(gè)d值。所以MACS2選取了1000個(gè)表達(dá)10~30倍的regions去建模以計(jì)算這個(gè)d值沙合。
  3. 延伸:得到了d之后奠伪,向3'端延伸就可以去進(jìn)行延伸,延伸長度為d/2首懈;
  4. 歸一化:把兩組數(shù)據(jù)進(jìn)行歸一化绊率,各組數(shù)據(jù)可比;
  5. 獲得候選的peak和背景進(jìn)行比較究履;
  6. 計(jì)算確定λ滤否,代入泊松分布,得到p值最仑;

    補(bǔ)充知識(shí):
    (1)假設(shè)TF在基因組上的分布是沒有任何規(guī)律藐俺,測序得到的read在基因組上的分布也必然是隨機(jī)的,某個(gè)堿基上覆蓋的read的數(shù)目應(yīng)該服從二項(xiàng)分布泥彤。當(dāng)n很大欲芹,p很小時(shí),二項(xiàng)分布可以近似用泊松分布替代吟吝。
    (2)在MACS2中耀石,它并不是使用一個(gè)固定的λ值,而是采用了一個(gè)動(dòng)態(tài)規(guī)劃的思路爸黄,服從λlocal = max(λBG, λ1k, λ5k, λ10k)滞伟,泊松分布的公式和模型如下圖:


    image.png

    image.png

    λ是滑動(dòng)窗口的期望值, n是測序得到的read總數(shù)目炕贵, l是單個(gè)read的長度梆奈,s是基因組的大小

從上述的公式中我們可以看到,n称开、l亩钟、s都是確定的,所以只需要確定了λ我們就可以得到P值鳖轰。如果只是隨機(jī)分布的片段他們會(huì)落在上述密度分布圖封頂?shù)膬啥饲逅郑瑑蛇叺母怕适菢O小的,MACS2使用了單邊檢驗(yàn)蕴侣,當(dāng)落在右邊的P達(dá)到了閾值時(shí)候焰轻,我們就認(rèn)為這個(gè)是我們要找的peak了。

  1. 計(jì)算FDR:當(dāng)有對照組存在時(shí)候昆雀,就可以得到兩個(gè)P辱志,F(xiàn)DR=P(對照組)/P(實(shí)驗(yàn)組)

實(shí)操

其實(shí)MACS2已經(jīng)更新到了MACS3了蝠筑,簡單介紹下使用方法:

尋找ChIP-seq的轉(zhuǎn)錄因子(TF)的命令:
macs3 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01

尋找ChIP-seq的組蛋白(Histone )Mark的命令:

macs3 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1

對于ATAC-seq雙端數(shù)據(jù)的操作:

macs3 callpeak -f BAMPE -t ATAC.bam -g hs -n test -B -q 0.01

-f是輸入文件的格式,可以是BAM揩懒、BED什乙,軟件可以自動(dòng)識(shí)別,但是需要注意自動(dòng)識(shí)別是無法區(qū)分是PE還是SE已球,所以建議手動(dòng)指定臣镣;
-g是有效基因組大小,軟件預(yù)設(shè)了模式物種的有效因組大小智亮,如果hs人退疫,mm小鼠;
-n是樣本名字鸽素;
-B是以bedGraph格式存放fragment pileup, control lambda, -log10pvalue 和log10qvale,使用會(huì)增長耗時(shí)褒繁;
-q就是用q值(FDR)進(jìn)行篩選,輸入得到值為閾值馍忽;
broad-cutoff用于過濾 broad得到的peak棒坏。

最后:如果想了解更多和生信或者精品咖啡有關(guān)的內(nèi)容歡迎關(guān)注我的微信公眾號(hào):生信咖啡,更多精彩等你發(fā)現(xiàn)遭笋!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末坝冕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子瓦呼,更是在濱河造成了極大的恐慌喂窟,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件央串,死亡現(xiàn)場離奇詭異磨澡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)质和,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門稳摄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人饲宿,你說我怎么就攤上這事厦酬。” “怎么了瘫想?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵仗阅,是天一觀的道長。 經(jīng)常有香客問我国夜,道長减噪,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮旋廷,結(jié)果婚禮上鸠按,老公的妹妹穿的比我還像新娘礼搁。我一直安慰自己饶碘,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布馒吴。 她就那樣靜靜地躺著扎运,像睡著了一般。 火紅的嫁衣襯著肌膚如雪饮戳。 梳的紋絲不亂的頭發(fā)上豪治,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機(jī)與錄音扯罐,去河邊找鬼负拟。 笑死,一個(gè)胖子當(dāng)著我的面吹牛歹河,可吹牛的內(nèi)容都是我干的掩浙。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼秸歧,長吁一口氣:“原來是場噩夢啊……” “哼厨姚!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起键菱,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤谬墙,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后经备,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拭抬,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年侵蒙,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了玖喘。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蘑志,死狀恐怖累奈,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情急但,我是刑警寧澤澎媒,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站波桩,受9級(jí)特大地震影響戒努,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一储玫、第九天 我趴在偏房一處隱蔽的房頂上張望侍筛。 院中可真熱鬧,春花似錦撒穷、人聲如沸匣椰。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽禽笑。三九已至,卻和暖如春蛤奥,著一層夾襖步出監(jiān)牢的瞬間佳镜,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工凡桥, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蟀伸,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓缅刽,卻偏偏與公主長得像啊掏,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子拷恨,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容