MACS2 Call Peak 參數(shù)詳細(xì)學(xué)習(xí)

隨著測(cè)序技術(shù)的進(jìn)步蒸辆,染色質(zhì)免疫沉淀技術(shù)被廣泛用于研究全基因組蛋白-DNA互作。macs 基于一種新的模型可以很好的識(shí)別轉(zhuǎn)錄因子結(jié)合位點(diǎn)油讯。macs 可以直接應(yīng)用于ChIP-Seq 數(shù)據(jù)劲赠,也可以將ChIP-Seq數(shù)據(jù)與control結(jié)合起來提高特異性摄悯。

安裝

pip install MACS2
  • MACS2功能:
    • macs2 callpeak 是macs2最主要的一個(gè)功能,能夠利用bam文件尋找chip peak现恼;
  • macs2 callpeak 使用:
# regular peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
# broad peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1


參數(shù)介紹

  • -T/–TREATMENT FILENAME:treat組
  • -C/–CONTROL:control 或 mock(非特異性抗體肃续,如IgG)組
    • control:
      input DNA,沒有經(jīng)過免疫共沉淀處理叉袍;
    • mock:
      1)未使用抗體富集與蛋白結(jié)合的DNA片段
      2)非特異性抗體始锚,如IgG
  • -N/–NAME:為MACS2輸出文件命名
    ‘NAME_peaks.xls’, ‘NAME_negative_peaks.xls’, ‘NAME_peaks.bed’ , ‘NAME_summits.bed’, ‘NAME_model.r’
  • –OUTDIR:MACS2結(jié)果文件保存路徑
  • -F/–FORMAT FORMAT:MACS2讀入文件格式,"ELAND", "BED", "ELANDMULTI", "ELANDEXPORT", "ELANDMULTIPET" (for pair-end tags), "SAM", "BAM", "BOWTIE", "BAMPE" or "BEDPE";默認(rèn)自動(dòng)檢測(cè)輸入文件格式喳逛,因此可以使用不同格式的文件瞧捌。
  • -G/–GSIZE:有效基因組大小(可比對(duì)基因組大小);基因組中有大量重復(fù)序列測(cè)序測(cè)不到,實(shí)際上可比對(duì)的基因組大小只有原基因組90% 或 70%姐呐;人類默認(rèn)值是– 2.7e9(UCSC human hg18 assembly)
hs: 2.7e9
mm: 1.87e9
ce: 9e7
dm: 1.2e8
  • -S/–TSIZE:測(cè)序讀長(zhǎng)殿怜;如果不設(shè)定彼城,MACS 利用輸入的前10個(gè)序列自動(dòng)檢測(cè)切平;
  • –BW:濕實(shí)驗(yàn)中,聲波打斷基因組的片段長(zhǎng)度宠纯,用來建立模型鸠澈;
    --Q/–QVALUE:qvalue (minimum FDR)設(shè)定call significant regions的閾值柱告;默認(rèn),0.01款侵,對(duì)于 broad marks(組蛋白修飾的chipseq)末荐,可以使用0.05;Q-values are calculated from p-values using Benjamini-Hochberg procedure.
  • -P/–PVALUE:設(shè)定p值時(shí)新锈, qvalue不再起作用甲脏。
  • -M/–MFOLD:構(gòu)建模型時(shí),enrichment regions 選用標(biāo)準(zhǔn)(MFOLD range of high-confidence enrichment ratio against background to build model);DEFAULT:5,50 means using all regions not too low (>5) and not too high (<50) to build paired-peaks model. MACS 無法找到超過100 regions 用來構(gòu)建模型時(shí)妹笆,只有設(shè)定–fix-bimodal情況下块请,MACS 會(huì)調(diào)用參數(shù)–extsize。
  • –NOLAMBDA:不考慮peak 候選區(qū)域的偏差拳缠,使用背景λ作為 localλ墩新。
  • –SLOCAL, –LLOCAL:設(shè)定兩個(gè)水平檢測(cè)peak 區(qū)域,從而計(jì)算最大λ作為local λ窟坐。默認(rèn)海渊,MACS 采用1000bp為small local region(–slocal),10000bps為large local region(–llocal)計(jì)算開放染色體區(qū)域的偏差哲鸳。區(qū)域設(shè)置的太小臣疑,尖峰會(huì)掩蓋掉旁邊顯著性的峰。
  • –NOMODEL:MACS 不構(gòu)建模型徙菠。
  • –EXTSIZE:設(shè)定–nomodel讯沈,MACS 會(huì)沿著 5’->3’方向延伸reads;如果轉(zhuǎn)錄因子結(jié)合區(qū)域長(zhǎng)200bp婿奔,你也不想MACS建模缺狠,你就可以設(shè)定此參數(shù)為200.
  • –SHIFT:–shiftsize已經(jīng)被 –extsize所替代;–nomodel設(shè)定之后萍摊,MACS 會(huì)用這個(gè)參數(shù)剪切reads5’挤茄,利用–extsize 延伸reads 3’端;如果設(shè)為負(fù)數(shù)冰木,方向相反(3’->5’ );ChIP-Seq建議設(shè)置為0驮樊;當(dāng)檢測(cè)富集切割位點(diǎn)時(shí),例如DNAseI-Seq datasets,此參數(shù)應(yīng)該設(shè)為 -1 * half of EXTSIZE( EXTSIZE設(shè)為200囚衔,此參數(shù)為-100).
    兩個(gè)例子:
    DNAse-Seq挖腰,想將平滑窗口設(shè)為200bps時(shí),使用參數(shù)‘–nomodel –shift -100 –extsize 200’练湿。
    nucleosome-seq猴仑,使用核小體一半大小進(jìn)行小波分析獲得核小體中心的峰;當(dāng)纏繞核小體DNA長(zhǎng)度為147bps肥哎,可使用參數(shù)‘–nomodel –shift 37 –extsize 73’辽俗。
  • –KEEP-DUP:默認(rèn)使用pvalue( 1e-5)基于二項(xiàng)式分布計(jì)算每個(gè)位置maximum tags;‘a(chǎn)ll’表示保留所有tags篡诽,如果設(shè)定了一個(gè)整數(shù)崖飘,那就是同一位置保留tags 的最大數(shù)。默認(rèn)值為1杈女,同一位置保留1 tag朱浴。
  • –BROAD:此參數(shù)會(huì)依據(jù)一個(gè)低的閾值(–broad-cutoff)將peaK附近富集區(qū)域歸類到 broad region輸出到BED12 格式文件。broad region最大長(zhǎng)度是MACS計(jì)算的d的4倍达椰。DEFAULT: False
  • –BROAD-CUTOFF:broad region閾值翰蠢;pvalue 設(shè)定就是pvalue ,未設(shè)定就是qvalue;DEFAULT: 0.1啰劲。
  • –TO-LARGE:此參數(shù)設(shè)定后梁沧,線性放大小樣本到大樣本一樣的深度;默認(rèn)是縮小大樣本到小樣本深度蝇裤。
    注意:放大小樣本可能產(chǎn)生更多的假陽(yáng)性廷支。
  • –DOWN-SAMPLE:設(shè)定此參數(shù),使用隨機(jī)抽樣方法縮小大樣本栓辜。隨機(jī)抽樣會(huì)使記過不穩(wěn)定和不可重復(fù)恋拍。
  • -B/–BDG:保留the fragment pileup, control lambda, -log10pvalue 和 -log10qvalue scores到bedGraph 文件。
    NAME+’_treat_pileup.bdg’:實(shí)驗(yàn)組數(shù)據(jù)
    NAME+’_control_lambda.bdg’:對(duì)照組local lambda values
    NAME+’_treat_pvalue.bdg’: Poisson pvalue scores (in -log10(pvalue) form)
    NAME+’_treat_qvalue.bdg’ : q-value scores from Benjamini–Hochberg–Yekutieli procedure
  • –CALL-SUMMITS:重新分析信號(hào)峰啃憎,從而獲得主峰的臨近峰;當(dāng)要檢測(cè)主峰周圍的結(jié)合事件時(shí)似炎,可使用此參數(shù)辛萍;結(jié)果中,同一主峰的臨近峰有一樣的范圍 和不一樣的分?jǐn)?shù)羡藐,位置贩毕。
  • –VERBOSE:隱藏MACS運(yùn)行過程信息,設(shè)置0仆嗦;想了解各條染色體peak信息辉阶,設(shè)置為3或>3的數(shù)。

結(jié)果文件

1.NAME_peaks.xls
存放peak信息的文件

  • 染色體名
  • peak 起始位置
  • peak 終止位置
  • peak 區(qū)域長(zhǎng)度
  • peak summit位置
  • peak summit位置堆積信號(hào)
  • -log10(pvalue)
  • fold enrichment for this peak summit against random Poisson distribution with local lambda
  • -log10(qvalue) at peak summit
  • peak name

2.NAME_peaks.narrowPeak
BED6+4格式,包含peak位置信息谆甜,peak summit, pvalue and qvalue垃僚,可以使用UCSC genome browser查看。其中幾列信息如下:

  • 1th: 染色體名
  • 2th: peak 起始位置
  • 3th: peak 終止位置
  • 4th: peak name
  • 5th: integer score for display, int(-10*log10(pvalue))
  • 7th: fold-change
  • 8th: -log10(pvalue)
  • 9th: -log10qvalue
  • 10th: 峰位與peak起點(diǎn)的距離

3.NAME_summits.bed
BED格式规辱,包含peak summits(peak最高點(diǎn))位置谆棺;如果想尋找結(jié)合位點(diǎn)的motifs ,建議使用此文件罕袋。

  • 5th: -log10pvalue

4.NAME_peaks.broadPeak
ED6+3格式改淑,與narrowPeak類似,除了沒有第10列peak summit的注釋信息浴讯。

5.NAME_peaks.gappedPeak
BED12+3格式朵夏,存放broad region 和 narrow peaks,可以使用UCSC genome browser查看榆纽。

6.NAME_model.r
R程序仰猖,運(yùn)行后生成基于輸入數(shù)據(jù)產(chǎn)生的模型圖片
$ Rscript NAME_model.r

7. .bdg files
bedGraph 文件,可以導(dǎo)入U(xiǎn)CSC genome browser查看掠河,或轉(zhuǎn)格式為bigWig 文件亮元;

  • treat_pileup :實(shí)驗(yàn)組bedGraph 文件
  • control_lambda :對(duì)照組bedGraph 文件

參考:

Project description

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市唠摹,隨后出現(xiàn)的幾起案子爆捞,更是在濱河造成了極大的恐慌,老刑警劉巖勾拉,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件煮甥,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡藕赞,警方通過查閱死者的電腦和手機(jī)成肘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來斧蜕,“玉大人双霍,你說我怎么就攤上這事∨” “怎么了洒闸?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)均芽。 經(jīng)常有香客問我丘逸,道長(zhǎng),這世上最難降的妖魔是什么掀宋? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任深纲,我火速辦了婚禮仲锄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘湃鹊。我一直安慰自己儒喊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布涛舍。 她就那樣靜靜地躺著澄惊,像睡著了一般。 火紅的嫁衣襯著肌膚如雪富雅。 梳的紋絲不亂的頭發(fā)上掸驱,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音没佑,去河邊找鬼毕贼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蛤奢,可吹牛的內(nèi)容都是我干的鬼癣。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼啤贩,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼待秃!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起痹屹,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤章郁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后志衍,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體暖庄,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年楼肪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了培廓。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡春叫,死狀恐怖肩钠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情暂殖,我是刑警寧澤价匠,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站央星,受9級(jí)特大地震影響霞怀,放射性物質(zhì)發(fā)生泄漏惫东。R本人自食惡果不足惜莉给,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一毙石、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧颓遏,春花似錦徐矩、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至曼玩,卻和暖如春鳞骤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背黍判。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工豫尽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人顷帖。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓美旧,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親贬墩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子榴嗅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345