隨著測(cè)序技術(shù)的進(jìn)步蒸辆,染色質(zhì)免疫沉淀技術(shù)被廣泛用于研究全基因組蛋白-DNA互作。macs 基于一種新的模型可以很好的識(shí)別轉(zhuǎn)錄因子結(jié)合位點(diǎn)油讯。macs 可以直接應(yīng)用于ChIP-Seq 數(shù)據(jù)劲赠,也可以將ChIP-Seq數(shù)據(jù)與control結(jié)合起來提高特異性摄悯。
安裝
pip install MACS2
- MACS2功能:
- macs2 callpeak 是macs2最主要的一個(gè)功能,能夠利用bam文件尋找chip peak现恼;
- macs2 callpeak 使用:
# regular peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam -f BAM -g hs -n test -B -q 0.01
# broad peak calling:
macs2 callpeak -t ChIP.bam -c Control.bam --broad -g hs --broad-cutoff 0.1
參數(shù)介紹
-
-T/–TREATMENT FILENAME
:treat組 -
-C/–CONTROL
:control 或 mock(非特異性抗體肃续,如IgG)組-
control:
input DNA,沒有經(jīng)過免疫共沉淀處理叉袍; -
mock:
1)未使用抗體富集與蛋白結(jié)合的DNA片段
2)非特異性抗體始锚,如IgG
-
control:
-
-N/–NAME
:為MACS2輸出文件命名
‘NAME_peaks.xls’, ‘NAME_negative_peaks.xls’, ‘NAME_peaks.bed’ , ‘NAME_summits.bed’, ‘NAME_model.r’ -
–OUTDIR
:MACS2結(jié)果文件保存路徑 -
-F/–FORMAT FORMAT
:MACS2讀入文件格式,"ELAND", "BED", "ELANDMULTI", "ELANDEXPORT", "ELANDMULTIPET" (for pair-end tags), "SAM", "BAM", "BOWTIE", "BAMPE" or "BEDPE";默認(rèn)自動(dòng)檢測(cè)輸入文件格式喳逛,因此可以使用不同格式的文件瞧捌。 -
-G/–GSIZE
:有效基因組大小(可比對(duì)基因組大小);基因組中有大量重復(fù)序列測(cè)序測(cè)不到,實(shí)際上可比對(duì)的基因組大小只有原基因組90% 或 70%姐呐;人類默認(rèn)值是– 2.7e9(UCSC human hg18 assembly)
hs: | 2.7e9 |
---|---|
mm: | 1.87e9 |
ce: | 9e7 |
dm: | 1.2e8 |
-
-S/–TSIZE
:測(cè)序讀長(zhǎng)殿怜;如果不設(shè)定彼城,MACS 利用輸入的前10個(gè)序列自動(dòng)檢測(cè)切平; -
–BW
:濕實(shí)驗(yàn)中,聲波打斷基因組的片段長(zhǎng)度宠纯,用來建立模型鸠澈;
--Q/–QVALUE
:qvalue (minimum FDR)設(shè)定call significant regions的閾值柱告;默認(rèn),0.01款侵,對(duì)于 broad marks(組蛋白修飾的chipseq)末荐,可以使用0.05;Q-values are calculated from p-values using Benjamini-Hochberg procedure. -
-P/–PVALUE
:設(shè)定p值時(shí)新锈, qvalue不再起作用甲脏。 -
-M/–MFOLD
:構(gòu)建模型時(shí),enrichment regions 選用標(biāo)準(zhǔn)(MFOLD range of high-confidence enrichment ratio against background to build model);DEFAULT:5,50 means using all regions not too low (>5) and not too high (<50) to build paired-peaks model. MACS 無法找到超過100 regions 用來構(gòu)建模型時(shí)妹笆,只有設(shè)定–fix-bimodal情況下块请,MACS 會(huì)調(diào)用參數(shù)–extsize。 -
–NOLAMBDA
:不考慮peak 候選區(qū)域的偏差拳缠,使用背景λ作為 localλ墩新。 -
–SLOCAL, –LLOCAL
:設(shè)定兩個(gè)水平檢測(cè)peak 區(qū)域,從而計(jì)算最大λ作為local λ窟坐。默認(rèn)海渊,MACS 采用1000bp為small local region(–slocal),10000bps為large local region(–llocal)計(jì)算開放染色體區(qū)域的偏差哲鸳。區(qū)域設(shè)置的太小臣疑,尖峰會(huì)掩蓋掉旁邊顯著性的峰。 -
–NOMODEL
:MACS 不構(gòu)建模型徙菠。 -
–EXTSIZE
:設(shè)定–nomodel讯沈,MACS 會(huì)沿著 5’->3’方向延伸reads;如果轉(zhuǎn)錄因子結(jié)合區(qū)域長(zhǎng)200bp婿奔,你也不想MACS建模缺狠,你就可以設(shè)定此參數(shù)為200. -
–SHIFT
:–shiftsize已經(jīng)被 –extsize所替代;–nomodel設(shè)定之后萍摊,MACS 會(huì)用這個(gè)參數(shù)剪切reads5’挤茄,利用–extsize 延伸reads 3’端;如果設(shè)為負(fù)數(shù)冰木,方向相反(3’->5’ );ChIP-Seq建議設(shè)置為0驮樊;當(dāng)檢測(cè)富集切割位點(diǎn)時(shí),例如DNAseI-Seq datasets,此參數(shù)應(yīng)該設(shè)為 -1 * half of EXTSIZE( EXTSIZE設(shè)為200囚衔,此參數(shù)為-100).
兩個(gè)例子:
DNAse-Seq挖腰,想將平滑窗口設(shè)為200bps時(shí),使用參數(shù)‘–nomodel –shift -100 –extsize 200’练湿。
nucleosome-seq猴仑,使用核小體一半大小進(jìn)行小波分析獲得核小體中心的峰;當(dāng)纏繞核小體DNA長(zhǎng)度為147bps肥哎,可使用參數(shù)‘–nomodel –shift 37 –extsize 73’辽俗。 -
–KEEP-DUP
:默認(rèn)使用pvalue( 1e-5)基于二項(xiàng)式分布計(jì)算每個(gè)位置maximum tags;‘a(chǎn)ll’表示保留所有tags篡诽,如果設(shè)定了一個(gè)整數(shù)崖飘,那就是同一位置保留tags 的最大數(shù)。默認(rèn)值為1杈女,同一位置保留1 tag朱浴。 -
–BROAD
:此參數(shù)會(huì)依據(jù)一個(gè)低的閾值(–broad-cutoff)將peaK附近富集區(qū)域歸類到 broad region輸出到BED12 格式文件。broad region最大長(zhǎng)度是MACS計(jì)算的d的4倍达椰。DEFAULT: False -
–BROAD-CUTOFF
:broad region閾值翰蠢;pvalue 設(shè)定就是pvalue ,未設(shè)定就是qvalue;DEFAULT: 0.1啰劲。 -
–TO-LARGE
:此參數(shù)設(shè)定后梁沧,線性放大小樣本到大樣本一樣的深度;默認(rèn)是縮小大樣本到小樣本深度蝇裤。
注意:放大小樣本可能產(chǎn)生更多的假陽(yáng)性廷支。 -
–DOWN-SAMPLE
:設(shè)定此參數(shù),使用隨機(jī)抽樣方法縮小大樣本栓辜。隨機(jī)抽樣會(huì)使記過不穩(wěn)定和不可重復(fù)恋拍。 -
-B/–BDG
:保留the fragment pileup, control lambda, -log10pvalue 和 -log10qvalue scores到bedGraph 文件。
NAME+’_treat_pileup.bdg’:實(shí)驗(yàn)組數(shù)據(jù)
NAME+’_control_lambda.bdg’:對(duì)照組local lambda values
NAME+’_treat_pvalue.bdg’: Poisson pvalue scores (in -log10(pvalue) form)
NAME+’_treat_qvalue.bdg’ : q-value scores from Benjamini–Hochberg–Yekutieli procedure -
–CALL-SUMMITS
:重新分析信號(hào)峰啃憎,從而獲得主峰的臨近峰;當(dāng)要檢測(cè)主峰周圍的結(jié)合事件時(shí)似炎,可使用此參數(shù)辛萍;結(jié)果中,同一主峰的臨近峰有一樣的范圍 和不一樣的分?jǐn)?shù)羡藐,位置贩毕。 -
–VERBOSE
:隱藏MACS運(yùn)行過程信息,設(shè)置0仆嗦;想了解各條染色體peak信息辉阶,設(shè)置為3或>3的數(shù)。
結(jié)果文件
1.NAME_peaks.xls
存放peak信息的文件
- 染色體名
- peak 起始位置
- peak 終止位置
- peak 區(qū)域長(zhǎng)度
- peak summit位置
- peak summit位置堆積信號(hào)
- -log10(pvalue)
- fold enrichment for this peak summit against random Poisson distribution with local lambda
- -log10(qvalue) at peak summit
- peak name
2.NAME_peaks.narrowPeak
BED6+4格式,包含peak位置信息谆甜,peak summit, pvalue and qvalue垃僚,可以使用UCSC genome browser查看。其中幾列信息如下:
- 1th: 染色體名
- 2th: peak 起始位置
- 3th: peak 終止位置
- 4th: peak name
- 5th: integer score for display,
int(-10*log10(pvalue))
- 7th: fold-change
- 8th: -log10(pvalue)
- 9th: -log10qvalue
- 10th: 峰位與peak起點(diǎn)的距離
3.NAME_summits.bed
BED格式规辱,包含peak summits(peak最高點(diǎn))位置谆棺;如果想尋找結(jié)合位點(diǎn)的motifs ,建議使用此文件罕袋。
- 5th: -log10pvalue
4.NAME_peaks.broadPeak
ED6+3格式改淑,與narrowPeak類似,除了沒有第10列peak summit的注釋信息浴讯。
5.NAME_peaks.gappedPeak
BED12+3格式朵夏,存放broad region 和 narrow peaks,可以使用UCSC genome browser查看榆纽。
6.NAME_model.r
R程序仰猖,運(yùn)行后生成基于輸入數(shù)據(jù)產(chǎn)生的模型圖片
$ Rscript NAME_model.r
7. .bdg files
bedGraph 文件,可以導(dǎo)入U(xiǎn)CSC genome browser查看掠河,或轉(zhuǎn)格式為bigWig 文件亮元;
- treat_pileup :實(shí)驗(yàn)組bedGraph 文件
- control_lambda :對(duì)照組bedGraph 文件