哈哈,搜了一圈沒發(fā)現(xiàn)網(wǎng)上有關(guān)于MAnorm的中文教程或者是說明鞋邑,本文將是第一篇~撒花??ヽ(°▽°)ノ?那就要用心寫了巡球,感到鴨梨.jpg==
首先睁搭,MAnorm是什么扳抽,可以做什么呢吹零?
簡(jiǎn)單地說席函,這是一款尋找兩個(gè)ChIP-Seq樣本之間差異peak的軟件炮姨。一般ChIP的流程中窗价,若是單一處理的細(xì)胞系如庭,那么callpeak之后可能會(huì)做binding motif的分析或是peak相關(guān)gene的功能分析等;但若是兩種處理的細(xì)胞系(比如饑餓組和對(duì)照組)撼港,我們肯定想要知道兩種處理下坪它,組蛋白修飾的差異,類似于RNA-Seq中差異表達(dá)基因的分析帝牡,所以這時(shí)就需要進(jìn)行差異分析往毡。MAnorm就可以實(shí)現(xiàn)這樣的分析需要。
一般來說靶溜,上述差異分析不一定要在peaks水平進(jìn)行开瞭,完全可以在reads水平,這個(gè)就叫做“一步法”罩息;而通過先分別callpeak再比較peaks的density或者depth等嗤详,就是所謂的“兩步法”。不同方法有不同類型的軟件可供選擇瓷炮,這就是ChIP分析成熟的地方葱色,不過技術(shù)流大可根據(jù)自己的目的寫腳本進(jìn)行個(gè)性化處理,這個(gè)暫且不表娘香。
那么差異分析軟件如何選擇呢冬筒?根據(jù)組蛋白修飾類型、樣品是否有重復(fù)茅主、是否需要callpeak(即predefined region set)舞痰,下圖一目了然:
我的樣品有寬峰窄峰兩種修飾、無重復(fù)诀姚,項(xiàng)目時(shí)間緊張盡量想用一個(gè)軟件實(shí)現(xiàn)响牛,所以選擇了MAnorm。
MAnorm的原理
話不多說赫段,直接看圖:
概括的說呀打,通過比較兩個(gè)樣品的common peak的density差異,標(biāo)準(zhǔn)化unique peaks糯笙,也就是說贬丛,既然兩個(gè)樣本間common peak強(qiáng)度一致,那么peak內(nèi)的reads差異倍數(shù)就是測(cè)序深度/密度的差異给涕,能夠作為normalization的標(biāo)準(zhǔn)豺憔。直接比較標(biāo)準(zhǔn)化后的peaks额获,避免了不同樣品信噪比不同的問題。
這個(gè)算法基于這樣的假設(shè):兩個(gè)樣本間都有的 peak 或是 banding 位點(diǎn)恭应,相關(guān)蛋白的結(jié)合機(jī)制相同抄邀,故應(yīng)有相同的 binding intensity。
MAnorm的使用
1.安裝
1.1.4版本:
conda/PyPi
需要注意的是昼榛,此版本只支持bed格式且不支持paired-end模式境肾,會(huì)把所有reads當(dāng)成single-end處理。若reads文件想用支持更多的格式(sam/bam/bedpe等)胆屿,請(qǐng)用v1.2.0奥喻。
1.2.0版本:
暫時(shí)只能從Github復(fù)制源碼進(jìn)行安裝。方法:
git clone https://github.com/shao-lab/MAnorm.git
unzip MAnorm-1.2.0.zip
cd MAnorm
pip install . ###注意.不要漏掉非迹!
manorm --version ##檢查一下是否安裝成功衫嵌,成功后將程序軟鏈接至我的bin或添加至環(huán)境變量
2.數(shù)據(jù)準(zhǔn)備
建議首先閱讀使用說明,最好從linux中manorm --help
彻秆,或者在Github中找到相應(yīng)版本的附帶說明楔绞,這一點(diǎn)很重要,因?yàn)橛袝r(shí)網(wǎng)上搜到的說明和你實(shí)際用的版本不一致唇兑,會(huì)走彎路酒朵,不要問我咋知道的。
所以要準(zhǔn)備的文件有4個(gè):
sample1_peaks.bed/sample2_peaks.bed:
默認(rèn)bed扎附,支持MACS2出來的結(jié)果peaks.xls蔫耽,軟件自動(dòng)識(shí)別無需調(diào)整。
sample1_reads.bed/sample2_reads.bed:
默認(rèn)bed留夜,v1.2.0開始支持其他格式(sam/bam)匙铡,需使用參數(shù) -rf
將如上文件移動(dòng)至新文件夾下待用。***tips:這里不再需要對(duì)照組In的文件了
3.運(yùn)行
基本命令(--p1 --p2 --r1 --r2 -o是5個(gè)必需參數(shù)碍粥,注意是兩個(gè)-):
manorm
--p1 sample1_peaks.xls
--p2 sample2_peaks.xls
--pf macs #指定peaks form
--r1 sample1_reads.sam
--r2 sample2_reads.sam
--rf sam #指定reads form
--pe #paired-end模式
-o output_dir #指定輸出文件路徑
建議試運(yùn)行一組數(shù)據(jù)先鳖眼,根據(jù)報(bào)錯(cuò)文件調(diào)整格式。軟件還不太成熟嚼摩,需要多調(diào)整格式钦讳。
4.結(jié)果
運(yùn)行約10min,產(chǎn)生4個(gè)結(jié)果文件:
sample1peaks_vs_sample2peaks_all_MAvalues.xls:這個(gè)是主要的結(jié)果文件枕面,Excel格式愿卒,里面的peak_group有標(biāo)注是common/1unique/2unique的。
output_figures 文件夾:4個(gè)圖潮秘,計(jì)算的Mvalue Avalue(MA)及校正之后的MA琼开,大概就是這個(gè)意思,還需要讀文獻(xiàn)琢磨
output_filters 文件夾:3個(gè)peaks.bed文件枕荞,可能就是條件嚴(yán)格了點(diǎn)之后的結(jié)果柜候,兩個(gè)biased包括的peaks很少搞动,一個(gè)unbiased包括的peaks很多跟all那個(gè)文件差不了多少。
output_tracks 文件夾:3個(gè)wig文件改橘,是M A values的,UCSC可視的文件類型玉控。
綜上飞主,決定用main output file即第一個(gè)結(jié)果,進(jìn)行后面的分析高诺。