ChIP-seq分析的一般流程方法

現(xiàn)在ChIP-seq的數(shù)據(jù)基本是最常見的測序數(shù)據(jù)類型之一活合,主要有Transcription factor ChIP-seq和Histone ChIP-seq作谭。前者是看轉(zhuǎn)錄因子的結(jié)合位置橱乱,后者是組蛋白修飾發(fā)生的位置。下面分享一下一般流程我抠。


ChIP-seq
  1. 質(zhì)控 (quality control)

首先要看一下ChIP-seq數(shù)據(jù)的質(zhì)量拙已,數(shù)據(jù)的信號最好比background要強(qiáng)很很多决记。一般要有control,這樣call peaks更準(zhǔn)確可信倍踪, control主要有Input DNA 和 IgG兩種系宫,前一種更常用。

檢測質(zhì)量的一些方式:
1). peaks中reads的數(shù)量建车,如果peaks的reads普遍較少扩借,則質(zhì)量一般。
2). peaks信號高癞志,背景低往枷。
3). 測序深度深 框产。
4). Diverse library (與重復(fù)duplications有關(guān)凄杯,如下圖)


library

4). 有重復(fù)并且與重復(fù)之間相似性較高…
……

做質(zhì)控的軟件方法:
1). ChIPQC (T Carroll, Front Genet, 2014.)
2). SPP package - Unix/Linux (PV Karchenko, Nature Biotechnol, 2008.)
3). ENCODE中的標(biāo)準(zhǔn)流程

  1. 序列比對 (mapping of fastq)

序列比對一般用BWA或者Bowtie2,兩者效果差不多秉宿。BWA的bwa samse(單端數(shù)據(jù))和bwa sampe (雙端數(shù)據(jù)) 跑的速度比較慢戒突,但是效果很不錯(cuò),用法如下:

bwa index reference.fa   # 建立索引 -p可設(shè)置前綴描睦,不設(shè)置前綴就是reference.fa膊存。

# 單端數(shù)據(jù)
bwa aln -t 8 reference.fa  test.fq.gz > test.sai
bwa samse -n 10 reference.fa  test.sai test.fq.gz > test_se.sam 

# 雙端數(shù)據(jù):
bwa aln reference.fa test_reads1.fq > test1.sai
bwa aln reference.fa test_reads2.fq > test2.sai
bwa sampe reference.fa test1.sai test2.sai test_reads1.fq test_reads2.fq >  test_pe.sam

BWA的mem,速度很快:

bwa mem reference.fa reads.fq > test_se.sam # 單端
bwa mem reference.fa read1.fq read2.fq > test_pe.sam # 雙端

bowtie2的用法:

bowtie2-build reference.fa index # 創(chuàng)建index

bowtie2  -p 8 -x index -U test_read.fq -S test_se.sam # 單端比對
bowtie2  -p 8 -x index -1 test_read1.fq -2 test_read2.fq -S test_pe.sam # 雙端比對

效果個(gè)人感覺差不多。

  1. 去除重復(fù) (remove duplicates)

由于PCR實(shí)驗(yàn)存在不可避免的實(shí)驗(yàn)誤差隔崎,所以會存在重復(fù) (duplicates)今艺。比如兩條不同的reads,起止位置完全一致爵卒。比如:


example_dup

其中第二條已經(jīng)被picard標(biāo)注出來了虚缎。被標(biāo)注的第二列flag會加1024。

去重的軟件中samtools rmdup (基本已不用)钓株,samtools markdup(更新后的)和picard最常用实牡。rmdup效果不怎么好,而且如果有遇到相同位置的reads轴合, 會優(yōu)先選擇質(zhì)量高的那一條read创坞。picard與samtools markdup效果相似(仿佛調(diào)用的同一個(gè)?并不確定)受葛。都可以標(biāo)記重復(fù)题涨,也可以選擇直接去掉。以下是用法:

samtools markdup -@ 8 -r test.bam filter_test.bam # -r是直接去掉重復(fù)总滩,不加是直接標(biāo)記

picard去重有三種方式可選携栋,在DUPLICATE_SCORING_STRATEGY參數(shù)中,分別是SUM_OF_BASE_QUALITIES, TOTAL_MAPPED_REFERENCE_LENGTH和RANDOM咳秉。即當(dāng)有重復(fù)時(shí)分別選擇留下總堿基質(zhì)量最高的婉支、匹配上參考基因組最長的和隨機(jī)。

picard MarkDuplicates I=test.bam  O= filter_test.bam M=dup_metrics.txt REMOVE_DUPLICATES=true

在call peak之前需要去除blacklisted regions澜建,這些區(qū)域可能是有問題的向挖,詳解及下載可參考http://www.reibang.com/p/76edbc772500

#Remove alignments in Encode blacklisted regions : 
intersectBed -v -abam in.bam -b ENCFF001TDO.bed > out.bam
  1. peak calling
    peaks是reads信號比較強(qiáng)的區(qū)域,也就是我們找到的轉(zhuǎn)錄因子或者組蛋白修飾最有可能結(jié)合的地方炕舵。call peaks仍然有不少軟件何之,比較常用的是MACS2和Hotspot2。
    示例:
macs2 callpeak -t test.bam -c control.bam -f BAM -g hs -n test -B -q 0.01 

針對不同的數(shù)據(jù)考慮用不同的參數(shù)咽筋。

  1. 下游分析 (downstream analysis)

分析完之后下游可以做的事情很多溶推,視情況而定〖楣ィ可以同時(shí)分析DNase-seq或者ATAC-seq的數(shù)據(jù)蒜危,看轉(zhuǎn)錄因子與染色質(zhì)開放區(qū)的關(guān)系;或者Homer等工具注釋peaks睹耐,看不同轉(zhuǎn)錄因子/組蛋白修飾之間的關(guān)系辐赞,或者分析TF的target gene。也可以用MEME等做motif分析硝训。

歡迎關(guān)注响委!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末新思,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子赘风,更是在濱河造成了極大的恐慌夹囚,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,122評論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件邀窃,死亡現(xiàn)場離奇詭異崔兴,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)蛔翅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評論 3 395
  • 文/潘曉璐 我一進(jìn)店門敲茄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人山析,你說我怎么就攤上這事堰燎。” “怎么了笋轨?”我有些...
    開封第一講書人閱讀 164,491評論 0 354
  • 文/不壞的土叔 我叫張陵秆剪,是天一觀的道長。 經(jīng)常有香客問我爵政,道長仅讽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,636評論 1 293
  • 正文 為了忘掉前任钾挟,我火速辦了婚禮洁灵,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘掺出。我一直安慰自己徽千,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評論 6 392
  • 文/花漫 我一把揭開白布汤锨。 她就那樣靜靜地躺著双抽,像睡著了一般。 火紅的嫁衣襯著肌膚如雪闲礼。 梳的紋絲不亂的頭發(fā)上牍汹,一...
    開封第一講書人閱讀 51,541評論 1 305
  • 那天,我揣著相機(jī)與錄音柬泽,去河邊找鬼慎菲。 笑死,一個(gè)胖子當(dāng)著我的面吹牛聂抢,可吹牛的內(nèi)容都是我干的钧嘶。 我是一名探鬼主播棠众,決...
    沈念sama閱讀 40,292評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼琳疏,長吁一口氣:“原來是場噩夢啊……” “哼有决!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起空盼,我...
    開封第一講書人閱讀 39,211評論 0 276
  • 序言:老撾萬榮一對情侶失蹤书幕,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后揽趾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體台汇,經(jīng)...
    沈念sama閱讀 45,655評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評論 3 336
  • 正文 我和宋清朗相戀三年篱瞎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了苟呐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,965評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡俐筋,死狀恐怖牵素,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情澄者,我是刑警寧澤笆呆,帶...
    沈念sama閱讀 35,684評論 5 347
  • 正文 年R本政府宣布,位于F島的核電站粱挡,受9級特大地震影響赠幕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜询筏,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評論 3 329
  • 文/蒙蒙 一榕堰、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧嫌套,春花似錦局冰、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至勇蝙,卻和暖如春沫勿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背味混。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評論 1 269
  • 我被黑心中介騙來泰國打工产雹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人翁锡。 一個(gè)月前我還...
    沈念sama閱讀 48,126評論 3 370
  • 正文 我出身青樓蔓挖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親馆衔。 傳聞我的和親對象是個(gè)殘疾皇子瘟判,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評論 2 355