日常瞎掰
??ChIP-seq
可以用來研究某種轉(zhuǎn)錄因子或者組蛋白(后面統(tǒng)稱為蛋白因子吧)在基因組上的結(jié)合位置介汹,從而來確定蛋白因子可能調(diào)控的靶基因,繼而推測出在生物過程中的相關(guān)調(diào)控功能次伶。既然是用來研究某種特定的蛋白因子痴昧,所以ChIP-seq
在建庫時(shí)就會(huì)用到相對應(yīng)的抗體來結(jié)合蛋白因子,從而特異性地富集蛋白因子結(jié)合的DNA片段冠王。因此赶撰,ChIP-seq
實(shí)驗(yàn)成功與否的關(guān)鍵在于抗體結(jié)合的特異性,如果特異性不好柱彻,可能捕獲到的背景DNA片段就會(huì)很多豪娜,信號(hào)就不強(qiáng),從而影響后續(xù)的分析結(jié)果哟楷。只有當(dāng)特異性好了才能富集到我們想要的DNA片段瘤载,從而得到想要的分析結(jié)果。那么卖擅,當(dāng)ChIP-seq
實(shí)驗(yàn)完成后鸣奔,我們?nèi)绾螐臄?shù)據(jù)的角度得知富集的好壞呢?今天我們就來聊聊ChIP-seq
數(shù)據(jù)質(zhì)控方面的事惩阶。
富集
??富集可以用來考量在噪音中的信號(hào)是不是隨機(jī)現(xiàn)象挎狸。那么,一個(gè)簡單的辦法來衡量信號(hào)是否富集就是可以看信號(hào)與噪音的比例断楷,簡稱信噪比锨匆。ChIP-seq
的數(shù)據(jù)在建庫過程中有靶向捕獲的過程,那么如何來判斷這個(gè)富集好壞呢冬筒?可以通過下面的圖Fingerprints
來評(píng)估信號(hào)的富集情況恐锣。
plotFingerprint \
-b *bam \
--labels H3K27me3 H3K4me1 H3K4me3 H3K9me3 input \
--minMappingQuality 30 --skipZeros \
--region 19
--numberOfSamples 50000 \
-T "Fingerprints of different samples" \
--plotFile fingerprints.pdf \
--outRawCounts fingerprints.tab
結(jié)果如下:
??上面就是Fingerprints
圖茅主,該如何解讀這個(gè)圖呢?首先土榴,我們要明白這個(gè)圖是如何得到的诀姚。ChIP-seq
的數(shù)據(jù)是富集想要的DNA片段,如果富集效果好的話鞭衩,這些DNA片段大部分應(yīng)該來自蛋白因子在基因組上的結(jié)合位置学搜,也就是說大部分的reads會(huì)比對到特定的基因組位置上。這樣的話论衍,這些位置的reads覆蓋度就要比背景區(qū)域高。所以聚磺,如果將基因組劃分為特定大小的bin
區(qū)間坯台,然后統(tǒng)計(jì)每個(gè)bin
的覆蓋度。那么瘫寝,含有蛋白因子結(jié)合位置的bin
的覆蓋度就會(huì)比較高蜒蕾。這樣所有bin
覆蓋的reads
加起來就相當(dāng)于文庫的總reads
數(shù)。最后焕阿,將這些bin
按照覆蓋度從小到大排序,分別統(tǒng)計(jì)reads
和bin
的累積占比。
??如此还棱,將得到的reads
數(shù)累積比例做為上圖的橫坐標(biāo)温眉,bin
個(gè)數(shù)累積比例做為上圖的縱坐標(biāo)。現(xiàn)在知道了這個(gè)圖的來歷褒纲,那么准夷,就可以來解讀這個(gè)圖了。例如莺掠,下圖中的灰色和綠色參考線分別指向縱坐標(biāo)和橫坐標(biāo)的0.55和0.97衫嵌。那么,我們就可以知道97%的bin
所覆蓋的reads
占總文庫reads
的55%彻秆,也就是剩余45%的reads
覆蓋到其余3%的bin
里面楔绞。如果富集特異性效果好,大部分高覆蓋度的bin
應(yīng)該都是來自蛋白因子所結(jié)合的位置唇兑,這些位置對應(yīng)的bin
所覆蓋的reads
比例越高酒朵,則富集性越好。由此幔亥,可知下圖中藍(lán)色曲線可以說明H3K4me3
的富集很好耻讽。其實(shí),簡單來說就是曲線的拐點(diǎn)越靠近右下角則富集性越好帕棉。當(dāng)然针肥,這個(gè)圖還可以提供額外的信息就是有多少基因組位置沒有reads
覆蓋饼记。如下圖的橫坐標(biāo)沒有從0開始,起點(diǎn)位置是0.1慰枕,這說明有10%的基因組位置沒有reads
覆蓋具则。
分布
??一般蛋白因子在基因組的結(jié)合位置取決于其類型,如轉(zhuǎn)錄因子一般結(jié)合在基因上游的TSS
區(qū)域具帮,而組蛋白一般結(jié)合在基因body
區(qū)域博肋。所以,為了評(píng)估富集的DNA片段是否符合實(shí)際情況蜂厅,可以通過下面的profile
和heatmap
圖來評(píng)估匪凡。
- scale-regions
computeMatrix scale-regions -S sample.bw \
-R genes.bed \
-b 3000 \
--regionBodyLength 6000 \
-a 3000 \
--skipZeros -o matrix.mat.gz
plotProfile -m matrix.mat.gz -o sample.profile.pdf
plotHeatmap -m matrix.mat.gz -o sample.heatmap.pdf
- reference-point
computeMatrix reference-point --referencePoint TSS \
-S sample.bw \
-R genes.bed \
-b 3000 \
-a 3000 \
--skipZeros -o matrix.mat.gz
plotProfile -m matrix.mat.gz -o sample.profile.pdf
plotHeatmap -m matrix.mat.gz -o sample.heatmap.pdf
??TSS圖的referencePoint
參數(shù)有三個(gè)可選值:TSS
,TES
掘猿,center
病游。關(guān)于profile
和heatmap
圖繪制的帖子有很多,這里小編就不詳細(xì)介紹了稠通。其實(shí)衬衬,這兩種圖概述的信息差不多,都可以得知富集的區(qū)域在基因周邊的位置改橘,只不過heatmap
提供了更為詳細(xì)的信息滋尉,即每一個(gè)基因周邊位置的富集情況。
結(jié)束語
??Fingerprints
可以直觀地展示數(shù)據(jù)的富集情況飞主,從而讓我們可以知道數(shù)據(jù)的整體富集情況狮惜,做到心中有數(shù)。當(dāng)然既棺,像這樣的QC只是做為一個(gè)參考讽挟,并沒有嚴(yán)格的標(biāo)準(zhǔn)來定義數(shù)據(jù)是否可用。畢竟丸冕,科研數(shù)據(jù)已經(jīng)產(chǎn)生了耽梅,誰又會(huì)大方的直接舍棄呢,但凡有一點(diǎn)信號(hào)能用到文章里面就是有價(jià)值的胖烛。不過眼姐,話說回來,雖然沒有必要追求數(shù)據(jù)質(zhì)量佩番,但數(shù)據(jù)質(zhì)量高得出的結(jié)論也更有可信度众旗。看過數(shù)據(jù)富集情況后趟畏,然后再審視一下profile
和heatmap
圖贡歧,基本就可以知道數(shù)據(jù)的整體質(zhì)量如何了。啰嗦一下,以上提到的繪圖過程都是用deeptools
軟件的功能完成的利朵,這個(gè)軟件的功能還是很強(qiáng)大的律想,值得擁有~~~
往期回顧
ChatGPT!見證AI的力量绍弟!
ChIPseeker繪圖函數(shù)借用
R語言書籍免費(fèi)領(lǐng)
可視化:網(wǎng)絡(luò)圖
可視化:Wordcloud