ChIP-seq數(shù)據(jù)質(zhì)控

日常瞎掰

??ChIP-seq可以用來研究某種轉(zhuǎn)錄因子或者組蛋白(后面統(tǒng)稱為蛋白因子吧)在基因組上的結(jié)合位置介汹,從而來確定蛋白因子可能調(diào)控的靶基因,繼而推測出在生物過程中的相關(guān)調(diào)控功能次伶。既然是用來研究某種特定的蛋白因子痴昧,所以ChIP-seq在建庫時(shí)就會(huì)用到相對應(yīng)的抗體來結(jié)合蛋白因子,從而特異性地富集蛋白因子結(jié)合的DNA片段冠王。因此赶撰,ChIP-seq實(shí)驗(yàn)成功與否的關(guān)鍵在于抗體結(jié)合的特異性,如果特異性不好柱彻,可能捕獲到的背景DNA片段就會(huì)很多豪娜,信號(hào)就不強(qiáng),從而影響后續(xù)的分析結(jié)果哟楷。只有當(dāng)特異性好了才能富集到我們想要的DNA片段瘤载,從而得到想要的分析結(jié)果。那么卖擅,當(dāng)ChIP-seq實(shí)驗(yàn)完成后鸣奔,我們?nèi)绾螐臄?shù)據(jù)的角度得知富集的好壞呢?今天我們就來聊聊ChIP-seq數(shù)據(jù)質(zhì)控方面的事惩阶。

富集

??富集可以用來考量在噪音中的信號(hào)是不是隨機(jī)現(xiàn)象挎狸。那么,一個(gè)簡單的辦法來衡量信號(hào)是否富集就是可以看信號(hào)與噪音的比例断楷,簡稱信噪比锨匆。ChIP-seq的數(shù)據(jù)在建庫過程中有靶向捕獲的過程,那么如何來判斷這個(gè)富集好壞呢冬筒?可以通過下面的圖Fingerprints來評(píng)估信號(hào)的富集情況恐锣。

plotFingerprint \
 -b *bam \
--labels H3K27me3 H3K4me1 H3K4me3 H3K9me3 input \
--minMappingQuality 30 --skipZeros \
--region 19 
--numberOfSamples 50000 \
-T "Fingerprints of different samples"  \
--plotFile fingerprints.pdf \
--outRawCounts fingerprints.tab

結(jié)果如下:

??上面就是Fingerprints圖茅主,該如何解讀這個(gè)圖呢?首先土榴,我們要明白這個(gè)圖是如何得到的诀姚。ChIP-seq的數(shù)據(jù)是富集想要的DNA片段,如果富集效果好的話鞭衩,這些DNA片段大部分應(yīng)該來自蛋白因子在基因組上的結(jié)合位置学搜,也就是說大部分的reads會(huì)比對到特定的基因組位置上。這樣的話论衍,這些位置的reads覆蓋度就要比背景區(qū)域高。所以聚磺,如果將基因組劃分為特定大小的bin區(qū)間坯台,然后統(tǒng)計(jì)每個(gè)bin的覆蓋度。那么瘫寝,含有蛋白因子結(jié)合位置的bin的覆蓋度就會(huì)比較高蜒蕾。這樣所有bin覆蓋的reads加起來就相當(dāng)于文庫的總reads數(shù)。最后焕阿,將這些bin按照覆蓋度從小到大排序,分別統(tǒng)計(jì)readsbin的累積占比。
??如此还棱,將得到的reads數(shù)累積比例做為上圖的橫坐標(biāo)温眉,bin個(gè)數(shù)累積比例做為上圖的縱坐標(biāo)。現(xiàn)在知道了這個(gè)圖的來歷褒纲,那么准夷,就可以來解讀這個(gè)圖了。例如莺掠,下圖中的灰色和綠色參考線分別指向縱坐標(biāo)和橫坐標(biāo)的0.55和0.97衫嵌。那么,我們就可以知道97%的bin所覆蓋的reads占總文庫reads的55%彻秆,也就是剩余45%的reads覆蓋到其余3%的bin里面楔绞。如果富集特異性效果好,大部分高覆蓋度的bin應(yīng)該都是來自蛋白因子所結(jié)合的位置唇兑,這些位置對應(yīng)的bin所覆蓋的reads比例越高酒朵,則富集性越好。由此幔亥,可知下圖中藍(lán)色曲線可以說明H3K4me3的富集很好耻讽。其實(shí),簡單來說就是曲線的拐點(diǎn)越靠近右下角則富集性越好帕棉。當(dāng)然针肥,這個(gè)圖還可以提供額外的信息就是有多少基因組位置沒有reads覆蓋饼记。如下圖的橫坐標(biāo)沒有從0開始,起點(diǎn)位置是0.1慰枕,這說明有10%的基因組位置沒有reads覆蓋具则。

分布

??一般蛋白因子在基因組的結(jié)合位置取決于其類型,如轉(zhuǎn)錄因子一般結(jié)合在基因上游的TSS區(qū)域具帮,而組蛋白一般結(jié)合在基因body區(qū)域博肋。所以,為了評(píng)估富集的DNA片段是否符合實(shí)際情況蜂厅,可以通過下面的profileheatmap圖來評(píng)估匪凡。

  1. scale-regions
computeMatrix scale-regions -S sample.bw \
                            -R genes.bed \
                            -b 3000 \
                            --regionBodyLength 6000 \
                            -a 3000 \
                            --skipZeros -o matrix.mat.gz

plotProfile -m matrix.mat.gz  -o sample.profile.pdf
plotHeatmap -m matrix.mat.gz -o sample.heatmap.pdf
  1. reference-point
computeMatrix reference-point --referencePoint TSS \
                              -S sample.bw \
                              -R genes.bed \
                              -b 3000 \
                              -a 3000 \
                              --skipZeros -o matrix.mat.gz

plotProfile -m matrix.mat.gz  -o sample.profile.pdf
plotHeatmap -m matrix.mat.gz -o sample.heatmap.pdf

??TSS圖的referencePoint參數(shù)有三個(gè)可選值:TSSTES掘猿,center病游。關(guān)于profileheatmap圖繪制的帖子有很多,這里小編就不詳細(xì)介紹了稠通。其實(shí)衬衬,這兩種圖概述的信息差不多,都可以得知富集的區(qū)域在基因周邊的位置改橘,只不過heatmap提供了更為詳細(xì)的信息滋尉,即每一個(gè)基因周邊位置的富集情況。

結(jié)束語

??Fingerprints可以直觀地展示數(shù)據(jù)的富集情況飞主,從而讓我們可以知道數(shù)據(jù)的整體富集情況狮惜,做到心中有數(shù)。當(dāng)然既棺,像這樣的QC只是做為一個(gè)參考讽挟,并沒有嚴(yán)格的標(biāo)準(zhǔn)來定義數(shù)據(jù)是否可用。畢竟丸冕,科研數(shù)據(jù)已經(jīng)產(chǎn)生了耽梅,誰又會(huì)大方的直接舍棄呢,但凡有一點(diǎn)信號(hào)能用到文章里面就是有價(jià)值的胖烛。不過眼姐,話說回來,雖然沒有必要追求數(shù)據(jù)質(zhì)量佩番,但數(shù)據(jù)質(zhì)量高得出的結(jié)論也更有可信度众旗。看過數(shù)據(jù)富集情況后趟畏,然后再審視一下profileheatmap圖贡歧,基本就可以知道數(shù)據(jù)的整體質(zhì)量如何了。啰嗦一下,以上提到的繪圖過程都是用deeptools軟件的功能完成的利朵,這個(gè)軟件的功能還是很強(qiáng)大的律想,值得擁有~~~


往期回顧

ChatGPT!見證AI的力量绍弟!
ChIPseeker繪圖函數(shù)借用
R語言書籍免費(fèi)領(lǐng)
可視化:網(wǎng)絡(luò)圖
可視化:Wordcloud

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末技即,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子樟遣,更是在濱河造成了極大的恐慌而叼,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件豹悬,死亡現(xiàn)場離奇詭異葵陵,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)屿衅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門埃难,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人涤久,你說我怎么就攤上這事∪坛冢” “怎么了响迂?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長细疚。 經(jīng)常有香客問我蔗彤,道長,這世上最難降的妖魔是什么疯兼? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任然遏,我火速辦了婚禮,結(jié)果婚禮上吧彪,老公的妹妹穿的比我還像新娘待侵。我一直安慰自己,他們只是感情好姨裸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布秧倾。 她就那樣靜靜地躺著,像睡著了一般傀缩。 火紅的嫁衣襯著肌膚如雪那先。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天赡艰,我揣著相機(jī)與錄音售淡,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛揖闸,可吹牛的內(nèi)容都是我干的揍堕。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼楔壤,長吁一口氣:“原來是場噩夢啊……” “哼鹤啡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蹲嚣,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對情侶失蹤递瑰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后隙畜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體抖部,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年议惰,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了慎颗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡言询,死狀恐怖俯萎,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情运杭,我是刑警寧澤夫啊,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站辆憔,受9級(jí)特大地震影響撇眯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜虱咧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一熊榛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧腕巡,春花似錦玄坦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至梆砸,卻和暖如春转质,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背帖世。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國打工休蟹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留沸枯,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓赂弓,卻偏偏與公主長得像绑榴,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子盈魁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容