CUT&Tag數(shù)據(jù)分析筆記（3）

這是CUT&Tag數(shù)據(jù)分析的最后一部分，這一部分基本就是進(jìn)行各種的可視化了报账。

第七節(jié) 可視化

通常研底，我們感興趣的是使用基因組瀏覽器在各個(gè)區(qū)域可視化染色質(zhì)landscape。Integrative Genomic Viewer提供了一個(gè)易于使用的網(wǎng)頁(yè)應(yīng)用程序版本和本地桌面版本透罢。UCSC Genome Browser提供了最全面的補(bǔ)充基因組信息榜晦。

（一）查看標(biāo)準(zhǔn)化的bedgraph文件

根據(jù)官網(wǎng)展示的染色體位置區(qū)域，我們可以使用IGV也查看一下：hg38 羽圃，chr7:131,000,000-134,000,000

下面是我運(yùn)行后得到的IGV峰圖：

再看一下官網(wǎng)的圖：

基本上是一樣的乾胶。

（二）熱圖可視化特異區(qū)域

我們還感興趣的是在一系列的注釋位點(diǎn)上觀察染色質(zhì)特征，例如基因啟動(dòng)子上的組蛋白修飾信號(hào)朽寞。我們將使用deepTools的computeMatrix和plotHeatmap函數(shù)來(lái)生成熱圖识窿。

首先，我們要先把bam文件sort脑融，生成其索引喻频，在生成bw文件：

#!/bin/bash

projPath="/gpfs/home/fangy04/cut_tag"

cat /gpfs/home/fangy04/cut_tag/filenames | while read i
do
samtools sort -o $projPath/bam_files/${i}.sorted.bam $projPath/bam_files/${i}_bowtie2.mapped.bam                               
samtools index $projPath/bam_files/${i}.sorted.bam                                                                             
bamCoverage -b $projPath/bam_files/${i}.sorted.bam -o $projPath/bigwig/${i}_raw.bw
done

（1）Heatmap over transcription units

這一步首先你要先下載hg38的基因注釋文件，可以參考我之前的文章：ChIP-seq實(shí)踐（非轉(zhuǎn)錄因子吨掌，非組蛋白）進(jìn)行下載。然后運(yùn)行（這一步非常非常耗時(shí)以及耗內(nèi)存脓恕，我用了服務(wù)器上120G膜宋，運(yùn)行了9個(gè)小時(shí)。炼幔。秋茫。）：

#!/bin/bash

projPath="/gpfs/home/fangy04/cut_tag"

cores=8
computeMatrix scale-regions -S $projPath/bigwig/SH_Hs_K27m3_rep1_raw.bw \
                               $projPath/bigwig/SH_Hs_K27m3_rep2_raw.bw \
                               $projPath/bigwig/SH_Hs_K4m3_rep1_raw.bw \
                               $projPath/bigwig/SH_Hs_K4m3_rep2_raw.bw \
                              -R $projPath/data/hg38_genes.bed \ #這是我們下載的基因組注釋文件，bed格式的
                              --beforeRegionStartLength 3000 \ 
                              --regionBodyLength 5000 \
                              --afterRegionStartLength 3000 \
                              --skipZeros -o $projPath/data/matrix_gene.mat.gz -p $cores

plotHeatmap -m $projPath/data/matrix_gene.mat.gz -out $projPath/data/Histone_gene.png --sortUsing sum --missingDataColor "#cc2200"

這里你可以看到上面的plotheatmap代碼里乃秀，我使用了--missingDataColor "#cc2200"這個(gè)參數(shù)肛著，是因?yàn)槟阋付ó媹D的時(shí)候圆兵，你的missing data的顏色，如果你不指定枢贿，并且在computeMatrix代碼里也沒(méi)有指定--missingDataAsZero殉农，那么你畫出來(lái)的圖很有可能是這樣的：

參考：https://www.biostars.org/p/322414/

運(yùn)行完成后生成兩個(gè)文件：

-rw------- 1 fangy04 fangy04   2069525 Dec 25 03:08 Histone_gene.png
-rw------- 1 fangy04 fangy04 134316380 Dec 25 03:04 matrix_gene.mat.gz

（2）在CUT&Tag peaks上的熱圖

我們使用從SEACR返回的信號(hào)塊的中點(diǎn)來(lái)對(duì)齊熱圖中的信號(hào)。SEACR輸出的第六列是一個(gè)chr:start-end形式的條目局荚，表示該區(qū)域信號(hào)最大的第一個(gè)和最后一個(gè)堿基的位置超凳。我們首先在第6列中生成一個(gè)包含中點(diǎn)信息的bed文件，并使用deeptools進(jìn)行熱圖可視化耀态。

#!/bin/bash

projPath="/gpfs/home/fangy04/cut_tag"
cores=12

cat /gpfs/home/fangy04/cut_tag/filenames2 | while read i
do

awk '{split($6, summit, ":"); split(summit[2], region, "-"); print summit[1]"\t"region[1]"\t"region[2]}' $projPath/peak_calling/${i}_seacr_control.peaks.stringent.bed > $projPath/peak_calling/${i}_seacr_control.peaks.summitRegion.bed

computeMatrix reference-point -S $projPath/bigwig/${i}_raw.bw \
              -R $projPath/peak_calling/${i}_seacr_control.peaks.summitRegion.bed \
              --skipZeros -o $projPath/data/${i}_SEACR.mat.gz -p $cores \
              -a 3000 -b 3000 --referencePoint center \
              --missingDataAsZero #這次我加了這個(gè)參數(shù)轮傍，因?yàn)榈谝淮伟凑展倬W(wǎng)的代碼沒(méi)有加這個(gè)參數(shù)，畫出來(lái)的熱圖里很多黑色的線首装，很難看

plotHeatmap -m $projPath/data/${i}_SEACR.mat.gz -out $projPath/data/${i}_SEACR_heatmap.png --sortUsing sum --startLabel "Peak Start" --endLabel "Peak End" --xAxisLabel "" --regionsLabel "Peaks" --samplesLabel "${i}"
done

第八節(jié) 差異分析

評(píng)估來(lái)自高通量測(cè)序分析count數(shù)據(jù)的方差-均值依賴性和基于使用負(fù)二項(xiàng)分布的模型的差異表達(dá)測(cè)試创夜。

（一）創(chuàng)建peak x sample矩陣

通常，差異檢測(cè)比較相同組蛋白修飾的兩種或多種條件仙逻。在本教程中驰吓，受演示數(shù)據(jù)的限制，我們將通過(guò)比較兩個(gè)重復(fù)的H3K27me3和兩個(gè)重復(fù)的H3K4me3來(lái)說(shuō)明差異檢測(cè)桨醋。我們將使用DESeq2 (complete tutorial)作為說(shuō)明棚瘟。

（1）創(chuàng)建主要peak列表，合并每個(gè)樣品的peaks

> library(GenomicRanges)
> library(magrittr)
> mPeak = GRanges()
## overlap with bam file to get count
> histL = c("SH_Hs_K27m3", "SH_Hs_K4m3")
> repL = c("rep1","rep2")
> for(hist in histL){
    for(rep in repL){
      peakRes = read.table(paste0(hist, "_", rep, "_seacr_control.peaks.stringent.bed"), header = FALSE, fill = TRUE)
      mPeak = GRanges(seqnames = peakRes$V1, IRanges(start = peakRes$V2, end = peakRes$V3), strand = "*") %>% append(mPeak, .)
    }
  }
> masterPeak = reduce(mPeak)

（2）在主要peak列表里獲取每個(gè)peak的片段counts

> library(DESeq2)
# 這里官網(wǎng)的代碼仍然是有問(wèn)題的喜最，不能直接用偎蘸，需要自己加for語(yǔ)句
> for (hist in histL){
    for(rep in repL){
      countMat = matrix(NA, length(masterPeak), length(histL)*length(repL))
    }
  }

## overlap with bam file to get count
> library(chromVAR)
> i = 1
> for(hist in histL){
    for(rep in repL){
    
      bamFile = paste0(hist, "_", rep, "_bowtie2.mapped.bam")
      fragment_counts <- getCounts(bamFile, masterPeak, paired = TRUE, by_rg = FALSE, format = "bam")
      countMat[, i] = counts(fragment_counts)[,1]
      i = i + 1
    }
  }
> colnames(countMat) = paste(rep(histL, 2), rep(repL, each = 2), sep = "_")

（二）測(cè)序深度標(biāo)準(zhǔn)化和差異富集peaks檢測(cè)

> selectR = which(rowSums(countMat) > 5) ## remove low count genes
> dataS = countMat[selectR,]
> condition = factor(rep(histL, each = length(repL)))
> dds = DESeqDataSetFromMatrix(countData = dataS,
                             colData = DataFrame(condition),
                             design = ~ condition)
> DDS = DESeq(dds)
> normDDS = counts(DDS, normalized = TRUE) ## normalization with respect to the sequencing depth
> colnames(normDDS) = paste0(colnames(normDDS), "_norm")
> res = results(DDS, independentFiltering = FALSE, altHypothesis = "greaterAbs")

> countMatDiff = cbind(dataS, normDDS, res)
> head(countMatDiff)

DataFrame with 6 rows and 14 columns
  SH_Hs_K27m3_rep1 SH_Hs_K4m3_rep1 SH_Hs_K27m3_rep2 SH_Hs_K4m3_rep2 SH_Hs_K27m3_rep1_norm SH_Hs_K4m3_rep1_norm
         <numeric>       <numeric>        <numeric>       <numeric>             <numeric>            <numeric>
1                3               4                5               4              0.748764             1.248831
2                0               0              298             198              0.000000             0.000000
3                0               1              173              91              0.000000             0.312208
4                0               0              266             206              0.000000             0.000000
5                4               3                0               2              0.998352             0.936623
6                4               2                0               1              0.998352             0.624415
  SH_Hs_K27m3_rep2_norm SH_Hs_K4m3_rep2_norm  baseMean log2FoldChange     lfcSE      stat      pvalue        padj
              <numeric>            <numeric> <numeric>      <numeric> <numeric> <numeric>   <numeric>   <numeric>
1               19.9532             11.66190   8.40317        3.97867   1.06773  3.726287 1.94321e-04 3.08812e-03
2             1189.2085            577.26424 441.61819       14.06841   1.55908  9.023519 1.82142e-19 1.31189e-17
3              690.3795            265.30831 238.99999       11.73399   1.54086  7.615238 2.63205e-14 5.63249e-13
4             1061.5083            600.58805 415.52408       13.98064   1.54744  9.034672 1.64495e-19 1.20258e-17
5                0.0000              5.83095   1.94148        1.70735   1.82556  0.935247 3.49661e-01 9.53197e-01
6                0.0000              2.91548   1.13456        1.02468   2.28264  0.448903 6.53502e-01 9.53197e-01

（1）DESeq2要求輸入矩陣應(yīng)該是非標(biāo)準(zhǔn)化counts或測(cè)序reads的估計(jì)counts。
（2）DESeq2模型在內(nèi)部修正文庫(kù)大小瞬内。
（3）countMatDiff總結(jié)了差異分析結(jié)果:
前4列:在過(guò)濾低counts的峰區(qū)域后迷雪，原始reads計(jì)數(shù)
第二個(gè)4列:消除文庫(kù)大小差異的標(biāo)準(zhǔn)化reads計(jì)數(shù)。
剩余列:差示檢測(cè)結(jié)果虫蝶。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

禁止轉(zhuǎn)載章咧，如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

人面猴
序言：七十年代末能真，一起剝皮案震驚了整個(gè)濱河市赁严，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌粉铐，老刑警劉巖疼约，帶你破解...
沈念sama閱讀 216,324評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異蝙泼，居然都是意外死亡程剥，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,356評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門汤踏，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)织鲸，“玉大人舔腾，你說(shuō)我怎么就攤上這事÷Р粒” “怎么了稳诚？”我有些...
開(kāi)封第一講書人閱讀 162,328評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)盾饮。經(jīng)常有香客問(wèn)我采桃，道長(zhǎng)，這世上最難降的妖魔是什么丘损？我笑而不...
開(kāi)封第一講書人閱讀 58,147評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任普办，我火速辦了婚禮，結(jié)果婚禮上徘钥，老公的妹妹穿的比我還像新娘衔蹲。我一直安慰自己，他們只是感情好呈础，可當(dāng)我...
茶點(diǎn)故事閱讀 67,160評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布舆驶。她就那樣靜靜地躺著，像睡著了一般而钞。火紅的嫁衣襯著肌膚如雪沙廉。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 51,115評(píng)論 1贊 296
城市分裂傳說(shuō)
那天臼节，我揣著相機(jī)與錄音撬陵，去河邊找鬼。笑死网缝，一個(gè)胖子當(dāng)著我的面吹牛巨税，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播粉臊，決...
沈念sama閱讀 40,025評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼草添，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了扼仲？” 一聲冷哼從身側(cè)響起远寸，我...
開(kāi)封第一講書人閱讀 38,867評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎屠凶，沒(méi)想到半個(gè)月后驰后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,307評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡阅畴，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,528評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年倡怎，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了迅耘。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贱枣。...
茶點(diǎn)故事閱讀 39,688評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡监署，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出纽哥，到底是詐尸還是另有隱情钠乏，我是刑警寧澤，帶...
沈念sama閱讀 35,409評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布春塌，位于F島的核電站晓避，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏只壳。R本人自食惡果不足惜俏拱，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,001評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望吼句。院中可真熱鬧锅必，春花似錦、人聲如沸惕艳。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,657評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)远搪。三九已至劣纲，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間谁鳍，已是汗流浹背癞季。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,811評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留棠耕，地道東北人余佛。一個(gè)月前我還...
沈念sama閱讀 47,685評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像窍荧，于是被迫代替她去往敵國(guó)和親辉巡。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,573評(píng)論 2贊 353