ATAC-seq分析:Peak Calling(8)

1. 尋找開發(fā)區(qū)域

ATACseq 的一個共同目標是識別轉錄因子結合和/或轉錄機制活躍的無核小體區(qū)域陨收。該核小體游離信號對應于小于一個核小體的片段(如 Greenleaf 論文中定義 < 100bp)篓足。

然而踱稍,為了識別開放的染色質品山,我們可以簡單地使用在測序中正確配對的所有讀數(shù)(< 2000bp)即彪。

2. 無核小體區(qū)域

有許多方法可用于從 ATACseq 數(shù)據(jù)中調(diào)用無核小體區(qū)域,其中許多方法借鑒自 ChIPseq 分析一疯。一種非常流行且標準的 ATACseq 峰值調(diào)用程序是 MAC2。

2.1. 單端數(shù)據(jù)

使用 ATACseq 的單端測序夺姑,我們不知道片段有多長墩邀。因此,與 ChIPseq 相比盏浙,要識別開放區(qū)域眉睹,MACS2 峰值調(diào)用需要一些不同的參數(shù)。采用的一種策略是將讀取 5' 末端移動 -100废膘,然后從該位置延伸 200bp竹海。考慮到我們的無核小體片段的預期大小丐黄,這應該提供適合 MACS2 窗口大小的核小體區(qū)域的堆積斋配。

這是我們用來執(zhí)行此操作的 MACS 系統(tǒng)調(diào)用。

MACS2 callpeak -t singleEnd.bam --nomodel --shift -100
                --extsize 200 --format BAM -g MyGenome

在 R 中灌闺,我們可以使用 Herper 運行這個系統(tǒng)調(diào)用艰争,這樣我們就可以訪問我們安裝的 MACS2。 MACS2 已安裝到 ATACseq_analysis 中菩鲜。所以我們可以使用 with_CondaEnv() 從 R 中使用這個環(huán)境园细。

with_CondaEnv("ATACseq_analysis",
                      system2(command="macs2",args =c("callpeak", 
                      "-t", "singleEnd.bam",
                      "--nomodel",
                      "--shift","-100",
                      "--extsize", "200",
                      "--format", "BAM",
                      "-g", "hs")),
                        stdout = TRUE))

或者對于核小體占據(jù)的數(shù)據(jù),我們可以調(diào)整移位和延伸以將信號集中在核小體中心(包裹在 147bp DNA 中的核小體)接校。

MACS2 callpeak -t singleEnd.bam --nomodel --shift 37
               --extsize 73 --format BAM -g MyGenome
  • R
with_CondaEnv("ATACseq_analysis", system2(command = "macs2", args = c("callpeak",
    "-t", "singleEnd.bam", "--nomodel", "--shift", "37", "--extsize", "73", "--format",
    "BAM", "-g", "hs")), stdout = TRUE)

2.2. 雙端數(shù)據(jù)

如果我們對配對末端數(shù)據(jù)進行了測序猛频,那么我們確實知道片段長度,并且可以向 MACS2 提供 BAM 文件蛛勉,這些文件已經(jīng)過預過濾以正確配對(如果您想?yún)^(qū)分核小體和無核小體區(qū)域鹿寻,則提供片段大小)诽凌。

我們必須告訴 MACS2 數(shù)據(jù)是使用格式參數(shù)配對的毡熏。這很重要,因為默認情況下 MACS2 會猜測它是單端 BAM侣诵。

MACS2 callpeak -t pairedEnd.bam -f BAMPE 
               --outdir path/to/output/
               --name pairedEndPeakName -g MyGenome
  • R
with_CondaEnv("ATACseq_analysis", system2(command = "macs2", args = c("callpeak",
    "-t", "pairedEnd.bam", "--format", "BAMPE", "--outdir", "/Documents/ATAC_MACS2_calls/",
    "--name", "pairedEndPeakName", "-g", "hs")), stdout = TRUE)

對于此處的配對末端數(shù)據(jù)痢法,我們從無核小體區(qū)域 BAM 文件中調(diào)用無核小體區(qū)域的峰。

MACS2 callpeak  -t ~/Downloads/Sorted_ATAC_50K_2_openRegions.bam
                --outdir ATAC_Data/ATAC_Peaks/ATAC_50K_2
                --name Sorted_ATAC_50K_2_Small_Paired_peaks.narrowPeak
                -f BAMPE -g hs
  • R
with_CondaEnv("ATACseq_analysis", system2(command = "macs2", args = c("callpeak",
    "-t", "~/Downloads/Sorted_ATAC_50K_2_openRegions.bam", "--outdir", "ATAC_Data/ATAC_Peaks/ATAC_50K_2",
    "--name", "Sorted_ATAC_50K_2_Small_Paired_peaks.narrowPeak", "-f", "BAMPE", "-g",
    "hs")), stdout = TRUE)

在之后杜顺,我們將獲得 3 個文件财搁。

  • Name.narrowPeak – 適用于 IGV 和進一步分析的格式
  • Name_peaks.xls – 適合在 excel 中查看的峰值表。(實際上不是 xls躬络,而是 tsv)
  • summits.bed – 用于查找 motifs 和繪圖的峰頂位置

3. QC

通常我們想做一些 QC 來檢查低質量尖奔、重復和信號分布。在我們刪除任何數(shù)據(jù)之前,我們可以快速評估我們的峰值讀取提茁、重復率淹禾、低質量讀取和來自 ChIPQC 的偽像區(qū)域中的讀取。

library(ChIPQC)
library(rtracklayer)
library(DT)
library(dplyr)
library(tidyr)

blkList <- import.bed("~/Downloads/ENCFF001TDO.bed.gz")
openRegionPeaks <- "~/Downloads/ATAC_Workshop/ATAC_Data/ATAC_Peaks/Sorted_ATAC_50K_2_Small_Paired_peaks.narrowPeak"

qcRes <- ChIPQCsample("~/Downloads/ATAC_Workshop/ATAC_Data/ATAC_BAM/Sorted_ATAC_50K_2_openRegions.bam",
    peaks = openRegionPeaks, annotation = "hg19", chromosomes = "chr20", blacklist = blkList,
    verboseT = FALSE)

我們可以使用 ChIPQC 包來捕獲我們的 ATACseq 數(shù)據(jù)的一些重要指標茴扁,例如來自 QCmetrics() 函數(shù)的峰值讀取和黑名單中的讀取以及來自 flagtagcounts() 函數(shù)的重復讀取數(shù)铃岔。

myMetrics <- QCmetrics(qcRes)
myMetrics[c("RiBL%", "RiP%")]
flgCounts <- flagtagcounts(qcRes)
DupRate <- flgCounts["DuplicateByChIPQC"]/flgCounts["Mapped"]
DupRate * 100

4. 黑名單刪除

來自測序的人工制品和不完美的基因組構建可能會混淆我們的結果。這些工件已被整理到區(qū)域的“黑名單”中丹弱。

由于列入黑名單的區(qū)域可能會混淆我們的分析德撬,因此我們刪除了在那里被調(diào)用的所有峰值铲咨。

過早刪除黑名單可能會隱藏數(shù)據(jù)中的一些 QC 問題躲胳。在您的分析中應始終考慮黑名單,并建議在考慮 QC 后從這些區(qū)域中刪除數(shù)據(jù)纤勒。

MacsCalls <- granges(qcRes[seqnames(qcRes) %in% "chr20"])

data.frame(Blacklisted = sum(MacsCalls %over% blkList), Not_Blacklisted = sum(!MacsCalls %over%
    blkList))

MacsCalls <- MacsCalls[!MacsCalls %over% blkList]

本文由mdnice多平臺發(fā)布

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末坯苹,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子摇天,更是在濱河造成了極大的恐慌粹湃,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件泉坐,死亡現(xiàn)場離奇詭異为鳄,居然都是意外死亡,警方通過查閱死者的電腦和手機腕让,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進店門孤钦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人纯丸,你說我怎么就攤上這事偏形。” “怎么了觉鼻?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵俊扭,是天一觀的道長。 經(jīng)常有香客問我坠陈,道長萨惑,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任仇矾,我火速辦了婚禮庸蔼,結果婚禮上,老公的妹妹穿的比我還像新娘若未。我一直安慰自己朱嘴,他們只是感情好,可當我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著萍嬉,像睡著了一般乌昔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上壤追,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天磕道,我揣著相機與錄音,去河邊找鬼行冰。 笑死溺蕉,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的悼做。 我是一名探鬼主播疯特,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼肛走!你這毒婦竟也來了漓雅?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤朽色,失蹤者是張志新(化名)和其女友劉穎邻吞,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體葫男,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡抱冷,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了梢褐。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片旺遮。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖利职,靈堂內(nèi)的尸體忽然破棺而出趣效,到底是詐尸還是另有隱情,我是刑警寧澤猪贪,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布跷敬,位于F島的核電站,受9級特大地震影響热押,放射性物質發(fā)生泄漏西傀。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一桶癣、第九天 我趴在偏房一處隱蔽的房頂上張望拥褂。 院中可真熱鬧,春花似錦牙寞、人聲如沸饺鹃。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽悔详。三九已至镊屎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間茄螃,已是汗流浹背缝驳。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留归苍,地道東北人用狱。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像拼弃,于是被迫代替她去往敵國和親夏伊。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容