RRBS Bismark methylKit

0.質(zhì)控

trim_galore -q 20 --phred33 --illumina --stringency 1 -e 0.1  \
            --length 36 --rrbs --cores 4 --fastqc -o ./cut_adapter \
            --paired R1.fastq R2.fastq
-q 設(shè)定phred quality閾值,默認(rèn)20(99%的read質(zhì)量)门岔,如果測(cè)序深度較深,可以設(shè)定25
--phred33 默認(rèn)記分方式烤送,代表Q+33=ASCII碼的方式來(lái)記分方式
--stringency 設(shè)定可以忍受的前后adapter重疊的堿基數(shù)寒随,默認(rèn)是1
--illumina 指定要去除的接頭序列,可先前運(yùn)行一下fastqc來(lái)確定接頭序列類型
--length 設(shè)定長(zhǎng)度閾值帮坚,小于此長(zhǎng)度會(huì)被拋棄
--rrbs 指定輸入文件是MspI消化的RRBS樣本(識(shí)別位點(diǎn):)CCGG
--fastqc 修剪完成后妻往,以默認(rèn)模式在FastQ文件上運(yùn)行FastQC
-o 輸出目錄
-e  設(shè)定默認(rèn)質(zhì)量控制數(shù)试和,默認(rèn)是0.1讯泣,即ERROR rate大于10%的read 會(huì)被舍棄,如果添加了--paired參數(shù)則會(huì)舍棄一對(duì)reads
--paired 對(duì)于雙端結(jié)果阅悍,一對(duì)reads中若一個(gè)read因?yàn)橘|(zhì)量或其他原因被拋棄晦墙,則對(duì)應(yīng)的另一個(gè)read也拋棄寡痰。
<filename>  #如果是采用illumina雙端測(cè)序的測(cè)序文件连躏,應(yīng)該同時(shí)輸入兩個(gè)文件入热。

1.建立亞硫酸鹽基因組index

bismark_genome_preparation --bowtie2 基因組所在目錄(目錄下應(yīng)含有fa或fasta格式的文件)

2. 比對(duì)

bismark --bowtie2 -p 4 -N 0 -L 20 --quiet --un --ambiguous 亞硫酸鹽基因組index所在目錄 -1 fastq1 -2 fastq2 -o 輸出目錄

-p 線程數(shù) 
-N 允許錯(cuò)配數(shù)目 
-L 比對(duì)時(shí)建立的seed大小 
--quiet 不在控制臺(tái)輸出比對(duì)流程信息 
--un 輸出不匹配序列信息到_unmapped_reads.fq.gz中
--ambiguous 輸出多處匹配序列信息到_ambiguous_reads.fq中,不指定則輸出到_unmapped_reads.fq.gz中
-o 輸出目錄
--sam  指定輸出的格式為sam蠢箩,無(wú)此參數(shù)則輸出bam格式文件

輸出結(jié)果有兩個(gè)重要文件逻谦,一個(gè)bismark_bt2_PE_report.txt,一個(gè)bismark_bt2_pe.bam

3-1.去重(可選勇婴,建議對(duì)WGBS使用此步驟,但不應(yīng)將其用于代表性較低的文庫(kù)础米,例如RRBS屁桑,擴(kuò)增子或靶標(biāo)富集文庫(kù))

deduplicate_bismark -p --bam 輸入的bam文件 -o 輸出目錄

-p 代表雙端測(cè)序
--bam 代表輸入文件為bam文件
-o 輸出目錄

3-2.提取甲基化信息(可選

bismark_methylation_extractor -p --comprehensive --no_overlap --bedGraph --counts --buffer_size 20G --report --cytosine_report --genome_folder 基因組所在目錄 -o 輸出目錄 輸入的bam文件

-s 輸入文件是從單端讀取數(shù)據(jù)生成的Bismark結(jié)果文件蘑斧。如果既沒有-s也不-p設(shè)置實(shí)驗(yàn)的類型將被自動(dòng)確定
-p 輸入文件是從雙端讀取數(shù)據(jù)生成的Bismark結(jié)果文件。如果既沒有-s也不-p設(shè)置實(shí)驗(yàn)的類型將被自動(dòng)確定
--comprehensive 將可能的甲基化信息都輸出,包括CHG,CHH,CpG
--no_overlap 對(duì)于雙端讀取庸论,read_1和read_2理論上是可能重疊的罐农。這個(gè)選項(xiàng)避免了重復(fù)的甲基化計(jì)算了2次。雖然這消除了對(duì)序列片段中心更多甲基化的計(jì)算偏差麸恍,但實(shí)際上可能會(huì)刪除相當(dāng)一部分?jǐn)?shù)據(jù),默認(rèn)調(diào)用此參數(shù)
--bedGraph 輸出bedGraph文件
--counts 指在bedGraph中有每個(gè)C上甲基化reads和非甲基化reads的數(shù)目(在--cytosine_report指定的情況下)
--buffer_size 使用指定的內(nèi)存去計(jì)算甲基化信息
--report 會(huì)有一個(gè)甲基化的summary
--cytosine_report 指報(bào)道全基因組所有的CpG
--genome_folder 參考基因組的位置
-o 輸出目錄

重要文件有bismark_bt2_pe.CpG_report.txt(可以用來(lái)變化格式使methylkit包可以讀让羝)和bismark_bt2_pe.bedGraph.gz(可以用IGV打開,報(bào)告給定胞嘧啶的位置及其甲基化狀態(tài))

3-3.總結(jié)甲基化信息(可選

bismark2report(使用bismark_bt2_PE_report.txt)
bismark2summary(使用bismark_bt2_pe.bam)

4.排序

samtools sort 輸入的bam文件 -o 輸出的排序后的bam文件

(如要指定目錄的話粹淋,目錄一定要先創(chuàng)建好廓啊,其不能在運(yùn)行時(shí)創(chuàng)建)

5.讀入R

my.methRaw=processBismarkAln(location =bam文件全路徑(用list表示),
                             sample.id=樣品分組(用list表示),
                             assembly="mm10",# 比對(duì)時(shí)所用的參考基因組
                             read.context = "none",#要讀入內(nèi)存的內(nèi)容
                             save.context=c("CpG","CHG","CHH"),#要保存的內(nèi)容
                             save.folder=getwd())#保存路徑

6.回到terminal第步,進(jìn)入工作目錄樊展,去除非一般染色體

cat CpG文件 | grep chr > 新的CpG文件

7.重新讀入R

myobj=methRead(location=CpG文件全路徑(用list表示),
               sample.id=樣品分組(用list表示),
               assembly="mm10",
               treatment=c(1,1,0,0),
               context="CpG",
               mincov = 10) 

示例:

library(methylKit)
file.list=list(system.file("extdata", "test1.myCpG.txt", package = "methylKit"),
               system.file("extdata", "test2.myCpG.txt", package = "methylKit"),
               system.file("extdata", "control1.myCpG.txt", package = "methylKit"),
               system.file("extdata", "control2.myCpG.txt", package = "methylKit"))
myobj=methRead(file.list,
               sample.id=list("test1","test2","ctrl1","ctrl2"),
               assembly="hg38",
               treatment=c(1,1,0,0),
               context="CpG",
               mincov = 10) 
#理想情況下墩弯,您應(yīng)該首先過濾具有極高(低)覆蓋率的堿基脓魏,可使用filterByCoverage()函數(shù)解決PCR偏倚性珊燎,
#然后運(yùn)行normalizeCoverage()函數(shù)以標(biāo)準(zhǔn)化樣本之間的覆蓋率芦瘾。
#這兩個(gè)功能將有助于減少統(tǒng)計(jì)測(cè)試中由于某些樣本讀數(shù)的系統(tǒng)過采樣而可能產(chǎn)生的偏差祷愉。
getMethylationStats(myobj[[1]],plot=TRUE,both.strands=FALSE)#樣品統(tǒng)計(jì)信息
getCoverageStats(myobj[[1]],plot=TRUE,both.strands=FALSE)#樣品統(tǒng)計(jì)信息
myobj=filterByCoverage(myobj,lo.count=10,lo.perc=NULL,hi.count=NULL,hi.perc=99.9)
myobj <- normalizeCoverage(myobj)
tiles=tileMethylCounts(myobj,win.size=500,step.size=500)
meth=unite(tiles, destrand=FALSE)#合并樣本_DMR
# meth=unite(myobj, destrand=FALSE)#合并樣本_DML
head(meth)
#樣品聚類信息
getCorrelation(meth,plot=TRUE)
clusterSamples(meth, dist="correlation", method="ward", plot=TRUE)
# hc = clusterSamples(meth, dist="correlation", method="ward", plot=F)
PCASamples(meth, screeplot=TRUE)
PCASamples(meth)

##查找差異甲基化堿基或區(qū)域
myDiff=calculateDiffMeth(meth)
myDiff25p=getMethylDiff(myDiff,difference=25,qvalue=0.01)
diffMethPerChr(myDiff,plot=T,qvalue.cutoff=0.01, meth.cutoff=25)

##統(tǒng)計(jì)甲基化位點(diǎn)的基因組分布和cpg島分布(即注釋差異甲基化的堿基或區(qū)域)
library(genomation)
myDiff_GRanges <- as(myDiff25p,"GRanges")
gene.obj=readTranscriptFeatures("c:/Users/ZSY/Desktop/DNA_methylation/hg38.bed.txt")#讀取bed文件躯嫉,有關(guān)啟動(dòng)子/外顯子/內(nèi)含子的注釋
diffAnn=annotateWithGeneParts(myDiff_GRanges,gene.obj)# 差異甲基化位點(diǎn)的基因組分布
#library(TxDb.Hsapiens.UCSC.hg38.knownGene)
#diffAnn <- annotateDMRInfo(myDiff_GRanges, 'TxDb.Hsapiens.UCSC.hg38.knownGene')

cpg.obj=readFeatureFlank("c:/Users/ZSY/Desktop/DNA_methylation/hg38.bed.txt",feature.flank.name=c("CpGi","shores"))#讀取CpG島(CpGi)和CpG海岸注釋
diffCpGann=annotateWithFeatureFlank(myDiff_GRanges,cpg.obj$CpGi,cpg.obj$shores,
                                    feature.name="CpGi",
                                    flank.name="shores")#差異甲基化位點(diǎn)的CpG島分布

head(getMembers(diffAnn))#獲得感興趣的區(qū)域是否與外顯子/內(nèi)含子/啟動(dòng)子重疊
head(getMembers(diffCpGann))#獲得感興趣的區(qū)域是否與CpG島重疊
head(getAssociationWithTSS(diffAnn))#獲得距TSS的距離最近的基因名稱
getTargetAnnotationStats(diffAnn,percentage=TRUE,precedence=TRUE)#與內(nèi)含子/外顯子/啟動(dòng)子重疊的差異甲基化區(qū)域的百分比/數(shù)目
plotTargetAnnotation(diffAnn,precedence=TRUE,main="differential methylation annotation")#上面的數(shù)據(jù)畫圖
getFeatsWithTargetsStats(diffAnn,percentage=TRUE)#與差異甲基化堿基重疊的內(nèi)含子/外顯子/啟動(dòng)子占所有的內(nèi)含子/外顯子/啟動(dòng)子的百分比
plotTargetAnnotation(diffCpGann,col=c("green","gray","white"),main="differential methylation annotation")#顯示CpG島,CpG海岸和其他地區(qū)差異甲基化堿基的百分比

上面所用的gene和cpg bed文件可從ucsc下載

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末哄陶,一起剝皮案震驚了整個(gè)濱河市帆阳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌屋吨,老刑警劉巖蜒谤,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異至扰,居然都是意外死亡鳍徽,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門敢课,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)阶祭,“玉大人,你說(shuō)我怎么就攤上這事直秆”裟迹” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵圾结,是天一觀的道長(zhǎng)瑰剃。 經(jīng)常有香客問我,道長(zhǎng)筝野,這世上最難降的妖魔是什么培他? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任鹃两,我火速辦了婚禮,結(jié)果婚禮上舀凛,老公的妹妹穿的比我還像新娘俊扳。我一直安慰自己,他們只是感情好猛遍,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布馋记。 她就那樣靜靜地躺著,像睡著了一般懊烤。 火紅的嫁衣襯著肌膚如雪梯醒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天腌紧,我揣著相機(jī)與錄音茸习,去河邊找鬼。 笑死壁肋,一個(gè)胖子當(dāng)著我的面吹牛号胚,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播浸遗,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼猫胁,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了跛锌?” 一聲冷哼從身側(cè)響起弃秆,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎髓帽,沒想到半個(gè)月后菠赚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡郑藏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年锈至,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片译秦。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡峡捡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出筑悴,到底是詐尸還是另有隱情们拙,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布阁吝,位于F島的核電站砚婆,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜装盯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一坷虑、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧埂奈,春花似錦迄损、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至垮抗,卻和暖如春氏捞,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背冒版。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工液茎, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人辞嗡。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓捆等,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親欲间。 傳聞我的和親對(duì)象是個(gè)殘疾皇子楚里,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容