RRBS Bismark methylKit

0.質(zhì)控

trim_galore -q 20 --phred33 --illumina --stringency 1 -e 0.1  \
            --length 36 --rrbs --cores 4 --fastqc -o ./cut_adapter \
            --paired R1.fastq R2.fastq
-q 設(shè)定phred quality閾值，默認(rèn)20（99%的read質(zhì)量）门岔，如果測(cè)序深度較深，可以設(shè)定25
--phred33 默認(rèn)記分方式烤送，代表Q+33=ASCII碼的方式來(lái)記分方式
--stringency 設(shè)定可以忍受的前后adapter重疊的堿基數(shù)寒随，默認(rèn)是1
--illumina 指定要去除的接頭序列，可先前運(yùn)行一下fastqc來(lái)確定接頭序列類型
--length 設(shè)定長(zhǎng)度閾值帮坚，小于此長(zhǎng)度會(huì)被拋棄
--rrbs 指定輸入文件是MspI消化的RRBS樣本（識(shí)別位點(diǎn)：）CCGG
--fastqc 修剪完成后妻往，以默認(rèn)模式在FastQ文件上運(yùn)行FastQC
-o 輸出目錄
-e  設(shè)定默認(rèn)質(zhì)量控制數(shù)试和，默認(rèn)是0.1讯泣，即ERROR rate大于10%的read 會(huì)被舍棄，如果添加了--paired參數(shù)則會(huì)舍棄一對(duì)reads
--paired 對(duì)于雙端結(jié)果阅悍，一對(duì)reads中若一個(gè)read因?yàn)橘|(zhì)量或其他原因被拋棄晦墙，則對(duì)應(yīng)的另一個(gè)read也拋棄寡痰。
<filename>  #如果是采用illumina雙端測(cè)序的測(cè)序文件连躏，應(yīng)該同時(shí)輸入兩個(gè)文件入热。

1.建立亞硫酸鹽基因組index

bismark_genome_preparation --bowtie2 基因組所在目錄（目錄下應(yīng)含有fa或fasta格式的文件）

2. 比對(duì)

bismark --bowtie2 -p 4 -N 0 -L 20 --quiet --un --ambiguous 亞硫酸鹽基因組index所在目錄 -1 fastq1 -2 fastq2 -o 輸出目錄

-p 線程數(shù) 
-N 允許錯(cuò)配數(shù)目 
-L 比對(duì)時(shí)建立的seed大小 
--quiet 不在控制臺(tái)輸出比對(duì)流程信息 
--un 輸出不匹配序列信息到_unmapped_reads.fq.gz中
--ambiguous 輸出多處匹配序列信息到_ambiguous_reads.fq中，不指定則輸出到_unmapped_reads.fq.gz中
-o 輸出目錄
--sam  指定輸出的格式為sam蠢箩，無(wú)此參數(shù)則輸出bam格式文件

輸出結(jié)果有兩個(gè)重要文件逻谦，一個(gè)bismark_bt2_PE_report.txt，一個(gè)bismark_bt2_pe.bam

3-1.去重（可選勇婴，建議對(duì)WGBS使用此步驟，但不應(yīng)將其用于代表性較低的文庫(kù)础米，例如RRBS屁桑，擴(kuò)增子或靶標(biāo)富集文庫(kù)）

deduplicate_bismark -p --bam 輸入的bam文件 -o 輸出目錄

-p 代表雙端測(cè)序
--bam 代表輸入文件為bam文件
-o 輸出目錄

3-2.提取甲基化信息（可選）

bismark_methylation_extractor -p --comprehensive --no_overlap --bedGraph --counts --buffer_size 20G --report --cytosine_report --genome_folder 基因組所在目錄 -o 輸出目錄 輸入的bam文件

-s 輸入文件是從單端讀取數(shù)據(jù)生成的Bismark結(jié)果文件蘑斧。如果既沒有-s也不-p設(shè)置實(shí)驗(yàn)的類型將被自動(dòng)確定
-p 輸入文件是從雙端讀取數(shù)據(jù)生成的Bismark結(jié)果文件。如果既沒有-s也不-p設(shè)置實(shí)驗(yàn)的類型將被自動(dòng)確定
--comprehensive 將可能的甲基化信息都輸出，包括CHG,CHH,CpG
--no_overlap 對(duì)于雙端讀取庸论，read_1和read_2理論上是可能重疊的罐农。這個(gè)選項(xiàng)避免了重復(fù)的甲基化計(jì)算了2次。雖然這消除了對(duì)序列片段中心更多甲基化的計(jì)算偏差麸恍，但實(shí)際上可能會(huì)刪除相當(dāng)一部分?jǐn)?shù)據(jù)，默認(rèn)調(diào)用此參數(shù)
--bedGraph 輸出bedGraph文件
--counts 指在bedGraph中有每個(gè)C上甲基化reads和非甲基化reads的數(shù)目(在--cytosine_report指定的情況下)
--buffer_size 使用指定的內(nèi)存去計(jì)算甲基化信息
--report 會(huì)有一個(gè)甲基化的summary
--cytosine_report 指報(bào)道全基因組所有的CpG
--genome_folder 參考基因組的位置
-o 輸出目錄

重要文件有bismark_bt2_pe.CpG_report.txt（可以用來(lái)變化格式使methylkit包可以讀让羝）和bismark_bt2_pe.bedGraph.gz（可以用IGV打開，報(bào)告給定胞嘧啶的位置及其甲基化狀態(tài)）

3-3.總結(jié)甲基化信息（可選）

bismark2report（使用bismark_bt2_PE_report.txt）
bismark2summary（使用bismark_bt2_pe.bam）

4.排序

samtools sort 輸入的bam文件 -o 輸出的排序后的bam文件

(如要指定目錄的話粹淋，目錄一定要先創(chuàng)建好廓啊，其不能在運(yùn)行時(shí)創(chuàng)建)

5.讀入R

my.methRaw=processBismarkAln(location =bam文件全路徑(用list表示),
                             sample.id=樣品分組(用list表示),
                             assembly="mm10",# 比對(duì)時(shí)所用的參考基因組
                             read.context = "none",#要讀入內(nèi)存的內(nèi)容
                             save.context=c("CpG","CHG","CHH"),#要保存的內(nèi)容
                             save.folder=getwd())#保存路徑

6.回到terminal第步，進(jìn)入工作目錄樊展，去除非一般染色體

cat CpG文件 | grep chr > 新的CpG文件

7.重新讀入R

myobj=methRead(location=CpG文件全路徑(用list表示),
               sample.id=樣品分組(用list表示),
               assembly="mm10",
               treatment=c(1,1,0,0),
               context="CpG",
               mincov = 10)

示例：

library(methylKit)
file.list=list(system.file("extdata", "test1.myCpG.txt", package = "methylKit"),
               system.file("extdata", "test2.myCpG.txt", package = "methylKit"),
               system.file("extdata", "control1.myCpG.txt", package = "methylKit"),
               system.file("extdata", "control2.myCpG.txt", package = "methylKit"))
myobj=methRead(file.list,
               sample.id=list("test1","test2","ctrl1","ctrl2"),
               assembly="hg38",
               treatment=c(1,1,0,0),
               context="CpG",
               mincov = 10) 
#理想情況下墩弯，您應(yīng)該首先過濾具有極高（低）覆蓋率的堿基脓魏，可使用filterByCoverage()函數(shù)解決PCR偏倚性珊燎，
#然后運(yùn)行normalizeCoverage()函數(shù)以標(biāo)準(zhǔn)化樣本之間的覆蓋率芦瘾。
#這兩個(gè)功能將有助于減少統(tǒng)計(jì)測(cè)試中由于某些樣本讀數(shù)的系統(tǒng)過采樣而可能產(chǎn)生的偏差祷愉。
getMethylationStats(myobj[[1]],plot=TRUE,both.strands=FALSE)#樣品統(tǒng)計(jì)信息
getCoverageStats(myobj[[1]],plot=TRUE,both.strands=FALSE)#樣品統(tǒng)計(jì)信息
myobj=filterByCoverage(myobj,lo.count=10,lo.perc=NULL,hi.count=NULL,hi.perc=99.9)
myobj <- normalizeCoverage(myobj)

tiles=tileMethylCounts(myobj,win.size=500,step.size=500)
meth=unite(tiles, destrand=FALSE)#合并樣本_DMR
# meth=unite(myobj, destrand=FALSE)#合并樣本_DML
head(meth)
#樣品聚類信息
getCorrelation(meth,plot=TRUE)
clusterSamples(meth, dist="correlation", method="ward", plot=TRUE)
# hc = clusterSamples(meth, dist="correlation", method="ward", plot=F)
PCASamples(meth, screeplot=TRUE)
PCASamples(meth)

##查找差異甲基化堿基或區(qū)域
myDiff=calculateDiffMeth(meth)
myDiff25p=getMethylDiff(myDiff,difference=25,qvalue=0.01)
diffMethPerChr(myDiff,plot=T,qvalue.cutoff=0.01, meth.cutoff=25)

##統(tǒng)計(jì)甲基化位點(diǎn)的基因組分布和cpg島分布(即注釋差異甲基化的堿基或區(qū)域)
library(genomation)
myDiff_GRanges <- as(myDiff25p,"GRanges")
gene.obj=readTranscriptFeatures("c:/Users/ZSY/Desktop/DNA_methylation/hg38.bed.txt")#讀取bed文件躯嫉，有關(guān)啟動(dòng)子/外顯子/內(nèi)含子的注釋
diffAnn=annotateWithGeneParts(myDiff_GRanges,gene.obj)# 差異甲基化位點(diǎn)的基因組分布
#library(TxDb.Hsapiens.UCSC.hg38.knownGene)
#diffAnn <- annotateDMRInfo(myDiff_GRanges, 'TxDb.Hsapiens.UCSC.hg38.knownGene')

cpg.obj=readFeatureFlank("c:/Users/ZSY/Desktop/DNA_methylation/hg38.bed.txt",feature.flank.name=c("CpGi","shores"))#讀取CpG島（CpGi）和CpG海岸注釋
diffCpGann=annotateWithFeatureFlank(myDiff_GRanges,cpg.obj$CpGi,cpg.obj$shores,
                                    feature.name="CpGi",
                                    flank.name="shores")#差異甲基化位點(diǎn)的CpG島分布

head(getMembers(diffAnn))#獲得感興趣的區(qū)域是否與外顯子/內(nèi)含子/啟動(dòng)子重疊
head(getMembers(diffCpGann))#獲得感興趣的區(qū)域是否與CpG島重疊
head(getAssociationWithTSS(diffAnn))#獲得距TSS的距離最近的基因名稱
getTargetAnnotationStats(diffAnn,percentage=TRUE,precedence=TRUE)#與內(nèi)含子/外顯子/啟動(dòng)子重疊的差異甲基化區(qū)域的百分比/數(shù)目
plotTargetAnnotation(diffAnn,precedence=TRUE,main="differential methylation annotation")#上面的數(shù)據(jù)畫圖
getFeatsWithTargetsStats(diffAnn,percentage=TRUE)#與差異甲基化堿基重疊的內(nèi)含子/外顯子/啟動(dòng)子占所有的內(nèi)含子/外顯子/啟動(dòng)子的百分比
plotTargetAnnotation(diffCpGann,col=c("green","gray","white"),main="differential methylation annotation")#顯示CpG島，CpG海岸和其他地區(qū)差異甲基化堿基的百分比

上面所用的gene和cpg bed文件可從ucsc下載

最后編輯于：2022.04.15 22:23:14

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末哄陶，一起剝皮案震驚了整個(gè)濱河市帆阳，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌屋吨，老刑警劉巖蜒谤，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異至扰，居然都是意外死亡鳍徽，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門敢课，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)阶祭，“玉大人，你說(shuō)我怎么就攤上這事直秆”裟迹” “怎么了？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵圾结，是天一觀的道長(zhǎng)瑰剃。經(jīng)常有香客問我，道長(zhǎng)筝野，這世上最難降的妖魔是什么培他？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任鹃两，我火速辦了婚禮，結(jié)果婚禮上舀凛，老公的妹妹穿的比我還像新娘俊扳。我一直安慰自己，他們只是感情好猛遍，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布馋记。她就那樣靜靜地躺著，像睡著了一般懊烤。火紅的嫁衣襯著肌膚如雪梯醒。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天腌紧，我揣著相機(jī)與錄音茸习，去河邊找鬼。笑死壁肋，一個(gè)胖子當(dāng)著我的面吹牛号胚，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播浸遗，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼猫胁，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了跛锌？” 一聲冷哼從身側(cè)響起弃秆，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎髓帽，沒想到半個(gè)月后菠赚，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡郑藏，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年锈至，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片译秦。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡峡捡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出筑悴，到底是詐尸還是另有隱情们拙，我是刑警寧澤，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布阁吝，位于F島的核電站砚婆，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜装盯，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一坷虑、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧埂奈，春花似錦迄损、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案芹敌，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至垮抗，卻和暖如春氏捞，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背冒版。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工液茎，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人辞嗡。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓捆等，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親欲间。傳聞我的和親對(duì)象是個(gè)殘疾皇子楚里，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353