RRBS數(shù)據(jù)分析（一）

1飞袋、RRBS簡(jiǎn)介

RRBS即reduced representation bisulfite sequencing：
第一步：使用MSPI內(nèi)切酶處理碴犬，其識(shí)別序列是CCGG陕靠，切完之后，雙鏈序列如下：

CGG--------------------------------C
  C--------------------------------GGC

第二步：自動(dòng)補(bǔ)齊

CGG--------------------------------CCG

GCC--------------------------------GGC

第三步：bisulfite conversion
將雙鏈中沒有甲基化的C變?yōu)閁嘉熊，甲基化的C保持不變夏块，這樣轉(zhuǎn)化之后疏咐，原來互補(bǔ)的兩條雙鏈就不互補(bǔ)了

2、數(shù)據(jù)預(yù)處理

2.1 fastqc質(zhì)量檢測(cè)

fastqc -t 2 -o ./00_fastqc R1.fastq R2.fastq

主要看Q30的百分比脐供，以及reads中有無接頭

image

從圖中可看出浑塞，reads中只有illumina universal adapter，因此在后續(xù)的處理中只需處理這一種接頭

2.2 trim_galore去除接頭

trim_galore --phred33 --illumina --stringency 3 -e 0.1  \
            --gzip --length 35 --rrbs --fastqc -o ./cut_adapter \
            --paired R1.fastq R2.fastq

詳細(xì)參數(shù)使用trim_galore -h查看政己，這里特別解釋一下--rrbs這個(gè)參數(shù)酌壕，是專門用于用MspI處理的RRBS數(shù)據(jù)，加上這個(gè)參數(shù)歇由，在切除接頭之后會(huì)自動(dòng)切除2bp的堿基卵牍，即上面說的自動(dòng)補(bǔ)齊的那兩個(gè)堿基。另外--illumina這個(gè)參數(shù)是用來切除illumina universal adapter（AGATCGGAAGAGC）的沦泌，另外參數(shù)--nextera切除nextera adapter（CTGTCTCTTATA）糊昙，--small_rna切除Illumina Small RNA 3' Adapter（GATCGTCGGACT）

3、使用bismark轉(zhuǎn)換基因組序列

參考基因組下載：

https://support.illumina.com/sequencing/sequencing_software/igenome.html

bismark_genome_preparation --path_to_bowtie dir_bowtie --genomic_composition \
           --verbose dir_ref dir_hg38.fa

4谢谦、序列比對(duì)

bismark dir_ref -1 $R1 -2 $R2 --path_to_bowtie $bowtie \
        -o ./01_align --rg_tag --rg_id $fname --rg_sample $fname \
        --unmapped --prefix $fname --basename $fname --nucleotide_coverage

比對(duì)好的結(jié)果為bam格式的释牺，其內(nèi)容與BWA比對(duì)后的bam文件稍微有些不同

image

上面是一條bam文件的記錄，共17列回挽，下面分別解釋一下各列的含義：

第1列：

E00500:282:HN3M3CCXY:7:1101:8613:2628_1:N:0:ATCACG
  #reads編號(hào)没咙，_1代表來自原來的R1，后面的ATCACG為index序列</pre>

第2列:

此列為一數(shù)值厅各，具體解釋如下圖

image

相同數(shù)值對(duì)于R1和R2來說代表不同的鏈镜撩，此外，這些數(shù)值也是由多個(gè)值相加所得队塘，下面這幾個(gè)標(biāo)簽都是2的n次方袁梗，隨機(jī)挑選其中的幾個(gè)，他們的和是唯一的：


1	代表這個(gè)序列采用的是PE雙端測(cè)序
2	代表這個(gè)序列和參考序列完全匹配憔古，沒有插入缺失
4	代表這個(gè)序列沒有mapping到參考序列上
8	代表這條序列的另一端序列沒有比對(duì)到參考序列上遮怜，如果這條是R1，它對(duì)應(yīng)的R2端沒有比對(duì)上
16	代表這個(gè)序列比對(duì)到參考序列的負(fù)鏈上
32	代表這個(gè)序列對(duì)應(yīng)的另一端序列比對(duì)到參考序列的負(fù)鏈上
64	代表這個(gè)序列是R1端序列
128	代表這個(gè)序列是R2端序列
256	代表這個(gè)序列不是主要的比對(duì)鸿市，一條序列可能比對(duì)到了多個(gè)位置锯梁，只有一個(gè)是首要的比對(duì)位置
512	代表這個(gè)序列在QC時(shí)失敗了，被過濾不掉了
1024	代表這個(gè)序列是PCR重復(fù)序列
2048	代表這個(gè)序列是補(bǔ)充的比對(duì)焰情，不常用

第3-4列：

 chr4    184651014

代表這條reads比對(duì)到4號(hào)染色體的184651014這個(gè)位置

第5列：

為一數(shù)值陌凳，Mapping quality，比對(duì)的質(zhì)量分?jǐn)?shù)内舟，越高說明該read比對(duì)到參考基因組上的位置越唯一

第6列：

CIGAR值合敦，堿基匹配上的堿基數(shù)。


M	match/mismatch	I	insert
D	deletion	N	skipped（跳過這段區(qū)域）
S	soft clipping（被剪切的序列存在于序列中）	H	hard clipping（被剪切的序列不存在于序列中）
P	padding(填充)

135M

代表135個(gè)堿基在比對(duì)時(shí)完全比對(duì)

3S6M1P1I4M

代表前三個(gè)堿基被剪切去除了验游，然后6個(gè)比對(duì)上了充岛，然后打開了一個(gè)缺口，有一個(gè)堿基插入耕蝉，最后是4個(gè)比對(duì)上了崔梗，是按照順序的

第7列：

 MRNM(chr)，mate的reference sequence name垒在，實(shí)際上就是mate比對(duì)到的染色體號(hào)蒜魄，若是沒有mate，則是*场躯，若為=則代表與此條比對(duì)到相同的染色體上谈为。

第8列：

mate position，mate比對(duì)到參考序列上的第一個(gè)堿基位置推盛，若無mate,則為0

第9列：

insert size

第10列：

Sequence峦阁，就是read的堿基序列，如果是比對(duì)到負(fù)鏈上則對(duì)read進(jìn)行了reverse completed

第11列：

ASCII耘成，read質(zhì)量的ASCII編碼
第12列：

NM-tag榔昔，與bowtie中NM:i相同。read string轉(zhuǎn)換成reference string需要的最少核苷酸的edits:插入/缺失/替換
第13列：

XX-tag瘪菌，對(duì)錯(cuò)配的描述撒会，不包括indel(插入和缺失)

XX:Z:2C4C2C6C1C1AC18C3C15C4C2CC14

表示2個(gè)堿基完全匹配，一個(gè)C替換师妙，接著4個(gè)堿基完全匹配诵肛，一個(gè)C發(fā)生替換

第14列：
XM-tag，methylation call string

XM:Z:........xz.z....hx............x....h.hh....xz....xz...x....h.hh..hhhx....z...h......h

image

CHG默穴、CHH怔檩、CG代表甲基化的三種模式

CG：C后面接的是G

CHG：C后面跟了任意一個(gè)堿基褪秀，再接上一個(gè)G

CHH：C后面跟的是除了G以外的任何堿基

第15列：

XR-tag，read conversion state for the alignment 薛训。

共兩種轉(zhuǎn)換：CT和GA媒吗，GA就是指將read里的所有G轉(zhuǎn)換成A
第16列：

XG-tag，genome conversion state for the alignment乙埃。

共兩種：GA和CT闸英。CT是指將全基因組上所有的C轉(zhuǎn)換成T
第17列：

表示樣本名稱，是在做比對(duì)時(shí)通過--rg_tag自己設(shè)置的

5介袜、去除重復(fù)序列

deduplicate_bismark --paired --bam bam_file --output_dir dir_bamfile

注：RRBS其實(shí)是不需要做這一步的

6甫何、抽提出甲基化的統(tǒng)計(jì)信息

bismark_methylation_extractor --paired-end --report --output dir --gzip --bedGraph bam_file

產(chǎn)生的結(jié)果文件如下：

CHG_OB_FF01N_ATCACG_S9_L007_pe.deduplicated.txt.gz
CHG_OT_FF01N_ATCACG_S9_L007_pe.deduplicated.txt.gz
CHH_OB_FF01N_ATCACG_S9_L007_pe.deduplicated.txt.gz
CHH_OT_FF01N_ATCACG_S9_L007_pe.deduplicated.txt.gz
CpG_OB_FF01N_ATCACG_S9_L007_pe.deduplicated.txt.gz
CpG_OT_FF01N_ATCACG_S9_L007_pe.deduplicated.txt.gz
FF01N_ATCACG_S9_L007_pe.deduplicated.bedGraph.gz
FF01N_ATCACG_S9_L007_pe.deduplicated.bismark.cov.gz
FF01N_ATCACG_S9_L007_pe.deduplicated.M-bias.txt
FF01N_ATCACG_S9_L007_pe.deduplicated_splitting_report.txt

最后編輯于：2018.12.19 10:15:43

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市遇伞，隨后出現(xiàn)的幾起案子辙喂，更是在濱河造成了極大的恐慌，老刑警劉巖赃额，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件加派，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡跳芳，警方通過查閱死者的電腦和手機(jī)芍锦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來飞盆，“玉大人娄琉，你說我怎么就攤上這事∠判” “怎么了孽水？”我有些...
開封第一講書人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長城看。經(jīng)常有香客問我女气，道長，這世上最難降的妖魔是什么测柠？我笑而不...
開封第一講書人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任炼鞠，我火速辦了婚禮，結(jié)果婚禮上轰胁，老公的妹妹穿的比我還像新娘谒主。我一直安慰自己，他們只是感情好赃阀，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布霎肯。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪观游。梳的紋絲不亂的頭發(fā)上搂捧，一...
開封第一講書人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說
那天，我揣著相機(jī)與錄音备典，去河邊找鬼异旧。笑死意述，一個(gè)胖子當(dāng)著我的面吹牛提佣，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播荤崇，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼拌屏，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了术荤？” 一聲冷哼從身側(cè)響起倚喂，我...
開封第一講書人閱讀 38,985評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎瓣戚，沒想到半個(gè)月后端圈，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡子库，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年舱权，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片仑嗅。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡宴倍，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出仓技，到底是詐尸還是另有隱情鸵贬，我是刑警寧澤，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布脖捻，位于F島的核電站阔逼，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏地沮。R本人自食惡果不足惜嗜浮，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望诉濒。院中可真熱鬧周伦，春花似錦、人聲如沸未荒。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至寨腔，卻和暖如春速侈，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背迫卢。一陣腳步聲響...
開封第一講書人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工倚搬，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人乾蛤。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓每界，卻偏偏與公主長得像，于是被迫代替她去往敵國和親家卖。傳聞我的和親對(duì)象是個(gè)殘疾皇子眨层，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354

RRBS數(shù)據(jù)分析（一）

1飞袋、RRBS簡(jiǎn)介

2、數(shù)據(jù)預(yù)處理

2.1 fastqc質(zhì)量檢測(cè)

2.2 trim_galore去除接頭

3、使用bismark轉(zhuǎn)換基因組序列

5介袜、去除重復(fù)序列

6甫何、抽提出甲基化的統(tǒng)計(jì)信息

推薦閱讀更多精彩內(nèi)容