Hi,大家好。最近在幫師姐分析甲基化土至,順便就把甲基化分析過程整理一下购对。
我們先來看看什么是DNA甲基化。
DNA甲基化(DNA methylation)為DNA化學(xué)修飾的一種形式陶因,能夠在不改變DNA序列的前提下骡苞,改變遺傳表現(xiàn)。所謂DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5號碳位共價鍵結(jié)合一個甲基基團解幽。大量研究表明贴见,DNA甲基化能引起染色質(zhì)結(jié)構(gòu)、DNA構(gòu)象躲株、DNA穩(wěn)定性及DNA與蛋白質(zhì)相互作用方式的改變片部,從而控制基因表達[2]。
在成熟體細胞組織中霜定,DNA甲基化一般發(fā)生于CpG雙核苷酸(CpG dinucleotide)部位吞琐;而非CpG甲基化則于胚胎干細胞中較為常見[1,2]然爆。植物體內(nèi)胞嘧啶的甲基化則可分為對稱的CpG(或CpNpG),或是不對稱的CpNpNp形式(C與G是堿基黍图;p是磷酸根曾雕;N指的是任意的核苷酸)。DNA甲基化可以理解為基因組上的表觀修飾助被,也就是說甲基化可以導(dǎo)致基因失活剖张,去甲基化則代表基因的激活與表達。
從公司拿到DNA甲基化測序數(shù)據(jù)后揩环,我們就可以進行DNA甲基化分析了搔弄。
DNA甲基化數(shù)據(jù)處理所使用的軟件為Bismark(https://www.bioinformatics.babraham.ac.uk/projects/bismark/).
依賴軟件
需要用戶提前安裝好Bowtie2(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)和Hisat2(https://ccb.jhu.edu/software/hisat2/index.shtml),bam文件輸出需要提前安裝Samtools(http://samtools.sourceforge.net/)
一、下載軟件
我們可以從官網(wǎng)直接下載丰滑,也可以從GitHut(https://github.com/FelixKrueger/Bismark)下載
下載好顾犹,進入Bismark
git clone https://github.com/FelixKrueger/Bismark.git
cd Bismark
./bismark_genome_preparation –version
接下來分析,我們使用軟件中的示例文件,在travis_files文件中
cd travis_files
ls
二褒墨、對基因組構(gòu)建索引
/bismark/bismark_genome_preparation --path_to_aligner /usr/bin/bowtie2/ --verbose /data/travis_files
結(jié)果生成Bisulfite_Genome文件夾,使用tree命令查看文件夾下都有什么文件
三炫刷、運行bismark, 進行比對
對于雙端測序
bismark --genome ./travis_files/ -1 ./travis_files/test_R1.fastq.gz -2 ./travis_files/test_R2.fastq.gz -p 2 -o ./results/
這里將輸出兩個文件:
- test_R1_bismark_bt2_pe.bam (contains all alignments plus methylation call strings)
- test_R1_bismark_bt2_PE_report.txt (contains alignment and methylation summary)
四、刪除重復(fù)數(shù)據(jù)
./deduplicate_bismark --bam ./results/test_R1_bismark_bt2_pe.bam --output_dir ./results/
五郁妈、提取甲基化位點
./bismark_methylation_extractor -p --gzip --bedGraph --buffer_size 10G --cytosine_report --comprehensive --genome_folder ./travis_files/ ./results/test_R1_bismark_bt2_pe.bam -o ./results/
--cytosine_report生成基因組中所有cytosine的全基因組甲基化報告浑玛。
--comprehensive會合并正反鏈的數(shù)據(jù),輸出CpG/CHG/CHH三種類型的甲基化文件噩咪,包含了胞嘧啶所有的組合形式顾彰,但我們最關(guān)注的是CpG位點的甲基化。
六胃碾、生成處理報告和總結(jié)報告
./bismark2report
./bismark2summary
結(jié)果解析
bismark2report此腳本使用Bismark比對報告來生成圖形HTML報告頁涨享。
即test_R1_bismark_bt2_PE_report.html, 它包括了比對信息,甲基化信息仆百,M-bias等灰伟,我們可以簡單看一下
前面已經(jīng)提到使用--comprehensive,會輸出CpG/CHG/CHH三種類型的甲基化文件,其中CpG_context_test_R1_bismark_bt2_pe.txt.gz即為CpG甲基化位點的文件栏账。
less CpG_context_test_R1_bismark_bt2_pe.txt.gz
文件中每一列含義
第一列是測序信息
第二列為甲基化狀態(tài)帖族,+為甲基化,-為為甲基化
第三列為染色體
第四列為起始位置(等于終止位置)
第五列為methylation call strings, 即大寫就是甲基化
-
z
- C in CpG context - unmethylated -
Z
- C in CpG context - methylated -
x
- C in CHG context - unmethylated -
X
- C in CHG context - methylated -
h
- C in CHH context - unmethylated -
H
- C in CHH context - methylated -
u
- C in Unknown context (CN or CHN) - unmethylated -
U
- C in Unknown context (CN or CHN) - methylated -
.
- not a C or irrelevant position
test_R1_bismark_bt2_pe.bismark.cov.gz提供了每個位點的甲基化比例
less test_R1_bismark_bt2_pe.bismark.cov.gz
第一列為染色體
第二列為起始位置
第三列為終止位置
第四列為甲基化比例
第五列為甲基化個數(shù)
第六列為未甲基化個數(shù)
如何你還有其他問題挡爵,可以直接看軟件里面README.md,也可以咨詢我竖般。
參考:
1.Dodge, Jonathan E.; Bernard H. Ramsahoyeb, Z. Galen Woa, Masaki Okanoa, En Li. De novo methylation of MMLV provirus in embryonic stem cells: CpG versus non-CpG methylation. Science Direct. May 2002 [2007-06-23].
2.百度百科
- DNA甲基化測序數(shù)據(jù)處理(一):數(shù)據(jù)比對http://www.reibang.com/p/5d7e550abc1a?from=singlemessage