Bismark 是一個(gè)用于處理甲基化測(cè)序數(shù)據(jù)的工具,特別是針對(duì)二硫化處理的 DNA 測(cè)序數(shù)據(jù)闸翅。它的主要功能是將測(cè)序讀段比對(duì)到參考基因組再芋,并提取甲基化信息。以下是 Bismark 的基本原理和工作流程:
1. 二硫化處理的背景
在二硫化處理的過(guò)程中坚冀,DNA 樣本會(huì)經(jīng)過(guò)化學(xué)處理济赎,使得未甲基化的胞嘧啶(C)轉(zhuǎn)變?yōu)槟蜞奏ぃ║),而甲基化的胞嘧啶則保持不變记某。在后續(xù)的 PCR 擴(kuò)增和測(cè)序過(guò)程中司训,尿嘧啶會(huì)被替換為胸腺嘧啶(T),因此在測(cè)序數(shù)據(jù)中液南,甲基化和未甲基化的胞嘧啶會(huì)以不同的方式表現(xiàn)出來(lái)壳猜。
1. 亞硫酸氫鹽處理 (Bisulfite Treatment) 的化學(xué)反應(yīng):
- 目標(biāo): 區(qū)分甲基化的胞嘧啶 (5mC) 和未甲基化的胞嘧啶 (C)。
-
過(guò)程:
- DNA 樣本與亞硫酸氫鹽 (bisulfite) 試劑反應(yīng)滑凉。
- 亞硫酸氫鹽會(huì)與胞嘧啶發(fā)生脫氨基反應(yīng)统扳,將其轉(zhuǎn)化為尿嘧啶 (U)。
- 關(guān)鍵點(diǎn): 5-甲基胞嘧啶 (5mC) 由于甲基基團(tuán)的存在畅姊,對(duì)亞硫酸氫鹽的脫氨基反應(yīng)具有抵抗性咒钟,因此不會(huì)被轉(zhuǎn)化,仍然保持為 5mC若未。
-
結(jié)果:
- 未甲基化的胞嘧啶 (C) → 尿嘧啶 (U)
- 甲基化的胞嘧啶 (5mC) → 保持不變 (5mC)
2. 測(cè)序過(guò)程 (Sequencing):
- 原理: 大多數(shù)測(cè)序平臺(tái)(例如 Illumina)在測(cè)序過(guò)程中會(huì)將尿嘧啶 (U) 讀取為胸腺嘧啶 (T)朱嘴。這是因?yàn)?U 和 T 在 DNA 復(fù)制過(guò)程中都與腺嘌呤 (A) 配對(duì),測(cè)序儀無(wú)法區(qū)分它們陨瘩。
-
結(jié)果:
- 原本是未甲基化的胞嘧啶 (C) 的位置腕够,經(jīng)過(guò)亞硫酸氫鹽處理后變成尿嘧啶 (U),測(cè)序時(shí)被讀作胸腺嘧啶 (T)舌劳。
- 原本是甲基化的胞嘧啶 (5mC) 的位置帚湘,經(jīng)過(guò)亞硫酸氫鹽處理后保持不變,測(cè)序時(shí)仍然被讀作胞嘧啶 (C)甚淡。
3. 綜合理解:
-
比較: 通過(guò)比較測(cè)序結(jié)果和原始基因組序列大诸,我們可以推斷出哪些胞嘧啶發(fā)生了甲基化。
- 如果基因組上某個(gè)胞嘧啶位點(diǎn)在測(cè)序結(jié)果中顯示為胸腺嘧啶 (T)贯卦,則說(shuō)明該位點(diǎn)在原始 DNA 樣本中是未甲基化的资柔。
- 如果基因組上某個(gè)胞嘧啶位點(diǎn)在測(cè)序結(jié)果中仍然顯示為胞嘧啶 (C),則說(shuō)明該位點(diǎn)在原始 DNA 樣本中是甲基化的撵割。
說(shuō)明:
假設(shè)我們有一段 DNA 序列:
原始 DNA: 5'-ATGC**C**G**5mC**G**C**T-3'
其中贿堰,加粗的 C 表示胞嘧啶,5mC 表示甲基化的胞嘧啶啡彬。
- 亞硫酸氫鹽處理后:
處理后 DNA: 5'-ATGU**U**G**5mC**GU**U**T-3'
- 測(cè)序后 (U 被讀作 T):
測(cè)序結(jié)果: 5'-ATG**T**TG**C**GT**T**T-3'
- 與原始基因組比較:
原始 DNA: 5'-ATGC**C**G**5mC**G**C**T-3'
測(cè)序結(jié)果: 5'-ATG**T**TG**C**GT**T**T-3'
通過(guò)比較羹与,我們可以發(fā)現(xiàn):
- 第二個(gè)胞嘧啶 (原本未甲基化) 在測(cè)序結(jié)果中變成了 T,說(shuō)明它被亞硫酸氫鹽轉(zhuǎn)化了庶灿,因此是未甲基化的纵搁。
- 第三個(gè)胞嘧啶 (原本已甲基化) 在測(cè)序結(jié)果中仍然是 C,說(shuō)明它沒有被亞硫酸氫鹽轉(zhuǎn)化往踢,因此是甲基化的腾誉。
一句話總結(jié):最后能夠測(cè)到的C都是甲基化的
2. Bismark 的工作流程
Bismark 的工作流程主要包括以下幾個(gè)步驟:
a. 生成雙鏈比對(duì)基因組
Bismark 首先會(huì)根據(jù)參考基因組生成一個(gè)雙鏈比對(duì)的基因組索引。這一過(guò)程會(huì)考慮到二硫化處理的影響峻呕,生成兩個(gè)版本的基因組:一個(gè)是原始的參考基因組利职,另一個(gè)是將所有的 C 替換為 T 的版本。
b. 比對(duì)測(cè)序讀段
接下來(lái)山上,Bismark 使用比對(duì)工具(如 Bowtie2)將測(cè)序讀段比對(duì)到上述生成的雙鏈基因組索引中眼耀。比對(duì)的結(jié)果會(huì)生成一個(gè) BAM 文件,記錄每個(gè)讀段在基因組中的位置佩憾。
c. 提取甲基化信息
在比對(duì)完成后哮伟,Bismark 會(huì)分析 BAM 文件,提取每個(gè)胞嘧啶的甲基化狀態(tài)妄帘。具體來(lái)說(shuō)楞黄,它會(huì)檢查每個(gè) C 的位置,判斷其在測(cè)序讀段中的表現(xiàn)(是 C 還是 T)抡驼,從而推斷出該位置的甲基化狀態(tài)鬼廓。
d. 輸出結(jié)果
最后,Bismark 會(huì)將提取的甲基化信息輸出為不同格式的文件(如 bedGraph致盟、Methylation Calls 等)碎税,供后續(xù)分析使用尤慰。
3. 結(jié)果分析
Bismark 生成的結(jié)果可以用于多種下游分析,例如:
- 甲基化水平的比較
- 甲基化模式的研究
- 甲基化與基因表達(dá)之間的關(guān)系分析