什么是甲基化芯片产园?一文了解 MethylationEPIC 850K 甲基化芯片?
簡(jiǎn)而言之,是基于亞硫酸鹽處理后的DNA序列雜交的信號(hào)探測(cè)橙凳。亞硫酸鹽是甲基化探測(cè)的:金標(biāo)準(zhǔn)“丘损,不管是芯片或者甲基化測(cè)序,都要先對(duì)DNA樣品進(jìn)行亞硫酸鹽處理奕筐。?
Illumina甲基化芯片的發(fā)展主要經(jīng)歷了27K舱痘、450K以及EPIC(即850K)(27K,450K离赫,850K指能測(cè)到的CpG甲基化位點(diǎn))芭逝,目前積累的數(shù)據(jù)主要是450K芯片的。
甲基化相關(guān)名詞
CpG 島:Defned as regions 500 bp, 55% GC and expected/observed CpG ratio of 0.65. 40% of gene promoters contain islands.
CpG shelves:~4Kb from islands.
CpG shores:~2Kb from islands, 75% of tissuespecifc differentially methylated regions found in shores. Methylation in shores shows higher correlation with gene expression than CpG islands.
Differentially methylated regions (DMR):Cell-, tissue-, and condition- specifc differences in methylation.
Enhancer(增強(qiáng)子):DNA短片段渊胸,可激活轉(zhuǎn)錄
Hypermethylation:Most cytosines are methylated.Hypomethylation:Most cytosines do not have 5-mC. Euchromatin and active gene promoters are hypomethylated.
Beta value:通常的甲基化衡量方法被稱(chēng)為“Beta”值; 等于甲基化百分比旬盯,并定義為“Meth”除以“Meth + Unmeth”。(值在0到1之間)
CGI:CpG island 即甲基化島
pd文件:探針注釋文件(3種方法獲若崦汀:從UCSC Xena下載胖翰,從GEO下載對(duì)應(yīng)平臺(tái)的注釋文件,從ChAMP包中提惹欣濉)
betaM:甲基化信號(hào)值表達(dá)矩陣萨咳,也可類(lèi)似表達(dá)矩陣下載原始數(shù)據(jù)IDAT文件后處理
甲基化芯片的計(jì)算(得到甲基化信號(hào)值矩陣)
那么當(dāng)矩陣不合理時(shí),不直接下載甲基化信號(hào)值矩陣時(shí)迂卢,可如何從原始.IDAT文件得到某弦?
1.illumina genomeStudio 軟件(局限小樣本)直接自動(dòng)將原始數(shù)據(jù)IDAT轉(zhuǎn)換成甲基化信號(hào)文件,β=M/(M+U+100) 桐汤,然后使用P值對(duì)數(shù)據(jù)進(jìn)行質(zhì)量過(guò)濾,P值大于0.001的β值被認(rèn)為低于最小強(qiáng)度靶壮,閾值顯示為“NA”怔毛,因?yàn)槲矣玫氖荝和Rstudio,所以繼續(xù)往看下??
2.minfi包有g(shù)etM和getBeta函數(shù)來(lái)分別計(jì)算M-values和Beta-values? ? ?
包的作者認(rèn)為:
M-values具有更好的統(tǒng)計(jì)特性腾降,更適合用于進(jìn)行下游的統(tǒng)計(jì)分析(差異分析等): Beta-values更容易解釋?zhuān)苷f(shuō)明生物學(xué)上的意義
minfi包的一個(gè)函數(shù)read.450k.exp也可以直接讀.IDAT文件(minfi不能讀其壓縮文件)
公式計(jì)算:平均值β=信號(hào)B/(信號(hào)A+信號(hào)B+100)看情況拣度,可能是加0.001,主要是因?yàn)锽eta值在0到1 之間螃壤,加一點(diǎn)防止其為0抗果。
通過(guò)計(jì)算甲基化(信號(hào)A,對(duì)應(yīng)M)和未甲基化(信號(hào)B奸晴,對(duì)應(yīng)U)等位基因之間的強(qiáng)度比來(lái)確定DNA甲基化水平(β值),熒光信號(hào)的比率β=Max( M,O)/[Max(M.0)+Max(U,0)+100)一般來(lái)說(shuō):β值的意義
大于或等于0.6的被認(rèn)為是甲基化冤馏; 等于或小于0.2的被認(rèn)為是完全未甲基化的;? β值在0.2到0.6間被認(rèn)為是部分甲基化
3.CHAMP包下載
甲基化芯片分析需要廠商提供芯片注釋信息(注釋文件)
主要的兩種芯片450k和EPIC(即850k)寄啼,兩種探針都是以cg開(kāi)頭的數(shù)字編號(hào)逮光,芯片注釋也就是提取這些探針的所對(duì)應(yīng)的信息,如探針序列的CpG位置信息墩划,對(duì)應(yīng)的基因信息涕刚,染色體上的位置信息。很多包在安裝的時(shí)候都會(huì)自動(dòng)下載這些注釋信息乙帮,并包裝在一起杜漠,如果我們想要?自己注釋這些探針,就要考慮如何獲取獨(dú)立的注釋信息察净。而所需要注釋數(shù)據(jù)的驾茴,大部分都來(lái)自于兩個(gè)數(shù)據(jù)庫(kù),GEO和TCGA塞绿。
??三種提取注釋信息的方法:從UCSC Xena(TCGA)下載,從GEO下載對(duì)應(yīng)平臺(tái)的注釋文件,?從ChAMP包中提取?三種方法注釋甲基化探針?
例如做450的Manifest,包含了從beedchip到最終的文件的對(duì)應(yīng)號(hào)沟涨,但有部分信息要提前過(guò)濾掉,如一開(kāi)頭的Header异吻,結(jié)尾的control probe. 可從illumina官網(wǎng)直接下載對(duì)應(yīng)的注釋文件裹赴,把Header,control probe,SNP刪除后行數(shù)剛好485512。
芯片甲基化探針數(shù)量相對(duì)人類(lèi)蛋白編碼基因太大诀浪,而我們最關(guān)心的是如何確定基因的啟動(dòng)子區(qū)域甲基化水平棋返,怎么做呢?
1.定義一個(gè)基因的啟動(dòng)子
2.確定該基因的啟動(dòng)子區(qū)域的多個(gè)甲基化的探針信號(hào)值的統(tǒng)計(jì)指標(biāo)
一般分析流程(類(lèi)似mRNA芯片表達(dá)矩陣):
1.甲基化數(shù)據(jù)的下載(主要從GEO和TCGA下載,可用GEOquery從GEO中甲直接下載基化矩陣集雷猪,另外可用睛竣,用Minfi或CHAM下載原始文件.IDAT后處理。
2.數(shù)據(jù)整理求摇,探針注釋?zhuān)攸c(diǎn)在于質(zhì)量控制
3.差異甲基化射沟,三個(gè)層次的甲基化
4.熱圖殊者,火山圖,主成分分析圖
5.功能集注釋分析
6.批量位點(diǎn)甲基化和和表達(dá)相關(guān)性分析
7.批量生存分析