前面小編給大家介紹了新版的TCGA數(shù)據(jù)庫蚁鳖,通過文字和視頻給大家講解了如何從TCGA數(shù)據(jù)庫下載RNAseq數(shù)據(jù)户辞,miRNAseq數(shù)據(jù)澄惊,體細胞突變數(shù)據(jù)以及DNA甲基化數(shù)據(jù)
? 新版TCGA數(shù)據(jù)庫RNAseq數(shù)據(jù)下載
? 新版TCGA數(shù)據(jù)庫miRNA數(shù)據(jù)下載
? 【視頻講解】下載TCGA數(shù)據(jù)庫中突變數(shù)據(jù)
? 如何從TCGA數(shù)據(jù)庫下載DNA甲基化數(shù)據(jù)
以及如何合并成矩陣
? 【視頻講解】R代碼合并新版TCGA中RNAseq表達譜矩陣
? 【視頻講解】R代碼合并新版TCGA中miRNA表達譜矩陣
? 【R實戰(zhàn)】使用maftools復現(xiàn)SCI文章中的體細胞突變瀑布圖
今天小編接著上次的內(nèi)容忿薇,給大家講解如何使用R代碼來合并TCGA數(shù)據(jù)庫中DNA甲基化數(shù)據(jù)。整體思路跟前面合并RNAseq數(shù)據(jù),miRNA-seq數(shù)據(jù)是一致的。
1.讀取DNA甲基化sample sheet中的內(nèi)容,在? 如何從TCGA數(shù)據(jù)庫下載DNA甲基化數(shù)據(jù)中我們已經(jīng)詳細介紹過了如何下載sample sheet李命。
sample sheet文件中第一列為存放甲基化數(shù)據(jù)的文件夾,第二列為存放甲基化數(shù)據(jù)的文件名箫老。
2.利用R的循環(huán)封字,依次去讀取每個甲基化文件中的內(nèi)容。該文件只有兩列耍鬓,第一列為450K芯片的探針I(yè)D阔籽,每一個對應一個CpG位點,后面是代表甲基化水平的beta值牲蜀,從0-1笆制,0表示完全非甲基化,1表示完全甲基化涣达。
3. 按照列將每個樣本的DNA甲基化數(shù)據(jù)合并起來在辆,因為每個文件中探針的ID好都是一樣的,并且順序也是一致的峭判。以TCGA-CHOL這套數(shù)據(jù)為例,一共有45個樣本棕叫,每個樣本有485577甲基化位點的數(shù)據(jù)林螃。那么合并完成之后,我們就可以得到一個485577行俺泣,45列的矩陣疗认。如下圖所示
我們可以看到完残,有些甲基化位點的甲基化水平在某些樣本中為NA,我們也可以合并完成之后横漏,刪除包含NA的行谨设,即刪除這個甲基化探針。
完整合并DNA甲基化數(shù)據(jù)的R代碼+詳細注釋???