前面給大家介紹了新版的TCGA數(shù)據(jù)庫(kù)拌禾,通過(guò)文字和視頻給大家講解了如何從TCGA數(shù)據(jù)庫(kù)下載RNAseq數(shù)據(jù)带斑,miRNAseq數(shù)據(jù)以及體細(xì)胞突變數(shù)據(jù)
? 新版TCGA數(shù)據(jù)庫(kù)RNAseq數(shù)據(jù)下載
? 新版TCGA數(shù)據(jù)庫(kù)miRNA數(shù)據(jù)下載
? 【視頻講解】下載TCGA數(shù)據(jù)庫(kù)中突變數(shù)據(jù)
以及如何合并成矩陣
? 【視頻講解】R代碼合并新版TCGA中RNAseq表達(dá)譜矩陣
? 【視頻講解】R代碼合并新版TCGA中miRNA表達(dá)譜矩陣
? 零代碼合并新版TCGA中RNAseq和miRNA表達(dá)譜
? R代碼合并TCGA體細(xì)胞突變數(shù)據(jù)
? 【R實(shí)戰(zhàn)】使用maftools復(fù)現(xiàn)SCI文章中的體細(xì)胞突變瀑布圖
今天小編就來(lái)跟大家聊聊拦惋,如何從TCGA數(shù)據(jù)庫(kù)中下載DNA甲基化數(shù)據(jù)。我們還是以TCGA-CHOL(膽管癌)這套數(shù)據(jù)給大家舉例呀癣。
1. 打開(kāi)TCGA數(shù)據(jù)庫(kù)官網(wǎng),https://portal.gdc.cancer.gov/冗恨。在對(duì)話框中輸入想要查找的腫瘤的名稱。這里以TCGA-CHOL這套數(shù)據(jù)為例味赃。點(diǎn)擊PR, TCGA-CHOL掀抹。
2. 點(diǎn)擊Methylation Array后面的36(Cases數(shù))。TCGA里面的DNA甲基化數(shù)據(jù)大多數(shù)是采用illumina的450K甲基化芯片檢測(cè)得到的心俗。
3. 在跳轉(zhuǎn)的頁(yè)面中傲武,點(diǎn)擊左上角的Files,然后勾選Methylation Beta Value城榛。這個(gè)時(shí)候揪利,文件數(shù)就從原來(lái)的145個(gè)變成了45個(gè)。最后點(diǎn)擊Add All Files to Cart狠持。
4.點(diǎn)擊右上角的Cart疟位,然后點(diǎn)擊Sample Sheet,下載樣本信息表喘垂,得到gdc_sample_sheet.2022-08-06.tsv文件甜刻。
5. 點(diǎn)擊download,選擇Cart正勒,進(jìn)行下載罢吃。會(huì)得到一個(gè).tar.gz的壓縮文件gdc_download_20220806_013206.570127.tar.gz。這個(gè)里面就是45個(gè)樣本的甲基化數(shù)據(jù)了昭齐。
6. 創(chuàng)建一個(gè)TCGA_CHOL文件夾尿招,然后在TCGA_CHOL下創(chuàng)建一個(gè)methylation文件夾,將gdc_download_20220806_013206.570127.tar.gz拷貝到methylation里解壓阱驾。前面下載的gdc_sample_sheet.2022-08-06.tsv拷貝到TCGA_CHOL就谜,更名為methylation_sample_sheet.tsv。最終得到的文件夾結(jié)構(gòu)如下
methylation文件夾的結(jié)果如下里覆,包含45個(gè)單獨(dú)的文件夾
每個(gè)文件夾下面是一個(gè)樣本的DNA甲基化數(shù)據(jù)
打開(kāi)這個(gè)betas.txt文件丧荐,內(nèi)容如下。第一列為450K芯片的探針I(yè)D喧枷,每一個(gè)對(duì)應(yīng)一個(gè)CpG位點(diǎn)虹统,后面是代表甲基化水平的beta值,從0-1隧甚,0表示完全非甲基化车荔,1表示完全甲基化。
今天的分享就先到這里戚扳,后面我們會(huì)給大家講解如何使用R代碼將這45個(gè)樣本的甲基化值合并成一個(gè)矩陣忧便。