1. 準備工作:
- 登陸TCGA數(shù)據(jù)庫GDC界面:https://portal.gdc.cancer.gov/
TCGA GDC界面 -
首先確保Cart中沒有之前的文件記錄嚼摩,如果有其他文件(即文件數(shù)不為0)以政,清空Cart。
核對Cart已清空 -
如果Cart文件數(shù)不為0秀撇,則點擊進入Cart界面進行清空嗅绰。
清空Cart
2. 選擇樣本類型及性質(zhì):
- 點擊Repository進入數(shù)據(jù)倉庫舍肠,隨后點擊Cases樣本類型及性質(zhì)的選擇:
點擊Cases -
首先確定樣本部位,以前列腺癌樣本舉例:
選擇樣本部位 -
選擇樣本來源項目窘面,如果只分析TCGA的樣本翠语,則只選擇TCGA:
選擇項目來源 -
我們之前的一些選擇,會不斷縮小樣本范圍财边,所以我們發(fā)現(xiàn)Project選項下只有一個TCGA-PRAD肌括,我們可不用點擊,不選擇表示該選項下的內(nèi)容都要酣难。
Disease Type這里根據(jù)分析需要進行選擇谍夭,這里我為了統(tǒng)一病理類型,進行了選擇憨募。
Gender無特殊需要可不進行選擇慧库。
Vital Status一般我們需要進行生存分析的話,就選擇alive和dead的患者馋嗜,not reported的患者表示生存資料不全齐板,可以進行剔除。
Age at Diagnosis以及Days to Death根據(jù)自己課題需要進行設定葛菇,一般情況下默認不設定篩選條件甘磨。
-
Race和Ethnicity一般情況下不設定篩選條件,并且這里的nor reported的樣本過于多眯停,我們不進行篩選了济舆,以免丟失過多樣本數(shù)。
3. 選擇組學數(shù)據(jù)類型及格式:
- 點擊Files選擇數(shù)據(jù)類型及格式莺债。
- Data Category這里用最常見的轉(zhuǎn)錄組數(shù)據(jù)舉例滋觉,選擇transcriptome profiling.
- Data Type選擇Gene Expression Quantification,代表蛋白編碼基因和長鏈非編碼基因的測序數(shù)據(jù)齐邦。miRNA基因的測序數(shù)據(jù)不包含在其中椎侠,需要選擇miRNA Expression Quantification而不是Gene Expression Quantification。
- Experimental Strategy只有一個選擇措拇,默認不選我纪,Workflow Type根據(jù)自己需求,一般常用的是Counts數(shù)據(jù)或FPKM數(shù)據(jù)。
*一般選到這里就不再點擊其他篩選條件了浅悉,而且一般其他選項也只剩一個選項了趟据。 -
Access表明數(shù)據(jù)權(quán)限,我們普通用戶只能使用open的數(shù)據(jù)术健,如果出現(xiàn)了非開放的數(shù)據(jù)汹碱,記得這里只點擊open。
選擇數(shù)據(jù)類型及格式
4. 下載選擇好的數(shù)據(jù):
-
將選擇好的數(shù)據(jù)加入購物車荞估,隨后點擊Cart進入購物車界面咳促。
將選擇好的數(shù)據(jù)加入購物車 - 在Cart界面分別點擊Metadata(下載注釋文件)以及Download(下載數(shù)據(jù))。Download選項提供兩種數(shù)據(jù)下載途徑:Manifest表示下載Manifest文件后使用gdc-client軟件下載數(shù)據(jù)(gdc-client下載數(shù)據(jù)方法)泼舱,這種方法適合下載大文件等缀;Cart表示通過瀏覽器直接下載,該方法更方便娇昙,但是不適合下載很大的文件尺迂。
- 至此TCGA數(shù)據(jù)下載已完成。