TCGA數(shù)據(jù)挖掘（二）：數(shù)據(jù)下載與整理

管于TCGA數(shù)據(jù)庫中的數(shù)據(jù)下載箱蟆，我們之前有介紹過R語言下載包：R語言TCGA-Assembler包下載TCGA數(shù)據(jù)比肄，同時在介紹數(shù)據(jù)庫的使用教程中也介紹了在線下載以及官方下載工具下載：TCGA數(shù)據(jù)庫使用教程呀非。在線下載以及官方下載工具下載的數(shù)據(jù)是分開的，每個樣本的數(shù)據(jù)的獨(dú)立的，需要自己合并，這需要會R募舟，Python 或者 perl 等編程語言（文末補(bǔ)充內(nèi)容介紹）。

這里我們先介紹TCGAbiolinks包下載數(shù)據(jù)闻察。因?yàn)檫@個包下載的數(shù)據(jù)是合并好的拱礁，不需要整理。

TCGAbiolinks下載TCGA數(shù)據(jù)

在第一講我們介紹TCGAbiolinks包的時候辕漂，介紹了GDCquery這個函數(shù)呢灶，這是下載數(shù)據(jù)時要用到的函數(shù)，除此以外钉嘹，我們還需要GDCdownload函數(shù)鸯乃。GDCdownload函數(shù)使用GDC API或GDC傳輸工具下載GDC數(shù)據(jù)，用戶可以使用查詢參數(shù)查詢的數(shù)據(jù)將保存在一個文件夾中:project/data.category跋涣。函數(shù)的整體框架為：

GDCdownload(query, token.file, method ="api", directory ="GDCdata",files.per.chunk =NULL)

各個參數(shù)介紹如下：

query：這個參數(shù)就是來自GDCquery的結(jié)果缨睡。

token.file：這個是下載受限的文件（僅適用于method=“client”），一般下載用不到陈辱。

method：使用API (POST方法)或gdc客戶端工具宏蛉。選擇“api”,“client”。API更快性置，但是下載過程中數(shù)據(jù)可能會損壞，可能需要重新執(zhí)行揍堰。

directory：下載數(shù)據(jù)的存放目錄/文件夾鹏浅。默認(rèn)：GDCdata。

files.per.chunk：這將使API方法一次只下載n個(files.per.chunk)文件屏歹。當(dāng)數(shù)據(jù)量過大時隐砸，可能會下載出錯，可設(shè)置files.per.chunk參數(shù)減少下載問題蝙眶。值為整數(shù)季希，即可將文件拆分為幾個文件下載，如files.per.chunk?= 6幽纷。

下面是一個下載數(shù)據(jù)的案例：

query <- GDCquery(project ="TCGA-ACC",data.category ="Copy number variation",legacy = TRUE,file.type ="hg19.seg",barcode = c("TCGA-OR-A5LR-01A-11D-A29H-01","TCGA-OR-A5LJ-10A-01D-A29K-01"))# 數(shù)據(jù)將被保存在 GDCdata/TCGA-ACC/legacy/Copy_number_variation/Copy_number_segmentationGDCdownload(query, method ="api")## Not run:# 從XML下載臨床數(shù)據(jù)query <- GDCquery(project ="TCGA-COAD", data.category ="Clinical")GDCdownload(query, files.per.chunk = 200)query <- GDCquery(project ="TARGET-AML",data.category ="Transcriptome Profiling",data.type ="miRNA Expression Quantification",workflow.type ="BCGSC miRNA Profiling",barcode = c("TARGET-20-PARUDL-03A-01R","TARGET-20-PASRRB-03A-01R"))# 數(shù)據(jù)將被保存在:# example_data_dir/TARGET-AML/harmonized/Transcriptome_Profiling/miRNA_Expression_QuantificationGDCdownload(query, method ="client", directory ="example_data_dir")acc.gbm <- GDCquery(project = c("TCGA-ACC","TCGA-GBM"),data.category ="Transcriptome Profiling",data.type ="Gene Expression Quantification",workflow.type ="HTSeq - Counts"

總之式塌，TCGAbiolinks包下載數(shù)據(jù)很簡單，首先得明確自己要的是什么數(shù)據(jù)友浸，通過GDCquery函數(shù)獲取后峰尝，關(guān)于GDCquery請認(rèn)真去學(xué)習(xí)上一講：TCGA數(shù)據(jù)挖掘（一）：TCGAbiolinks包介紹。對GDCquery了解后收恢，再利用GDCdownload函數(shù)下載武学。這里說的相當(dāng)簡單祭往，但聰明的人應(yīng)該已經(jīng)明白了。當(dāng)然火窒，我們后續(xù)的數(shù)據(jù)分析教程中還會更詳細(xì)的介紹硼补。

對于下載數(shù)據(jù)的分析可能會因自己的研究方向有所不同，有做甲基化的熏矿，有做SNP的等等已骇，可以不用掌握全部，只需要會自己研究方向的即可曲掰，其他的做個了解疾捍，自己需要的時候，再學(xué)也不遲栏妖。

當(dāng)然乱豆，我們后面會介紹一下常用的分析。

數(shù)據(jù)下載補(bǔ)充：數(shù)據(jù)整理

TCGAbiolinks包下載的數(shù)據(jù)是合并了的吊趾，不需要整理宛裕。在線下載或者官方工具下載的數(shù)據(jù)是分開的。我們介紹一下在線下載以及官方下載工具下載的數(shù)據(jù)怎么合并论泛，這里用的是perl腳本揩尸，沒有安裝perl的可去官網(wǎng)：http://www.perl.org/get.html自行下載安裝。這里你不需要懂perl語法屁奏，只需要知道DOS命令行的使用即可岩榆，腳本文末獲取。

在線下載以及官方下載工具下載的數(shù)據(jù)是這樣的坟瓢。每一個文件夾是每個樣本的數(shù)據(jù)勇边，而且文件夾的名稱和樣本的barcode還不一致。

每一個文件夾里面的數(shù)據(jù)都是壓縮包：

所以我們需要整理折联，要整理這些數(shù)據(jù)粒褒，首先我們在網(wǎng)頁上篩選數(shù)據(jù)的時候，同時也要下載metadata這個文件诚镰。

下載metadata文件奕坟、數(shù)據(jù)文件以及腳本文件putFilesToOneDir.pl和mRNA_merge.pl在同一個文件夾。

打開dos窗口清笨，進(jìn)入文件目錄月杉，鍵入：perl putFilesToOneDir.pl，回車抠艾。一會就會看見文件夾中多了一個files的文件夾沙合，即我們將所有的數(shù)據(jù)都移動到了同一個文件夾下，當(dāng)然，這個過程你可以手動首懈。樣本多的話绊率，好像不科學(xué)。

進(jìn)入files文件夾究履，里面全是壓縮包滤否，我們需要解壓。這個就真的可以手動最仑，因?yàn)槊總€人安裝的壓縮軟件可能不一樣藐俺，寫腳本的話可能會報錯，所以全選泥彤，解壓到當(dāng)前文件夾欲芹，也不是很費(fèi)事。

下載metadata文件和perl腳本文件mRNA_merge.pl復(fù)制到files文件夾吟吝。

dos命令窗口下進(jìn)入files文件夾菱父，鍵入：perl mRNA_merge.pl metadata.cart.2016-06-22T05_18_51.550750.json，然后回車剑逃。等待時間與數(shù)據(jù)量有關(guān)浙宜。

運(yùn)行結(jié)束后，在dos窗口會顯示運(yùn)行結(jié)果蛹磺。normal count: 4粟瞬；tumor count: 178，這里自己記下這2個參數(shù)萤捆，后面做分析的時候可能用到裙品。

同時在files文件夾下生成了一個矩陣文件。這個文件我們后面做數(shù)據(jù)分析的時候可能會用到俗或。

這里需要說明的是市怎，這個腳本只適用于mRNA的Counts的數(shù)據(jù)。不適用于其他類型的數(shù)據(jù)蕴侣。

掃碼關(guān)注，后臺回復(fù)：TCGA-mRNA_merge臭觉，領(lǐng)取案例文件和腳本文件昆雀。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市蝠筑，隨后出現(xiàn)的幾起案子狞膘，更是在濱河造成了極大的恐慌，老刑警劉巖什乙，帶你破解...
沈念sama閱讀 206,723評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件挽封，死亡現(xiàn)場離奇詭異，居然都是意外死亡臣镣，警方通過查閱死者的電腦和手機(jī)辅愿，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,485評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門智亮，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人点待，你說我怎么就攤上這事阔蛉。” “怎么了癞埠？”我有些...
開封第一講書人閱讀 152,998評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵状原，是天一觀的道長。經(jīng)常有香客問我苗踪，道長颠区，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,323評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任通铲，我火速辦了婚禮毕莱，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘测暗。我一直安慰自己央串，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,355評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布碗啄。她就那樣靜靜地躺著质和，像睡著了一般。火紅的嫁衣襯著肌膚如雪稚字。梳的紋絲不亂的頭發(fā)上饲宿，一...
開封第一講書人閱讀 49,079評論 1贊 285
城市分裂傳說
那天，我揣著相機(jī)與錄音胆描，去河邊找鬼瘫想。笑死，一個胖子當(dāng)著我的面吹牛昌讲，可吹牛的內(nèi)容都是我干的国夜。我是一名探鬼主播，決...
沈念sama閱讀 38,389評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼短绸，長吁一口氣：“原來是場噩夢啊……” “哼车吹！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起醋闭，我...
開封第一講書人閱讀 37,019評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤窄驹，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后证逻，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體乐埠，經(jīng)...
沈念sama閱讀 43,519評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,971評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了丈咐。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瑞眼。...
茶點(diǎn)故事閱讀 38,100評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖扯罐，靈堂內(nèi)的尸體忽然破棺而出负拟，到底是詐尸還是另有隱情，我是刑警寧澤歹河，帶...
沈念sama閱讀 33,738評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布掩浙，位于F島的核電站，受9級特大地震影響秸歧，放射性物質(zhì)發(fā)生泄漏厨姚。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,293評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一键菱、第九天我趴在偏房一處隱蔽的房頂上張望谬墙。院中可真熱鬧，春花似錦经备、人聲如沸拭抬。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,289評論 0贊 19
一樁弒父案侵蒙，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽造虎。三九已至，卻和暖如春纷闺，著一層夾襖步出監(jiān)牢的瞬間算凿，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,517評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工犁功，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留氓轰，地道東北人。一個月前我還...
沈念sama閱讀 45,547評論 2贊 354
代替公主和親
正文我出身青樓浸卦，卻偏偏與公主長得像署鸡，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子限嫌，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,834評論 2贊 345

TCGA數(shù)據(jù)挖掘（二）：數(shù)據(jù)下載與整理

推薦閱讀更多精彩內(nèi)容