簡介
????????在前一篇文章中考婴,小編和大家分享了GEO數(shù)據(jù)的下載方法,作為GEO數(shù)據(jù)的姊妹篇催烘,TCGA數(shù)據(jù)庫中的數(shù)據(jù)也是生信分析常用的數(shù)據(jù)之一沥阱。TCGA(The Cancer Genome Atlas )是由National Cancer Institute ( NCI, 美國國家癌癥研究所) 和? National Human Genome Research Institute (NHGRI, 國家人類基因組研究所) 合作,在2006年建立的癌癥研究項目伊群,旨在運用高通量測序和生物信息學分析方法探究癌癥的遺傳基礎考杉,治病機理,提高了我們對癌癥診斷舰始,治療和預防能力崇棠。TGCA數(shù)據(jù)庫詳細的記錄每個患者的臨床基本信息、外顯子測序丸卷、RNA-seq測序枕稀、甲基化等數(shù)據(jù),是癌癥生物信息研究的首選工具谜嫉。最新版本(V23.0)TCGA包含39種癌癥和一萬多個癌癥樣本萎坷,TCGA樣本數(shù)據(jù)可分為四級數(shù)據(jù),其中沐兰,level1食铐、level2不對外開放,僅對科研人員和研究所開放僧鲁,一般是在國外的PI需要經(jīng)過嚴格的申請才能獲得批準下載虐呻;level3、level4一般可以公開獲取寞秃,是生信小白訓練學習生信技能斟叼、發(fā)表SCI的好助手。
? ? ? ? 雖然說 TCGA數(shù)據(jù)庫level3春寿、level4可以免費獲取朗涩,官方也提供了python編寫的下載工具GDC API,R語言也提供了不少的R包(如:RTCGAToolbox绑改、UCSCXenaTools)谢床,但是這些工具都是在命令行使用的兄一,需要一定的編程能力,再加上TCGA數(shù)據(jù)庫遠在國外识腿,國內也沒有鏡像站點出革,下載速度也是很慢的。即使把數(shù)據(jù)下載下來時渡讼,你看到的不是合并好的一個大文件骂束,而是一個一個小文件,每個文件是一個樣本的數(shù)據(jù)成箫,你需要手動將每個樣本的數(shù)據(jù)合并在一起展箱。對于小白黨來說,樣本數(shù)目過大用Excel合并又耗費時間蹬昌,而且需要手動添加樣本名稱混驰,不僅速度慢,而且容易出錯皂贩。
? ? ? ? ?針對?TCGA數(shù)據(jù)下載數(shù)據(jù)慢栖榨,數(shù)據(jù)處理難等問題,我們公司研發(fā)了一個新的數(shù)據(jù)平臺先紫,從善的處理以上各種問題。即使是不會編程的小白也可以通過使用我們的數(shù)據(jù)平臺為自身研究找尋合理的研究方向筹煮,甚至是發(fā)表一些小文章也將成為一種可能遮精。我們通過研發(fā)的新的數(shù)據(jù)平臺將常用的公共數(shù)據(jù)庫全部同步到國內服務器中,并且每天同步更新败潦,同時按照常規(guī)發(fā)表SCI的習慣對所有數(shù)據(jù)進行整合本冲,編排,方便大家下載與使用劫扒。
使用方法
網(wǎng)址:http://sangerbox.com/TcgaDown檬洞,如下圖所示:
示例:以胰腺癌(PAAD)的RNA-seq數(shù)據(jù)為例——1.左邊選擇癌癥種類;2.選擇需要下載的數(shù)據(jù)類型沟饥;3.點擊“下載到個人中心”按鈕添怔,如下圖所示
轉到個人中心,進入到下載目錄下贤旷,將文件按照從大到小的順序排序广料,當Merge.txt和Merge.txt.bak大小一樣,說明文件合并完成幼驶。