我們平時使用TCGA的使用辰妙,基本都是下載臨床特征數(shù)據(jù),生存數(shù)據(jù)甫窟,基因表達(dá)量密浑,高級一點的還可以去下載體細(xì)胞突變,拷貝變異數(shù)和DNA甲基化等粗井。如果知道一些算法尔破,還可以去獲取MSI(微衛(wèi)星不穩(wěn)定性)、腫瘤免疫微環(huán)境等等浇衬。
但是懒构,TCGA的數(shù)據(jù)遠(yuǎn)不止于此,關(guān)于腫瘤學(xué)研究耘擂,尤其是病理學(xué)醫(yī)師胆剧,可能更關(guān)心的是獲得病理學(xué)報告和切片圖像等信息,其實在HPA數(shù)據(jù)里我們也是可以看到一些患者的組織學(xué)切片的圖片醉冤,今天我們講講如何通過R語言包TCGAbiolinks獲取病理學(xué)報告和切片圖像秩霍。
安裝和加載包
由于TCGAbiolinks這個包是Bioconductor上的包,如果網(wǎng)絡(luò)不好的話冤灾,建議提前設(shè)置鏡像前域。
## 設(shè)置清華大學(xué)鏡像,可以提高下載速度
options(BioC_mirror="https://mirrors.tuna.tsinghua.edu.cn/bioconductor")
## 安裝TCGAbiolinks包
BiocManager::install("TCGAbiolinks")
## 加載TCGAbiolinks包
library(TCGAbiolinks)
獲取病理學(xué)報告 (PDF格式)
首先進(jìn)行查詢韵吨,然后下載,可以一次性查詢多個患者移宅,也可以輸入患者的編碼精準(zhǔn)查詢
## 首先可以設(shè)置一個目標(biāo)文件夾
setwd("~/Desktop/TCGA/COAD") ## 設(shè)置目標(biāo)文件夾
# 從legacy獲取病理報告
query.legacy <- GDCquery(project = "TCGA-COAD", ## 腫瘤類型归粉,可以修改
data.category = "Clinical", ##數(shù)據(jù)分類為臨床
data.type = "Pathology report", ## 數(shù)據(jù)類型為病理學(xué)報告
legacy = TRUE,
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972") ##制定患者編號
)
我們可以看下查詢的內(nèi)容,提示PDF是open狀態(tài)漏峰。
getResults(query.legacy)[, 1:4]
row | id | data_format | access | cases |
---|---|---|---|---|
7 | a4753077-2bd3-4301-8424-b7575c8ccd66 | open | TCGA-RU-A8FL | |
365 | b77a41e9-cf0d-4b94-9576-09e91b6d8f61 | open | TCGA-AA-3972 |
下載的話糠悼,只需要一個GDCdownload()
函數(shù)即可
GDCdownload(query.legacy)
接著就是等待自動下載,這個根據(jù)網(wǎng)絡(luò)而已浅乔,由于pdf的格式較小倔喂,下載速度還是比較快的铝条,之后就會在目標(biāo)文件夾新生成一個GDCdata的文件夾,再往下分別是/TCGA-COAD/legacy/Clinical席噩,這里有兩個文件夾班缰,打開后里面就是我們需要的pdf報告了。
獲取組織學(xué)切片圖像(SVS格式)
TCGA的組織學(xué)切片圖像悼枢,包括了組織切片(Tissue slide image)和診斷切片(Diagnostic Slide)兩種埠忘,數(shù)據(jù)庫有l(wèi)egacy和harmonized 兩種類型,結(jié)果都是一樣的馒索。我們可以通過查詢函數(shù)進(jìn)行更多細(xì)節(jié)的提取莹妒,但是由于SVS格式一般都很大,我運行的這個有100M以上绰上,所以下載圖像數(shù)據(jù)也是非持嫉。考驗網(wǎng)速的,我們可以試著下載一兩個數(shù)據(jù)蜈块。运吓。
先建立查詢
# 從legacy數(shù)據(jù)庫獲取組織學(xué)切片圖片文件
query.legacy <- GDCquery(project = "TCGA-COAD",
data.category = "Clinical",
data.type = "Tissue slide image",
legacy = TRUE,
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))
# 從harmonized數(shù)據(jù)庫獲取組織學(xué)切片圖片文件
query.harmonized <- GDCquery(project = "TCGA-OV",
data.category = "Biospecimen",
data.type = 'Slide Image')
## 從harmonized數(shù)據(jù)庫獲取診斷性切片圖片
query.harmonized2 <- GDCquery(project = "TCGA-COAD",
data.category = "Biospecimen",
data.type = "Slide Image",
experimental.strategy = "Diagnostic Slide",
barcode = c("TCGA-RU-A8FL","TCGA-AA-3972"))
之后就是下載數(shù)據(jù)了,比如我們下載query.harmonized2的SVS圖片
GDCdownload(query.harmonized2)
接下來疯趟,就是漫長的等待拘哨,我這個數(shù)據(jù)是145.7M,大概用了20分鐘才下載完成信峻。
打開SVS格式的圖片需要專門的閱讀器倦青,這個搞病理學(xué)的應(yīng)該懂
網(wǎng)上有關(guān)于病理學(xué)圖片的機器學(xué)習(xí)的文章,如果想從這個方向入手的話盹舞,就慢慢下載數(shù)據(jù)吧产镐。。踢步。癣亚。