前言
EcoTyper是一款以機器學(xué)習(xí)為基礎(chǔ)框架的分析工具钙姊,能夠從Bulk、單細胞埂伦、以及空間分辨率的基因表達數(shù)據(jù)中大規(guī)模地識別并驗證細胞狀態(tài)和生態(tài)型煞额。Immugent在前兩期的推文中:EcoTyper:識別腫瘤中各種細胞的生態(tài)位-實體腫瘤;EcoTyper:識別腫瘤中各種細胞的生態(tài)位-血液腫瘤沾谜,分別介紹了EcoTyper的功能框架膊毁,以及其在腫瘤中的應(yīng)用。我們可以發(fā)現(xiàn)基于EcoTyper識別的細胞狀態(tài)和生態(tài)型對疾病的發(fā)生發(fā)展和預(yù)后都是至關(guān)重要的基跑。從本期推文開始婚温,我們將與大家一起學(xué)習(xí)EcoTyper的代碼實操部分。
EcoTyper的代碼實操主要分為6個部分:
由于EcoTyper的功能是十分全面的媳否,我們將用6期推文結(jié)合代碼實操介紹EcoTyper的使用方法栅螟。那么荆秦,今天讓我們一起來學(xué)習(xí)一下它的第一個部分——Recovery of Cell States and Ecotypes in User-Provided Bulk Data
代碼流程
1.準(zhǔn)備環(huán)境和數(shù)據(jù)
下載 EcoTyper
wget https://github.com/digitalcytometry/ecotyper/archive/refs/heads/master.zip
unzip master.zip
cd ecotyper-master
#EcoTyper是一個獨立的軟件,用R實現(xiàn)力图,但并不是R包哦步绸。
R環(huán)境準(zhǔn)備:
這是官網(wǎng)推薦的R和R包版本,但是小編用的最新的R版本吃媒,并且安裝相應(yīng)最新版本的R包也是很順利的瓤介。
install.packages(c("RColorBrewer","cluster", "circlize","cowplot","data.table","doParallel","ggplot2","grid", "reshape2", "viridis","config","argparse","colorspace", "plyr"))
BiocManager::install("ComplexHeatmap")
BiocManager::install("Biobase")
BiocManager::install("NMF")
輸入數(shù)據(jù):
- 表達譜數(shù)據(jù):來源于TCGA的LUAD部分樣本的表達譜數(shù)據(jù),數(shù)據(jù)存儲在
example_data/bulk_lung_data.txt
中赘那。
- 樣本注釋文件刑桑,數(shù)據(jù)存儲在
example_data/bulk_lung_annotation.txt
。
2.recovery scripts
EcoTyper_recovery_bulk.R
腳本用于在Bulk數(shù)據(jù)中恢復(fù)細胞狀態(tài)和生態(tài)型漓概。
Rscript EcoTyper_recovery_bulk.R -h
參數(shù)詳解:
-
-d
或--discovery
:用于定義細胞狀態(tài)和生態(tài)型的發(fā)現(xiàn)數(shù)據(jù)集的名稱漾月。可以選擇的值包括'Carcinoma'(惡性腫瘤數(shù)據(jù)集)和'Lymphoma'(淋巴瘤數(shù)據(jù)集)胃珍,也可以使用在運行EcoTyper發(fā)現(xiàn)腳本時配置文件中的自定義數(shù)據(jù)集名稱梁肿。默認值為'Carcinoma'。 -
-m
或--matrix
:輸入bulk組織表達矩陣的文件路徑觅彰,該文件需要以制表符分隔吩蔑,其中第一列是基因名稱,列名是樣本填抬。這是必需參數(shù)烛芬。 -
-a
或--annotation
:輸入矩陣中樣本注釋的文件路徑,該文件也需要是制表符分隔的飒责。文件中必須包含一個名為'ID'的列赘娄,其中包含與輸入矩陣中的樣本標(biāo)識相同的ID,以及其他附加列宏蛉∏簿剩可選參數(shù),默認值為'NULL'拾并。 -
-c
或--columns
:用于指定在輸出熱圖中作為顏色條形圖顯示的注釋文件中的列名的逗號分隔列表揍堰。可選參數(shù)嗅义,默認為'NULL'屏歹。 -
-t
或--threads
:線程數(shù),默認值為10之碗。如果在windows下運行只能指定1蝙眶。 -
-o
或--output
:指定輸出結(jié)果的目錄路徑,默認值為'RecoveryOutput'继控。 -
-h
或--help
:打印幫助信息械馆。
運行腳本:
Rscript EcoTyper_recovery_bulk.R -d Carcinoma -m example_data/bulk_lung_data.txt -a example_data/bulk_lung_annotation.txt -c Tissue -o RecoveryOutput
3.結(jié)果解讀
可以看出結(jié)果主要分為兩部分:各類型細胞的細胞狀態(tài)恢復(fù)和生態(tài)型恢復(fù)胖眷。
細胞狀態(tài)部分輸出結(jié)果:
我們以成纖維細胞為例看下細胞狀態(tài)恢復(fù)部分的結(jié)果武通。
- state_assignment_heatmap.pdf/png:展示了在每個細胞狀態(tài)中具有最高 log2 FC的基因的表達情況霹崎,這些基因被稱為細胞狀態(tài)特異性標(biāo)記基因。熱圖的列代表了發(fā)現(xiàn)數(shù)據(jù)集中的樣本冶忱,行代表了每個細胞狀態(tài)的標(biāo)記基因尾菇。所選的標(biāo)記基因顯示在熱圖的左側(cè)。
- "state_assignment.txt":發(fā)現(xiàn)數(shù)據(jù)集中每個樣本的細胞狀態(tài)囚枪。如果在質(zhì)量控制步驟中過濾掉了給定樣本中具有最高豐度的細胞狀態(tài)派诬,那么該樣本將被視為未分配,不包括在此輸出文件中链沼。
基于這個文件默赂,我們可以將細胞狀態(tài)與臨床結(jié)果(如患者的生存時間)進行關(guān)聯(lián)研究。即使用 Kaplan-Meier 曲線和 log-rank 檢驗比較數(shù)據(jù)集中富集于不同的細胞狀態(tài)的患者整體生存之間是否有差異括勺。
- "state_abundances.txt":每個樣本中每種細胞狀態(tài)的相對豐度信息缆八。"state_assignment.txt"文件只包含已分配到某種細胞狀態(tài)的樣本,而"state_abundances.txt"文件包括了發(fā)現(xiàn)數(shù)據(jù)集中的所有樣本疾捍。這個文件提供了每個細胞狀態(tài)在每個樣本中的相對豐度信息奈辰。
"state_abundances.txt" 或 "ecotype_abundance.txt" 都包含了輸入數(shù)據(jù)集中的所有樣本。我們可以基于這兩個文件進行一些下游分析乱豆。我們將細胞狀態(tài)或生態(tài)型的相對豐度視為一個連續(xù)變量奖恰,使用R包 survival 中的 coxph 函數(shù)構(gòu)建 Cox 比例風(fēng)險回歸模型評估細胞狀態(tài)與總體生存之間的關(guān)系(保護因素/風(fēng)險因素)。除了 Cox 回歸外宛裕,還可以應(yīng)用在基因集富集分析瑟啃、配體-受體相互作用以及與免疫療法關(guān)聯(lián)等其他下游分析中。
-
"heatmap_data.txt":熱圖 "state_assignment_heatmap" 對應(yīng)數(shù)據(jù)揩尸。經(jīng)過標(biāo)準(zhǔn)化處理的基因的表達水平蛹屿。列代表樣本,行代表了每個細胞狀態(tài)的標(biāo)志基因疲酌。
- "heatmap_top_ann.txt":用戶提供的注釋文件與細胞狀態(tài)相關(guān)的信息的整合蜡峰。只有被分配到主要細胞狀態(tài)的樣本才會包含在這個文件中。
生態(tài)型部分輸出結(jié)果:
- "ecotype_abundance.txt":在發(fā)現(xiàn)數(shù)據(jù)集中的每個生態(tài)型(ecotype)相對豐度的信息朗恳。
- "ecotype_assignment.txt":發(fā)現(xiàn)數(shù)據(jù)集中的樣本分配到各個生態(tài)型的信息湿颅。未被分配到任何生態(tài)型的樣本將從該文件中被過濾掉。
-
"heatmap_assigned_samples_viridis.pdf/png":EcoTyper推斷出的細胞狀態(tài)分數(shù)的熱圖粥诫,這些細胞狀態(tài)被分配到生態(tài)型中油航。
4.血液腫瘤中恢復(fù)細胞狀態(tài)和生態(tài)型
以上部分展示了如何在實體腫瘤中恢復(fù)細胞狀態(tài)和生態(tài)型,我們也可以調(diào)整參數(shù)怀浆,實現(xiàn)在血液腫瘤中恢復(fù)細胞狀態(tài)和生態(tài)型哦谊囚。
Rscript EcoTyper_recovery_bulk.R -d Lymphoma -m example_data/bulk_lymphoma_data.txt -a example_data/bulk_lymphoma_annotation.txt -c schmitz_labels,COO -o RecoveryOutput -t 10
小結(jié)
在本期推文中怕享,我們介紹了如何使用EcoTyper對Bulk轉(zhuǎn)錄組數(shù)據(jù)恢復(fù)細胞狀態(tài)和生態(tài)型。EcoTyper不僅功能強大镰踏,而且使用起來很方便函筋,運行速度也是很快的。此外奠伪,EcoTyper所生成的輸出數(shù)據(jù)十分詳盡跌帐,為我們提供了豐富的信息,可以用于各種后續(xù)分析绊率。并且其輸出的可視化結(jié)果也是十分精美的谨敛,感興趣的小伙伴快來用起來吧~
好啦,本期的分享到這里就結(jié)束了滤否,我們下期再會~