前言
EcoTyper是一款以機器學習為基礎框架的分析工具擦秽,能夠從Bulk、單細胞、以及空間分辨率的基因表達數(shù)據(jù)中大規(guī)模地識別并驗證細胞狀態(tài)和生態(tài)型谓松。我們在前面的推文中介紹了EcoTyper的分析框架和部分實操,感興趣的小伙伴可以先閱讀這一部分哦践剂。
EcoTyper的代碼實操主要分為6個部分:
那么鬼譬,今天讓我們一起來學習一下它的第二個部分——Recovery of Cell States and Ecotypes in User-Provided scRNA-seq Data。
代碼流程
1.準備環(huán)境和數(shù)據(jù)
下載 EcoTyper
wget https://github.com/digitalcytometry/ecotyper/archive/refs/heads/master.zip
unzip master.zip
cd ecotyper-master
#EcoTyper是一個獨立的軟件逊脯,用R實現(xiàn)优质,但并不是R包哦。
R環(huán)境準備:
這是官網(wǎng)推薦的R和R包版本军洼,但是小編用的最新的R版本巩螃,并且安裝相應最新版本的R包也是很順利的。
輸入數(shù)據(jù):
- 表達譜數(shù)據(jù):結(jié)直腸癌scRNA-seq數(shù)據(jù)匕争,數(shù)據(jù)存儲在
example_data/scRNA_CRC_data.txt
中避乏。
image.png
- 樣本注釋文件,數(shù)據(jù)存儲在
example_data/scRNA_CRC_annotation.txt
甘桑。
2.recovery scripts
EcoTyper_recovery_scRNA.R
腳本用于在scRNA-seq數(shù)據(jù)中恢復細胞狀態(tài)和生態(tài)型拍皮。
Rscript EcoTyper_recovery_scRNA.R -h
參數(shù)詳解:
-
-d
或--discovery
:用于定義細胞狀態(tài)和生態(tài)型的發(fā)現(xiàn)數(shù)據(jù)集的名稱∨芎迹可以選擇的值包括'Carcinoma'(惡性腫瘤數(shù)據(jù)集)和'Lymphoma'(淋巴瘤數(shù)據(jù)集)铆帽,也可以使用在運行EcoTyper發(fā)現(xiàn)腳本時配置文件中的自定義數(shù)據(jù)集名稱。 -
-m
或--matrix
:輸入單細胞RNA測序矩陣的路徑艘蹋。以制表符分隔锄贼,其中第一列是基因名稱,列名是細胞女阀。 -
-a
或--annotation
:輸入矩陣中樣本注釋的文件路徑宅荤,制表符分隔。文件中必須包含一個名為'ID'的列浸策,其中包含與輸入矩陣中的樣本標識相同的ID冯键,以及其他附加列∮购梗可選參數(shù)惫确,默認值為'NULL'。 -
-c
或--columns
:用于指定在輸出熱圖中作為顏色條形圖顯示的注釋文件中的列名的逗號分隔列表「幕可選參數(shù)掩蛤,默認為'NULL'。 - -z/–z-score:評估是否顯著恢復了細胞狀態(tài)(默認值為FALSE)陈肛。
- -s/–subsample:指定每個細胞類型將被降采樣到的細胞數(shù)的整數(shù)揍鸟。對于小于50的值,將不執(zhí)行降采樣句旱。默認值:-1(不進行降采樣)阳藻。
-
-t
或--threads
:線程數(shù),默認值為10谈撒。 -
-o
或--output
:指定輸出結(jié)果的目錄路徑腥泥,默認值為'RecoveryOutput'。 -
-h
或--help
:打印幫助信息啃匿。
運行腳本:
Rscript EcoTyper_recovery_scRNA.R -d Carcinoma -m example_data/scRNA_CRC_data.txt -a example_data/scRNA_CRC_annotation.txt -o RecoveryOutput -t 10
3.結(jié)果解讀
可以看出結(jié)果主要分為兩部分:各類型細胞的細胞狀態(tài)恢復和生態(tài)型恢復蛔外。
細胞狀態(tài)部分輸出結(jié)果:
我們以成纖維細胞為例看下細胞狀態(tài)恢復部分的結(jié)果。
- state_assignment_heatmap.pdf/png:展示了在每個細胞狀態(tài)中具有最高 log2 FC的基因的表達情況溯乒,這些基因被稱為細胞狀態(tài)特異性標記基因冒萄。熱圖的列代表細胞,行代表每個細胞狀態(tài)的標記基因橙数。
- "state_assignment.txt":發(fā)現(xiàn)數(shù)據(jù)集中每個細胞被分配到的細胞狀態(tài)尊流。
基于這個文件,我們可以將細胞狀態(tài)與臨床結(jié)果(如患者的生存時間)進行關聯(lián)研究灯帮。即使用 Kaplan-Meier 曲線和 log-rank 檢驗比較數(shù)據(jù)集中富集于不同的細胞狀態(tài)的患者整體生存之間是否有差異崖技。
- "heatmap_data.txt":熱圖 "state_assignment_heatmap" 對應數(shù)據(jù)。經(jīng)過標準化處理的基因的表達水平钟哥。列代表細胞迎献,行代表了每個細胞狀態(tài)的標志基因。
- "heatmap_top_ann.txt":用戶提供的注釋文件與細胞狀態(tài)相關的信息的整合腻贰。
生態(tài)型部分輸出結(jié)果:
- "ecotype_abundance.txt":在發(fā)現(xiàn)數(shù)據(jù)集中的每個生態(tài)型(ecotype)相對豐度的信息吁恍。
- "ecotype_assignment.txt":發(fā)現(xiàn)數(shù)據(jù)集中的樣本分配到各個生態(tài)型的信息。未被分配到任何生態(tài)型的樣本將從該文件中被過濾掉播演。
- "heatmap_assigned_samples_viridis.pdf/png":EcoTyper推斷出的細胞狀態(tài)分數(shù)的熱圖冀瓦,這些細胞狀態(tài)被分配到生態(tài)型中。
4.血液腫瘤中恢復細胞狀態(tài)和生態(tài)型
以上部分展示了如何在實體腫瘤中恢復細胞狀態(tài)和生態(tài)型写烤,我們也可以調(diào)整參數(shù)翼闽,實現(xiàn)在血液腫瘤中恢復細胞狀態(tài)和生態(tài)型哦。
Rscript EcoTyper_recovery_scRNA.R -d Lymphoma -m example_data/scRNA_lymphoma_data.txt -a example_data/scRNA_lymphoma_annotation.txt -o RecoveryOutput -c Tissue -t 10
小結(jié)
在本期推文中洲炊,我們介紹了如何使用EcoTyper對scRNA-seq數(shù)據(jù)恢復細胞狀態(tài)和生態(tài)型感局。無論是在Bulk數(shù)據(jù)還是單細胞轉(zhuǎn)錄組數(shù)據(jù)上尼啡,EcoTyper的運行速度都是很快的。我們將在下期推文中繼續(xù)和大家學習EcoTyper的實操--Recovery of Cell States and Ecotypes in Spatial Transcriptomics data询微,關于今天的學習內(nèi)容崖瞭,感興趣的小伙伴快來用起來吧~
好啦,本期的分享到這里就結(jié)束了撑毛,我們下期再會~