單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析||Garnett細(xì)胞類型注釋工具

Garnett是一個(gè)從單細(xì)胞表達(dá)數(shù)據(jù)中實(shí)現(xiàn)自動(dòng)細(xì)胞類型分類的軟件包。Garnett的工作方式是獲取單細(xì)胞數(shù)據(jù)和細(xì)胞類型定義(marker)文件运褪,并訓(xùn)練一個(gè)基于回歸的分類器赠潦。一旦被訓(xùn)練成一個(gè)針對(duì)某一組織/樣本類型的一個(gè)分類器贬堵,它就可以應(yīng)用于從相似組織中對(duì)未來(lái)的數(shù)據(jù)集進(jìn)行分類。除了描述訓(xùn)練和分類功能脆侮,這個(gè)網(wǎng)站的另一個(gè)目標(biāo)是成為一個(gè)存儲(chǔ)以前訓(xùn)練出來(lái)的分類器倉(cāng)庫(kù)。

安裝Garnett

R> 3.5
依賴Monocle(3)勇劣,注意:Garnett 不再支持monocle2官網(wǎng)這樣寫真的很困惑靖避,因?yàn)楹竺娴睦雍芏噙€是基于monocle2的。

# First install Bioconductor and Monocle
if (!requireNamespace("BiocManager"))
    install.packages("BiocManager")

BiocManager::install()
BiocManager::install(c("monocle"))

# Next install a few more dependencies
BiocManager::install(c('DelayedArray', 'DelayedMatrixStats', 'org.Hs.eg.db', 'org.Mm.eg.db'))
install.packages("devtools")
devtools::install_github("cole-trapnell-lab/garnett")

library(garnett)

Garnett工作流有兩個(gè)主要部分比默,每個(gè)部分的詳細(xì)描述如下:

  • Train/obtain the classifier: 要么下載現(xiàn)有的分類器幻捏,要么訓(xùn)練自己的分類器。為了訓(xùn)練命咐,Garnett解析一個(gè)標(biāo)記文件篡九,選擇一組訓(xùn)練細(xì)胞,然后訓(xùn)練一個(gè)多項(xiàng)分類器來(lái)區(qū)分細(xì)胞類型醋奠。

  • Classify cells: 接下來(lái)榛臼,Garnett將分類器應(yīng)用于一組細(xì)胞伊佃,以生成cell類型。Garnett還可以選擇將分類擴(kuò)展到類似的細(xì)胞讽坏,以生成一組獨(dú)立的分群擴(kuò)展類型锭魔。

使用預(yù)先訓(xùn)練的分類器

我們已經(jīng)為各種生物和組織生成了一系列預(yù)先訓(xùn)練的分類器。如果您的數(shù)據(jù)類型存在一個(gè)預(yù)先訓(xùn)練好的分類器路呜,我們建議您嘗試一下迷捧。可用的分類器列表可以在這里找到胀葱。我們希望在生成新的分類器時(shí)不斷地更新和添加它們漠秋。我們也接受由其他人產(chǎn)生的分類器-請(qǐng)?zhí)峤荒闼龅娜魏畏诸惼鞑椭⑸鐓^(qū)!關(guān)于如何提交分類器的詳細(xì)信息可以在這里找到

目前已有的分類器模型:

Classifier Marker file Species Tissue Contributer Training data source Publication
hsLung hsLung_markers.txt Human Lung Hannah Pliner Lambrechts et. al. Pliner et. al.
hsPBMC hsPBMC_markers.txt Human PBMC Hannah Pliner 10x Genomics Pliner et. al.
mmLung mmLung_markers.txt Mouse Lung Hannah Pliner Han et. al. Pliner et. al.
ceWhole ceWhole_markers.txt C. elegans Whole Hannah Pliner Cao et. al. Pliner et. al.
mmBrain mmBrain_markers.txt Mouse Brain and spinal cord Hannah Pliner Zeisel et. al. Pliner et. al.

根據(jù)你的組織類型下載一個(gè)吧抵屿。

使用一個(gè)預(yù)先訓(xùn)練好的分類器庆锦,首先下載分類器,然后將它加載到你的R會(huì)話使用:

classifier <- readRDS("path/to/classifier.RDS")

因?yàn)镚arnett 建立在 Monocle
上轧葛,所以Garnett 的數(shù)據(jù)保存在CellDataSet (CDS)類的對(duì)象中搂抒。這個(gè)類派生自Bioconductor ExpressionSet類,它為那些分析過(guò)生物微陣列實(shí)驗(yàn)的人提供了一個(gè)常見(jiàn)的接口尿扯。Monocle提供了關(guān)于如何生成輸入cds的詳細(xì)文檔here求晶。

例如,Garnett包含一個(gè)來(lái)自PBMC 10x V1表達(dá)式數(shù)據(jù)的小數(shù)據(jù)集.

# load in the data
# NOTE: the 'system.file' file name is only necessary to read in
# included package data
#
mat <- Matrix::readMM(system.file("extdata", "exprs_sparse.mtx", package = "garnett"))
fdata <- read.table(system.file("extdata", "fdata.txt", package = "garnett"))
pdata <- read.table(system.file("extdata", "pdata.txt", package = "garnett"),
                    sep="\t")
row.names(mat) <- row.names(fdata)
colnames(mat) <- row.names(pdata)

# create a new CDS object
#pd <- new("AnnotatedDataFrame", data = pdata)
#fd <- new("AnnotatedDataFrame", data = fdata)
pbmc_cds <- new_cell_data_set(as(as.matrix(mat), 'sparseMatrix'),
                              cell_metadata = pdata,
                              gene_metadata = fdata)

# generate size factors for normalization later
#pbmc_cds <- estimateSizeFactors(pbmc_cds)#

有了分類器之后衷笋,就可以使用classify_cells函數(shù)對(duì)細(xì)胞進(jìn)行分類了!關(guān)鍵的點(diǎn)是:

  • cds : 是包含您的基因表達(dá)數(shù)據(jù)的CDS對(duì)象(見(jiàn)上面)芳杏。
  • classifier:這就是您在上面獲得的garnett_classifier
  • db: db : 是用于轉(zhuǎn)換基因id的生物導(dǎo)體注釋db類包的必要參數(shù)。例如辟宗,對(duì)于人類使用org.Hs.eg.db爵赵。在Bioconductor網(wǎng)站上可以找到相關(guān)的包裝。使用library(db)加載您選擇的db泊脐。如果您的物種沒(méi)有帶注釋的db類包空幻,請(qǐng)參見(jiàn)這里
  • cluster_extend:這告訴Garnett是否創(chuàng)建第二組任務(wù)容客,將分類擴(kuò)展到相同群中的細(xì)胞氛悬。您可以在名為“garnett_cluster”的列的pData表中提供分群的id,也可以讓Garnett分群并填充耘柱。

警告:如果不提供“garnett_cluster”列如捅,并將一個(gè)非常大的數(shù)據(jù)集的cluster_extend設(shè)置為TRUE,則此函數(shù)的運(yùn)行速度將大大降低调煎。為了方便起見(jiàn)镜遣,Garnett將它計(jì)算的集群保存為“garnett_cluster”,因此如果再次運(yùn)行該函數(shù),速度會(huì)更快悲关。

  • cds_gene_id_type 這個(gè)告訴garnett你的cd對(duì)象中基因id的格式谎僻。它應(yīng)該是列(db)中的一個(gè)值。默認(rèn)是“ENSEMBL”寓辱。

classify_cells函數(shù)在pData表中返回一個(gè)(如果cluster_extend = TRUE艘绍,則返回兩個(gè))包含Garnett分類的新列的輸入CDS對(duì)象。

pbmc_classifier<-hsPBMC
library(org.Hs.eg.db)
pbmc_cds <- classify_cells(pbmc_cds, pbmc_classifier,
                           db = org.Hs.eg.db,
                           cluster_extend = TRUE,
                           cds_gene_id_type = "SYMBOL")


head(pData(pbmc_cds))

DataFrame with 6 rows and 7 columns
                           tsne_1           tsne_2
                        <numeric>        <numeric>
AAGCACTGCACACA-1  3.8403149909359 12.0841914129204
GGCTCACTGGTCTA-1 9.97096226657347 3.50539308651821
AGCACTGATATCTC-1 3.45952940410281 4.93527280576176
ACACGTGATATTCC-1 1.74394947394641 7.78267061846286
ATATGCCTCTGCAA-1 5.78344829514223 8.55889827553495
TGACGAACCTATTC-1 10.7928530485958 10.5852739146963
                       Size_Factor   FACS_type garnett_cluster
                         <numeric> <character>       <logical>
AAGCACTGCACACA-1 0.559181445161514     B cells              NA
GGCTCACTGGTCTA-1 0.515934033527584     B cells              NA
AGCACTGATATCTC-1 0.698028398302026     B cells              NA
ACACGTGATATTCC-1 0.815631008885519     B cells              NA
ATATGCCTCTGCAA-1  1.11532798424345     B cells              NA
TGACGAACCTATTC-1 0.649469901028841     B cells              NA
                   cell_type cluster_ext_type
                 <character>      <character>
AAGCACTGCACACA-1     B cells          B cells
GGCTCACTGGTCTA-1     B cells          B cells
AGCACTGATATCTC-1     B cells          B cells
ACACGTGATATTCC-1     B cells          B cells
ATATGCCTCTGCAA-1     B cells          B cells
TGACGAACCTATTC-1     Unknown          Unknown

table(pData(pbmc_cds)$cell_type)
 B cells           CD34+     CD4 T cells     CD8 T cells 
            321               1              89              52 
Dendritic cells         T cells         Unknown 
             12             160             165 

table(pData(pbmc_cds)$cluster_ext_type)

        B cells     CD4 T cells Dendritic cells         T cells 
            373             200               3             200 
        Unknown 
             24 


qplot(tsne_1, tsne_2, color = cell_type, data = as.data.frame(pData(pbmc_cds))) + theme_bw()

qplot(tsne_1, tsne_2, color = cluster_ext_type, data = as.data.frame(pData(pbmc_cds)))+ theme_bw()

上面的第一個(gè)圖顯示了Garnett的cell類型分配秫筏,第二個(gè)圖顯示了Garnett的集群擴(kuò)展類型分配诱鞠。您可以看到,T細(xì)胞子集(CD4和CD8)在這些集群中并沒(méi)有很好地分離这敬,因此在計(jì)算集群擴(kuò)展類型時(shí)航夺,Garnett將層次結(jié)構(gòu)退回到更可靠的“T細(xì)胞”分配。
因?yàn)檫@個(gè)示例數(shù)據(jù)來(lái)自FACS排序的細(xì)胞樣本崔涂,所以我們可以將Garnett的分配與“真正的”細(xì)胞類型進(jìn)行比較阳掐。

Troubleshooting

Common marker file errors

這里,我們提供了一些常見(jiàn)的標(biāo)記文件錯(cuò)誤和Garnett分類的潛在結(jié)果的例子冷蚂。對(duì)于所有面板缭保,分類器在10x PBMC version 2 (V2)數(shù)據(jù)上進(jìn)行訓(xùn)練,然后使用分類器對(duì)上面所示的10x PBMC version 1 (V1)數(shù)據(jù)進(jìn)行分類蝙茶。第一個(gè)面板由基于facs的10x單元類型分配著色涮俄。其余的面板由Garnett集群無(wú)關(guān)的細(xì)胞類型分配著色。

  • A cell type is missing from the marker file尸闸。在PBMC標(biāo)記文件中,不包括T細(xì)胞定義(面板2)孕锄。在原稿中討論的例外情況是吮廉,缺失的細(xì)胞類型(即表達(dá)NK標(biāo)記FCGR3A的NKT細(xì)胞)中存在描述現(xiàn)有細(xì)胞類型的特征。

  • A cell type is defined but includes no good specific markers. 在PBMC標(biāo)記文件中畸肆,只使用CD4而不是CD3來(lái)定義T細(xì)胞(面板3)宦芦。在這種情況下,我們發(fā)現(xiàn)Garnett只標(biāo)記了T細(xì)胞的一個(gè)子集轴脐,而未標(biāo)記其余細(xì)胞调卑。

  • A gene that is not specific and widely expressed is used to define a cell type. 如果我們將MALAT1 (PBMC數(shù)據(jù)集中表達(dá)最多的轉(zhuǎn)錄本)添加到T細(xì)胞定義(面板4)中,在這種情況下大咱,我們會(huì)發(fā)現(xiàn)每個(gè)細(xì)胞類型最終都在真細(xì)胞類型和T細(xì)胞之間混合分配恬涧。在另一種情況下,包含一個(gè)廣泛表達(dá)的非特異性基因可能會(huì)導(dǎo)致Garnett根本找不到足夠的訓(xùn)練樣本碴巾,因?yàn)樗鼤?huì)認(rèn)為所有細(xì)胞都是模糊的(即它們會(huì)表達(dá)其他標(biāo)記加上非特異性的)溯捆。

  • A cell type definition includes genes that are specific to another cell type. 是這樣一個(gè)定義在哪里真正的“錯(cuò)誤”,即如果B細(xì)胞(CD79A)是最好的標(biāo)記添加到T細(xì)胞的定義(面板5)。我們發(fā)現(xiàn)B細(xì)胞集群混合細(xì)胞類型任務(wù)的B細(xì)胞和T細(xì)胞,但是剩下的細(xì)胞類型的標(biāo)簽主要不變厦瓢。

My species doesn't have an AnnotationDbi-class database
If your species doesn't have an available AnnotationDbi-class database, then Garnett won't be able to convert among gene ID types. However, you can still use Garnett for classification. Set db = 'none' and then be sure that you use the same gene ID type in your marker file as your CDS object. When db = 'none' Garnett ignores the arguments for gene ID type.

citation("garnett")

# Hannah A. Pliner, Jay Shendure & Cole Trapnell (2019). Supervised classification enables rapid annotation of cell atlases. Nature Methods
#
# A BibTeX entry for LaTeX users is
#
#   @Article{,
#     title = {Supervised classification enables rapid annotation of cell atlases},
#     journal = {Nature Methods},
#     year = {2019},
#     author = {Hannah A. Pliner and Jay Shendure and Cole Trapnell},
#   }
#


1b-train-your-own-classifier

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末提揍,一起剝皮案震驚了整個(gè)濱河市啤月,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌劳跃,老刑警劉巖谎仲,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異刨仑,居然都是意外死亡郑诺,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門贸人,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)间景,“玉大人,你說(shuō)我怎么就攤上這事艺智√纫” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵十拣,是天一觀的道長(zhǎng)封拧。 經(jīng)常有香客問(wèn)我,道長(zhǎng)夭问,這世上最難降的妖魔是什么泽西? 我笑而不...
    開(kāi)封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮缰趋,結(jié)果婚禮上捧杉,老公的妹妹穿的比我還像新娘。我一直安慰自己秘血,他們只是感情好味抖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著灰粮,像睡著了一般仔涩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音眉睹,去河邊找鬼。 笑死霞揉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的晰骑。 我是一名探鬼主播零聚,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了隶症?” 一聲冷哼從身側(cè)響起政模,我...
    開(kāi)封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蚂会,沒(méi)想到半個(gè)月后淋样,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡胁住,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年趁猴,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片彪见。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡儡司,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出余指,到底是詐尸還是另有隱情捕犬,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布酵镜,位于F島的核電站碉碉,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏淮韭。R本人自食惡果不足惜垢粮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望靠粪。 院中可真熱鬧蜡吧,春花似錦、人聲如沸占键。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)捞慌。三九已至,卻和暖如春柬批,著一層夾襖步出監(jiān)牢的瞬間啸澡,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工氮帐, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留嗅虏,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓上沐,卻偏偏與公主長(zhǎng)得像皮服,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容