一文帶你了解單細胞數(shù)據(jù)基因集打分的所有算法

上一周Immugent寫了一篇一文解決單細胞亞群注釋的所有問題失晴,引出了單細胞測序技術(shù)的面臨的幾大未解決的技術(shù)難題镐躲,其中最主要的一個問題就是由于測序深度不足產(chǎn)生的"dropout"現(xiàn)象器一。這使得很多情況下所見非所得刻伊,傻傻分不清有些基因表達量很低,是因為沒有測到還是本身沒有表達。對于這種現(xiàn)象很多研究者給出了自己的解決方法稚虎,其中最主要的一大類就是通過對包含多個基因的基因集綜合打分來評估細胞的某一項功能侧蘸,比如IL10在單細胞的數(shù)據(jù)中沒有檢測到其表達量裁眯,但是我們可以通過基于對整個IL10-signaling通路的打分來比較某兩類細胞亞群抑制功能的強弱。

其實這種理念我們并不陌生讳癌,在普通的RNA-seq數(shù)據(jù)中也比較常用未状,只不過在那種場景下是對上下調(diào)基因做的GO, KEGG富集分析,所有的這些算法都是基于基因聯(lián)動的理論析桥。那是因為在通常情況下司草,細胞行駛某一項功能,不是僅僅依賴于某一個基因泡仗,它的上下游會有很多基因隨著功能的強弱都同時出現(xiàn)變化埋虹。研究者在測量細胞某一項功能時,對影響某一細胞功能出現(xiàn)變化的所有基因進行整理歸納娩怎,就成了我們熟知的各種基因集了搔课,目前對各類基因集總結(jié)最好的就是BROAD研究所的MSigDB數(shù)據(jù)庫了(https://www.gsea-msigdb.org)。

圖片

有了描述各種各樣細胞功能的基因集截亦,我們就需要找出合適的針對單細胞數(shù)據(jù)基因集打分的算法爬泥。因為單細胞數(shù)據(jù)的分布不符合任何一種經(jīng)典的統(tǒng)計學(xué)分布,因此基于bulk數(shù)據(jù)開發(fā)出的富集分析的算法并不是很適用于單細胞數(shù)據(jù)崩瓤。就在小編整理這些對單細胞數(shù)據(jù)基因集打分的算法時袍啡,偶然發(fā)現(xiàn)一個神奇的R包 irGSEAhttps://github.com/chuiqin/irGSEA/),后來驚奇發(fā)現(xiàn)它竟是我一個朋友寫的却桶,這里手動@一下范垂欽同學(xué)境输,真是大佬就在身邊呀。然而讓小編感嘆的不僅如此颖系,還有一位朋友寫的R包都發(fā)表文章了嗅剖,等寫完這個系列小編會介紹那個R包的功能。

圖片

通過文獻檢索嘁扼,小編找到了11種常用的對單細胞數(shù)據(jù)進行基因集打分算法:GSEA信粮、GSVA、Pagoda2趁啸、Vision强缘、PLAGE、Zscore莲绰、AddModuleScore欺旧、ssGSEA、AUCell蛤签、UCell和singscore。其中GSEA, GSVA和ssGSEA想必大家多有耳聞栅哀,因為它們也是在bulk數(shù)據(jù)中常用的富集分析方法震肮,目前各大平臺介紹的有很多了称龙,小編在這里對這幾種算法就不再贅述,大家可以通過搜索對應(yīng)的帖子來學(xué)習(xí)一下戳晌。

基于單細胞數(shù)據(jù)對基因集打分的總體的流程可以通過下圖來理解一下鲫尊,首先我們需要對單細胞數(shù)據(jù)進行簡單的處理,把低質(zhì)量的細胞和基因去除沦偎;然后通過各種對基因集進行打分的算法疫向,對每個細胞的功能進行綜合評估;基于不同的測序平臺和數(shù)據(jù)量豪嚎,通過對比各種算法的準確性搔驼、穩(wěn)定性和可擴展性,找出最適合的算法運用于實際分析侈询。

圖片

AddModuleScore是Seurat內(nèi)置的對基因集進行打分的算法舌涨,因為目前很多研究者都是使用Seurat進行分析單細胞數(shù)據(jù),而這個算法在Seurat的流程中扔字,其在各大期刊發(fā)表的文章中都有使用囊嘉。其在使用時需要先計算基因集中所有基因的平均值,再根據(jù)平均值把表達矩陣切割成若干份革为,然后從切割后的每一份中隨機抽取對照基因(基因集外的基因)作為背景值扭粱。因此,在整合不同樣本的情況下震檩,即使使用相同基因集為相同細胞打分焊刹,也會產(chǎn)生不同的富集評分。從本質(zhì)上看它和Zscore的算法很類似恳蹲,Zscore又稱Z值虐块,原是一個統(tǒng)計學(xué)概念,表示的是個體測量值X以標準差σ為單位嘉蕾,偏離總體均數(shù)μ的距離贺奠,即:Z score=(X-μ)/σ。牽扯到統(tǒng)計學(xué)的概念不免有些難以理解错忱,簡單說它就是處理過的平均值儡率。

Pagoda2是一個專門設(shè)計出在從scRNA-seq數(shù)據(jù)中檢測細胞異質(zhì)性的計算框架。該方法對每個細胞擬合一個誤差模型來描述其特性以清,然后對細胞中每個基因的殘差進行再歸一化儿普。最后,利用每個基因的第一加權(quán)主成分對整個基因集打分從而對功能通路進行量化掷倔。有一篇發(fā)表在Comput Struct Biotechnol J (IF:7.3)雜志上的文章綜合評估了7種基于單細胞數(shù)據(jù)進行基因集打分的算法后發(fā)現(xiàn)眉孩,Pagoda2在各項指標中都表現(xiàn)良好,大家可以學(xué)習(xí)一下這個算法。

圖片

然后說一下Vision算法浪汪,它是使用自相關(guān)統(tǒng)計來識別細胞間生物變異的注釋工具包巴柿。Vision開始識別每個細胞的最近值 k,生成一個細胞與細胞的k近鄰圖 (KNN)死遭。Vision中對基因集打分是通過平均基因集的所有基因表達來計算的广恢。為了考慮樣本級別度量(每個細胞的UMI)的影響,最終分值將根據(jù)其平均值和標準偏差進行校正呀潭。特別需要注意的是在Vision中使用的表達式數(shù)據(jù)可以縮放和歸一化钉迷,但不能進行l(wèi)og-transformed轉(zhuǎn)換。

最后重點說一下singscoreUcell算法钠署,它倆都是專門針對單細胞數(shù)據(jù)開發(fā)出的對基因集進行評分的算法糠聪,特點是相較于其它算法,它們能夠囊括既包括正向基因踏幻,也包括負向基因的基因集枷颊。例如想揭示CD4 T細胞和CD8 T細胞,就可以在CD4(+),CD8(-)和CD4(-)CD8(+)的兩個數(shù)據(jù)集分別對細胞群進行打分该面,可以得到更高的差異值夭苗。但是特別注意的是在使用這種數(shù)據(jù)集時,對每個基因的判定很重要隔缀,對于很確定的基因可以使用题造,但對不太確定的基因應(yīng)該避免使用。

irGSEA包內(nèi)置了"AUCell", "UCell", "singscore", "ssgsea"四種算法猾瘸,而且相對于原版的函數(shù)界赔,irGSEA對ssgsea算法進行了優(yōu)化,而且AUCell的運算速度也提升了很多牵触,最重要的是內(nèi)置了Seurat包淮悼,因此可以將多種基因集的富集分數(shù)矩陣直接保存到Seurat對象中,總之就是很輕便揽思。

最后附上irGSEA包的安裝方法袜腥,因為這個包里面嵌入了很多新的函數(shù),需要使用最新的4.1版本的R進行安裝钉汗。

install packages from CRAN

cran.packages <- c("msigdbr", "dplyr", "purrr", "stringr","magrittr",
"RobustRankAggreg", "tibble", "reshape2", "ggsci",
"tidyr", "aplot", "ggfun", "ggplotify", "ggridges",
"gghalves", "Seurat", "SeuratObject", "methods",
"devtools", "BiocManager","data.table","doParallel",
"doRNG")
if (!requireNamespace(cran.packages, quietly = TRUE)) {
install.packages(cran.packages, ask = F, update = F)
}

install packages from Bioconductor

bioconductor.packages <- c("GSEABase", "AUCell", "SummarizedExperiment",
"singscore", "GSVA", "ComplexHeatmap", "ggtree",
"Nebulosa")
if (!requireNamespace(bioconductor.packages, quietly = TRUE)) {
BiocManager::install(bioconductor.packages, ask = F, update = F)
}

install packages from Github

if (!requireNamespace("UCell", quietly = TRUE)) {
devtools::install_github("carmonalab/UCell")
}
if (!requireNamespace("irGSEA", quietly = TRUE)) {
devtools::install_github("chuiqin/irGSEA")
}

好啦羹令,本期推文說到這就要結(jié)束了,下次小編將會用實例數(shù)據(jù)對irGSEA包的分析結(jié)果進行展示损痰,敬請期待福侈!


[參考文獻]

Zhang Y, Ma Y, Huang Y, Zhang Y, Jiang Q, Zhou M, Su J. Benchmarking algorithms for pathway activity transformation of single-cell RNA-seq data. Comput Struct Biotechnol J. 2020 Oct 15;18:2953-2961. doi: 10.1016/j.csbj.2020.10.007.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市卢未,隨后出現(xiàn)的幾起案子肪凛,更是在濱河造成了極大的恐慌堰汉,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件显拜,死亡現(xiàn)場離奇詭異衡奥,居然都是意外死亡爹袁,警方通過查閱死者的電腦和手機远荠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來失息,“玉大人譬淳,你說我怎么就攤上這事№锞ぃ” “怎么了邻梆?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長绎秒。 經(jīng)常有香客問我浦妄,道長,這世上最難降的妖魔是什么见芹? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任剂娄,我火速辦了婚禮,結(jié)果婚禮上玄呛,老公的妹妹穿的比我還像新娘阅懦。我一直安慰自己,他們只是感情好徘铝,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布耳胎。 她就那樣靜靜地躺著,像睡著了一般惕它。 火紅的嫁衣襯著肌膚如雪怕午。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天淹魄,我揣著相機與錄音郁惜,去河邊找鬼。 笑死揭北,一個胖子當著我的面吹牛扳炬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播搔体,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼恨樟,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了疚俱?” 一聲冷哼從身側(cè)響起劝术,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后养晋,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衬吆,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年绳泉,在試婚紗的時候發(fā)現(xiàn)自己被綠了逊抡。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡零酪,死狀恐怖冒嫡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情四苇,我是刑警寧澤孝凌,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站月腋,受9級特大地震影響蟀架,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜榆骚,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一片拍、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧寨躁,春花似錦穆碎、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至放钦,卻和暖如春色徘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背操禀。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工褂策, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人颓屑。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓斤寂,卻偏偏與公主長得像,于是被迫代替她去往敵國和親揪惦。 傳聞我的和親對象是個殘疾皇子遍搞,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • ![Flask](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAW...
    極客學(xué)院Wiki閱讀 7,234評論 0 3
  • 不知不覺易趣客已經(jīng)在路上走了快一年了溪猿,感覺也該讓更多朋友認識知道易趣客钩杰,所以就謝了這篇簡介,已做創(chuàng)業(yè)記事诊县。 易趣客...
    Physher閱讀 3,408評論 1 2
  • 雙胎妊娠有家族遺傳傾向讲弄,隨母系遺傳。有研究表明依痊,如果孕婦本人是雙胎之一避除,她生雙胎的機率為1/58;若孕婦的父親或母...
    鄴水芙蓉hibiscus閱讀 3,695評論 0 2
  • 晴天钳枕,擁抱陽光缴渊,擁抱你。雨天鱼炒,想念雨滴衔沼,想念你。 我可以喜歡你嗎可以啊 我還可以喜歡你嗎可以昔瞧,可是你要知道我們不可...
    露薇霜凝閱讀 1,202評論 1 2