基于 Cell ID 的單細(xì)胞基因指紋特征提取和細(xì)胞身份識別的新方法

我想分享一篇今年四月份發(fā)表在 《Nature biotechnology》 上的文章介劫,題目是 “Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID”钞它,翻譯出來是 “基于Cell ID的單細(xì)胞水平基因指紋特征提取和細(xì)胞身份識別方法”撒穷。

image-20210615135757667

我們知道單細(xì)胞RNA測序技術(shù)(scRNA-seq)的應(yīng)用已經(jīng)越來越廣泛蓝纲。在研究人類器官組織和細(xì)胞的類型上讶坯,scRNA-seq 是一個很好的技術(shù)解決方案丰辣。目前比較有代表性的研究項目包括:人類細(xì)胞圖譜項目盛杰、美國國立衛(wèi)生研究院(NIH)主導(dǎo)的人類生物分子圖譜計劃和 LifeTime 項目等焰扳。

單細(xì)胞研究的一個重要目的是揭示細(xì)胞之間復(fù)雜且豐富的異質(zhì)性特征倦零。但這個領(lǐng)域一直以來都有一個挑戰(zhàn)误续,那就是 scRNA-seq 數(shù)據(jù)的維度和噪聲都比較高,這導(dǎo)致對細(xì)胞異質(zhì)性的研究變得十分復(fù)雜扫茅,這個問題在很大程度上也制約了細(xì)胞多樣性的研究蹋嵌。

一般來說降低數(shù)據(jù)維度可以提高信噪比,也就是用少量但是顯著的特征描述細(xì)胞诞帐。目前在這方面用得最廣的是PCA欣尼、ICA、tSNE和UMAP停蕉。但這些方法本質(zhì)上都是基于聚類來實(shí)現(xiàn)的愕鼓,它們在計算細(xì)胞特征的過程中尋找的是細(xì)胞之間的共性差異,因此這些方法所揭示的異質(zhì)性實(shí)際上停留在細(xì)胞亞群這個較粗的顆粒度上慧起,而不是精確到單個細(xì)胞的水平菇晃。

但對于細(xì)胞轉(zhuǎn)錄異質(zhì)性的詳盡研究實(shí)際上需要我們對每一個細(xì)胞的基因表達(dá)特征都進(jìn)行可靠的統(tǒng)計和分析。所以蚓挤,如何能夠可靠地表征每一個細(xì)胞的基因特征就成為了單細(xì)胞轉(zhuǎn)錄組學(xué)研究中一個尚未被完整解決的科學(xué)問題磺送。

這也是 NBT 這篇文章所要解決的問題。這篇文章的作者來自法國巴黎大學(xué)灿意,他們提出了一個稱為 Cell-ID 的無聚類多元統(tǒng)計方法估灿。這個方法可以從單細(xì)胞測序數(shù)據(jù)中將每個細(xì)胞的基因特征有效地提取出來,并且還能夠橫跨不同的數(shù)據(jù)集對不同的細(xì)胞類型進(jìn)行注釋和匹配缤剧,發(fā)現(xiàn)未知或罕見的細(xì)胞類型和細(xì)胞狀態(tài)馅袁。

從原理來說,Cell-ID 背后所依據(jù)的方法是統(tǒng)計學(xué)中的多重對應(yīng)分析法(Multiple correspondence analysis, 簡稱 MCA)荒辕,這是一種變量統(tǒng)計分析方法汗销,它可以用來分析多個高緯度變量(比如基因表達(dá)量)之間的關(guān)聯(lián)以及和多個低緯度觀察值(比如細(xì)胞)之間的對應(yīng)關(guān)系。

MCA方法經(jīng)常被應(yīng)用到社會科學(xué)領(lǐng)域的研究之中抵窒,用來調(diào)查測試對象對不同問題的態(tài)度一致性弛针,法國和日本對這個方法的使用尤為普遍,可能也是這個原因法國巴黎大學(xué)的研究人員率先將這個方法移植到了單細(xì)胞基因指紋特征的提取上李皇。

MCA 本質(zhì)上也是一個針對多個分類變量的降維方法削茁,就如同針對定量變量的主成分分析法一樣,最終目的是讓同個類別的對象將緊靠在一起疙赠,而不同類別的對象遠(yuǎn)遠(yuǎn)分開(但不同之處在于MCA除了降維之外付材,還可以檢測多變量之間的關(guān)聯(lián)關(guān)系)。

但要注意 MCA 僅適用于從定性變量(也就是“分類變量”)中得出統(tǒng)計結(jié)論圃阳,所以在應(yīng)用 MCA 之前需要先將定量變量轉(zhuǎn)化為分類變量厌衔,例如將連續(xù)型變量標(biāo)準(zhǔn)化之后取它們的統(tǒng)計分位數(shù)來作為分類變量。當(dāng)數(shù)據(jù)集完全表示為分類變量之后捍岳,就可以構(gòu)建相關(guān)的數(shù)據(jù)矩陣進(jìn)行 MCA 分析了富寿。

文章這里是通過線性變換的方式將各個細(xì)胞的基因表達(dá)量轉(zhuǎn)化到0和1的范圍之內(nèi)睬隶,這樣就可以在 MCA 的數(shù)學(xué)框架之下對細(xì)胞的特征進(jìn)行定量分析了,這一點(diǎn)也是這篇文章中一個較為巧妙的處理方法页徐,下面的圖1是 Cell-ID 的原理概述苏潜。

圖1. Cell-ID方法概述

從圖1.a可以看出,Cell-ID 通過 MCA 實(shí)現(xiàn)了基因表達(dá)矩陣的降維变勇,圖中細(xì)胞(黃色圈圈)和基因(黑色“+”)都投影到一個共同的正交空間中恤左,這個圖也叫做 MCA 雙標(biāo)圖(MCA biplot)。在這樣的正交空間中搀绣,基因離細(xì)胞越近飞袋,那么就代表它對某個細(xì)胞的特異性越高。因此链患,可以在 MCA 空間中巧鸭,將細(xì)胞上的基因與該細(xì)胞的距離作排序,排序靠前的基因就可以作為這個細(xì)胞的基因特征麻捻,或者稱作該細(xì)胞的基因指紋纲仍,看作是這個細(xì)胞的一個獨(dú)特身份證。同時贸毕,每個細(xì)胞的基因特征本身也是一個很有價值的數(shù)據(jù)郑叠,所以還可以單獨(dú)將它們提取出來構(gòu)成一個單細(xì)胞基因特征數(shù)據(jù)集用于進(jìn)行下游分析,比如圖1b中的功能研究等明棍。

那么關(guān)于 Cell-ID 的原理概述就到此為止了锻拘,當(dāng)然具體的數(shù)學(xué)細(xì)節(jié)我在這里無法展開,因?yàn)樵摬糠值募?xì)節(jié)對我來說也還有不清楚的地方击蹲,還需要做更多的數(shù)學(xué)演繹才行,當(dāng)然這其中最重要的就是 MCA 的原理(在很多多元統(tǒng)計學(xué)的書本中有該原理的數(shù)學(xué)描述)婉宰。

評估 Cell-ID 的有效性

接下來要對 Cell-ID 方法的有效性進(jìn)行綜合評估歌豺,這個評估的方法和結(jié)果貫穿全文也是文章的一個重點(diǎn)

研究人員首先模擬生成了 100 個 scRNA-seq 數(shù)據(jù)心包,然后在這個數(shù)據(jù)集上分析基于MCA 降維的細(xì)胞和基因表達(dá)的一致性类咧。

這個一致性評估從三個層面來進(jìn)行:

  1. 通過計算 Spearman 相關(guān)性系數(shù)的方法,分別評估 MCA 方法和常用的 PCA 方法降維之后前10個主成分的結(jié)果相關(guān)性(如 Supplementary Fig 1)蟹腾,可以看到各個PC之間的相關(guān)性都很高痕惋,接近于 1;
image-20210617202644406
  1. 通過近鄰法進(jìn)行對比娃殖。具體來說是對由 MCA 方法所獲得的每個細(xì)胞中的基因排列和 MCA 空間中相鄰的另外50個細(xì)胞進(jìn)行對比值戳。主要是比較他們的基因表達(dá)量是否一致,對比的結(jié)果也在 Supplymentary Fig1a.b 中展示出來了炉爆,可以看出一致性情況也是很好的堕虹,也就是說彼此相鄰的細(xì)胞卧晓,它們的基因特征也相似

  2. 進(jìn)一步驗(yàn)證發(fā)現(xiàn)基于 MCA 得到的細(xì)胞基因特征信息即使是在發(fā)生高dropout現(xiàn)象的 scRNA-seq 數(shù)據(jù)集里也依然有很好的魯棒性赴捞。

這里我補(bǔ)充解釋一下什么是“Dropout現(xiàn)象”:Dropout 現(xiàn)象是 scRNA-seq 中常發(fā)生的一個事件逼裆,意思是基因表達(dá)信息漏測。原因是很多在表達(dá)的基因赦政,由于每個細(xì)胞中 mRNA 序列起始量較低或者測序技術(shù)的原因而沒有被檢測到胜宇,這部分基因的表達(dá)信息就被漏掉了。dropout 現(xiàn)象所導(dǎo)致的數(shù)據(jù)丟失恢着,會影響下游的數(shù)據(jù)分析桐愉,如何解決這個問題也是單細(xì)胞組學(xué)所面臨的一個挑戰(zhàn)。 https://www.linkresearcher.com/theses/b57bbc38-da8c-463b-8c91-4d56c3101ac4

除了使用模擬數(shù)據(jù)之外然评,研究人員接下來使用兩組獨(dú)立的人血單核細(xì)胞對 Cell-ID 的有效性做更進(jìn)一步的評估仅财,這兩組細(xì)胞分別是:(1)基于 CITE-seq 方案得到的臍血單核細(xì)胞(CBMCs)和(2)通過 REAP-seq 方案得到的外周血單核細(xì)胞,這兩個方案都是通過檢測單個細(xì)胞的蛋白標(biāo)記物水平對單個細(xì)胞的特征進(jìn)行了注釋碗淌。

這相當(dāng)于是通過實(shí)驗(yàn)檢測的方法盏求,得到了一個單細(xì)胞類型特征的參考數(shù)據(jù)。

通過對比分析之后亿眠,可以發(fā)現(xiàn) Cell-ID 的基因指紋特征在對應(yīng)類型細(xì)胞的基因上都有顯著的富集情況(圖 2.a)碎罚,這個富集可以說明 Cell-ID 得到的細(xì)胞基因特征和真實(shí)結(jié)果是具有高度一致性。

圖2. Cell-ID通過預(yù)先建立的標(biāo)記列表識別人類CBMCs細(xì)胞類型

圖2. Cell-ID通過預(yù)先建立的標(biāo)記列表識別人類CBMCs細(xì)胞類型

從具體數(shù)字上來說纳像,這兩個數(shù)據(jù)集中 Cell-ID 的識別精確度(Precision)分別達(dá)到了 87% 和 90%荆烈,召回率(Recall)達(dá)到了 84% 和 73%。這個結(jié)果想要告訴我們的是竟趾,文章所提出的 Cell-ID 能夠很好地提取每個細(xì)胞的基因指紋并用來識別不同的細(xì)胞類型憔购。

除此之外,Cell-ID 甚至還能識別正在分化的細(xì)胞亞型岔帽,例如文章圖 2c,d 所示的那樣玫鸟,Cell-ID 捕獲到了造血干細(xì)胞的分化亞型,而且即使是罕見的細(xì)胞狀態(tài)也可以被 Cell-ID 識別出來犀勒。

同類細(xì)胞的可重復(fù)性識別評估

緊接著屎飘,研究人員進(jìn)一步評估了 Cell-ID 對同一組織不同批次 scRNA-seq 數(shù)據(jù)集中識別相同細(xì)胞類型的能力。如文章圖3所示(如下)贾费,主要分析了來自多個不同供體钦购、不同測序平臺所產(chǎn)生的人類胰島和人類以及小鼠氣道上皮細(xì)胞的數(shù)據(jù)集。結(jié)果發(fā)現(xiàn)褂萧,Cell-ID 的整體性能和有效性與已經(jīng)發(fā)表的方法相當(dāng)押桃。精確度和召回率都很高,其中精確度大于 92%箱玷,召回率也高于 75%怨规。

圖3. Cell-ID對同一或不同來源組織陌宿、種內(nèi)和種間的scRNA-seq數(shù)據(jù)集的細(xì)胞匹配表現(xiàn)

圖3. Cell-ID對同一或不同來源組織、種內(nèi)和種間的scRNA-seq數(shù)據(jù)集的細(xì)胞匹配表現(xiàn)

跨組織的細(xì)胞類型識別能力評估

然后波丰,評估 Cell-ID 在不同組織來源的 scRNA-seq 數(shù)據(jù)中識別同一種細(xì)胞類型的能力壳坪。

文章還是用氣道上皮細(xì)胞作為例子(圖3 展示了這個過程)£蹋基于在氣道上皮細(xì)胞中獲得的無偏基因指紋特征爽蝴,Cell-ID 識別出了腸上皮中的刷狀/族狀細(xì)胞、內(nèi)分泌細(xì)胞和杯狀細(xì)胞纫骑,而且精度高達(dá)90%蝎亚、召回率達(dá)到73%。對比之后發(fā)現(xiàn)先馆,這個精度已經(jīng)優(yōu)于已經(jīng)發(fā)表過的方法(圖3c发框、d可以查看更加具體的對比結(jié)果)。

另外煤墙,他們還使用 Cell-ID 對兩個獨(dú)立的嗅上皮細(xì)胞數(shù)據(jù)集做細(xì)胞類型的掃描和識別梅惯,同時對比了來自氣道和腸道上皮的族狀細(xì)胞特征,結(jié)果還識別出了推測中罕見的仿野、未分類的SCCs細(xì)胞铣减,即孤立化學(xué)感覺細(xì)胞(如圖3e、f所示)脚作。

跨測序平臺的評估

這是對 Cell-ID 的最后一項評估葫哗,評測了它在不同的單細(xì)胞組學(xué)平臺上的表現(xiàn),同時驗(yàn)證它在基因指紋特征識別上的可重復(fù)性(文章圖4展示了這個具體的過程)球涛。這個評估所用到的數(shù)據(jù)主要來自于雄性小鼠細(xì)胞圖譜中的 scRNA-seq 數(shù)據(jù)和小鼠 ATAC 圖譜中單細(xì)胞 ATAC-seq 數(shù)據(jù)劣针。分析結(jié)果也顯示,Cell-ID 對來源于 scRNA-seq 和 ATAC-seq 的數(shù)據(jù)得出的細(xì)胞類型匹配度都很好亿扁,F(xiàn)1 分值也都比較高酿秸,并且要優(yōu)于當(dāng)前已發(fā)表的其他方法

圖4. Cell-ID對來源于不同單細(xì)胞組學(xué)技術(shù)的獨(dú)立數(shù)據(jù)集上細(xì)胞間匹配能力的評估

圖4. Cell-ID對來源于不同單細(xì)胞組學(xué)技術(shù)的獨(dú)立數(shù)據(jù)集上細(xì)胞間匹配能力的評估

所以魏烫,綜合來說,這篇文章所提出的 Cell-ID 可以非常量化地提取并注釋細(xì)胞的基因特征用于表征不同的細(xì)胞類型肝箱,并且能夠在不同的供體哄褒、器官組織、物種和單細(xì)胞測序平臺中得到有效的重復(fù)和驗(yàn)證煌张。這樣的一個方法可以改善我們在單細(xì)胞水平的生物學(xué)方面的研究和解釋力呐赡,可以更好地發(fā)現(xiàn)以前未被表征出來的罕見細(xì)胞類型或者細(xì)胞狀態(tài),而且這個方法還為跨組織骏融、跨生物體的細(xì)胞類型研究以及系統(tǒng)多組學(xué)研究奠定基礎(chǔ)链嘀,意義非凡萌狂。

啟發(fā)

讀了這一篇文章之后,我想最后再談一點(diǎn)它帶給我的一個啟示怀泊。

實(shí)際上茫藏,這篇文章所用到的統(tǒng)計學(xué)方法并不算很新穎,它只是將一個在其他學(xué)科中用得比較廣的方法復(fù)用到單細(xì)胞組學(xué)中來霹琼,并沒有創(chuàng)造一種全新的統(tǒng)計學(xué)算法务傲,但是卻在單細(xì)胞組學(xué)領(lǐng)域取得了很好的效果,可見微創(chuàng)新同樣是獲得重要科研成果的有效手段枣申,甚至還是一個高效的手段售葡,未必都得好高騖遠(yuǎn),還是要因時制宜忠藤,當(dāng)然他們的先發(fā)優(yōu)勢也是這里面一個重要的加分項挟伙。

文章提出的 Cell-ID 從原理上來說,我覺得還可以應(yīng)用到腸道菌群基因組的研究之中模孩,可以用類似于 Cell-ID 的思路設(shè)計一個 Meta-ID 來對不同的腸道菌群進(jìn)行特征表達(dá)和識別尖阔,這樣一來應(yīng)該也能夠進(jìn)一步提升當(dāng)前的腸道菌群多組學(xué)研究。

參考文獻(xiàn)

Cortal A, Martignetti L, Six E, Rausell A. Gene signature extraction and cell identity recognition at the single-cell level with Cell-ID [published online ahead of print, 2021 Apr 29].Nat Biotechnol.2021;10.1038/s41587-021-00896-6.

訂閱

首發(fā)于個人公眾號:helixminer(堿基礦工)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瓜贾,一起剝皮案震驚了整個濱河市诺祸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌祭芦,老刑警劉巖筷笨,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異龟劲,居然都是意外死亡胃夏,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門昌跌,熙熙樓的掌柜王于貴愁眉苦臉地迎上來仰禀,“玉大人,你說我怎么就攤上這事蚕愤〈鸲瘢” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵萍诱,是天一觀的道長悬嗓。 經(jīng)常有香客問我,道長裕坊,這世上最難降的妖魔是什么包竹? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上周瞎,老公的妹妹穿的比我還像新娘苗缩。我一直安慰自己,他們只是感情好声诸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布酱讶。 她就那樣靜靜地躺著,像睡著了一般双絮。 火紅的嫁衣襯著肌膚如雪浴麻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天囤攀,我揣著相機(jī)與錄音软免,去河邊找鬼。 笑死焚挠,一個胖子當(dāng)著我的面吹牛膏萧,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蝌衔,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼榛泛,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了噩斟?” 一聲冷哼從身側(cè)響起曹锨,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎剃允,沒想到半個月后沛简,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡斥废,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年椒楣,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牡肉。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡捧灰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出统锤,到底是詐尸還是另有隱情毛俏,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布饲窿,位于F島的核電站拧抖,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏免绿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一擦盾、第九天 我趴在偏房一處隱蔽的房頂上張望嘲驾。 院中可真熱鬧淌哟,春花似錦、人聲如沸辽故。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽誊垢。三九已至掉弛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間喂走,已是汗流浹背殃饿。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留芋肠,地道東北人乎芳。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓,卻偏偏與公主長得像帖池,于是被迫代替她去往敵國和親奈惑。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容