sc-Review:物種間單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析

TY - JOUR
AU - Shafer, Maxwell E. R.
M3 - 10.3389/fcell.2019.00175
TI - Cross-Species Analysis of Single-Cell Transcriptomic Data
JO - Frontiers in Cell and Developmental Biology
UR - https://www.frontiersin.org/article/10.3389/fcell.2019.00175

隨著單細(xì)胞轉(zhuǎn)錄組測序技術(shù)的發(fā)展辣卒,越來越多的物種細(xì)胞圖譜得以揭曉。這些數(shù)據(jù)集允許我們提出關(guān)于細(xì)胞多樣性起源的問題滥嘴,以及形成細(xì)胞形態(tài)和功能的進(jìn)化機(jī)制撬呢。這些實(shí)驗(yàn)的最終目標(biāo)是產(chǎn)生細(xì)胞類型系統(tǒng)發(fā)育譜系,描述細(xì)胞類型之間的進(jìn)化關(guān)系卖漫。然而,從不同來源、不同模型和非模型生物獲得的相關(guān)信息被許多技術(shù)和生物因素所混淆杭抠,使得單細(xì)胞數(shù)據(jù)的比較變得困難。

利用scrna測序分析數(shù)十萬到數(shù)百萬個(gè)單細(xì)胞的能力已經(jīng)徹底改變了細(xì)胞和發(fā)育生物學(xué)領(lǐng)域恳啥,為許多物種的細(xì)胞類型的形式和功能的多樣性提供了令人難以置信的見解偏灿。這些技術(shù)有望發(fā)展出詳細(xì)的細(xì)胞類型譜系,從而描述跨物種細(xì)胞類型間的進(jìn)化和發(fā)育關(guān)系钝的。這將需要使用單細(xì)胞轉(zhuǎn)錄組學(xué)對許多物種和單細(xì)胞進(jìn)行采樣翁垂,并對細(xì)胞類型同質(zhì)性和多樣性進(jìn)行分類铆遭。目前有許多工具用于分析單細(xì)胞數(shù)據(jù)和識(shí)別細(xì)胞類型。然而沿猜,跨物種比較由于許多生物學(xué)和技術(shù)因素而變得復(fù)雜枚荣。

這些因素包括深度測序方法引起的批量效應(yīng),同源基因和副合基因(orthologous and paralogous genes)之間的進(jìn)化關(guān)系啼肩,以及物種間轉(zhuǎn)錄組變異形成的進(jìn)化力量橄妆。在這篇綜述中,將討論在計(jì)算方法方面的最新進(jìn)展祈坠,以比較跨物種的單細(xì)胞基因組數(shù)據(jù)害碾。這些方法有潛力提供寶貴的見解,了解進(jìn)化力量如何在細(xì)胞水平上發(fā)揮作用赦拘,并將進(jìn)一步了解動(dòng)物和細(xì)胞多樣性的進(jìn)化起源慌随。

單細(xì)胞測序和單細(xì)胞聚類方法

盡管對于這些轉(zhuǎn)錄差異是否是細(xì)胞類型或多樣性的可靠指標(biāo)存在爭議,但單細(xì)胞測序技術(shù)仍然非常強(qiáng)大躺同,有潛力用于了解跨物種的細(xì)胞類型之間的進(jìn)化關(guān)系儒陨。事實(shí)上,這些技術(shù)最近已被用于比較小鼠和人類的胚胎大腦發(fā)育笋籽,以及爬行動(dòng)物神經(jīng)細(xì)胞類型的進(jìn)化蹦漠。

單細(xì)胞轉(zhuǎn)錄組分析一般流程

計(jì)算基因特異性的公式以及龜蜥蜴細(xì)胞類型(彩色圓點(diǎn))之間這些值的實(shí)例相關(guān)性,其中紅色的Pearson相關(guān)系數(shù)值表示正相關(guān)车海,藍(lán)色表示負(fù)相關(guān)笛园。

識(shí)別跨物種細(xì)胞類型注釋的隨機(jī)森林機(jī)器學(xué)習(xí)算法包括:首先對來自一個(gè)物種的細(xì)胞類型訓(xùn)練一個(gè)算法(步驟1),然后預(yù)測來自不同物種的每個(gè)細(xì)胞在這些細(xì)胞類型中最相似的是哪個(gè)(步驟2)侍芝,結(jié)果是一個(gè)混淆矩陣(confusion matrix)研铆。動(dòng)物圖標(biāo)是從PhyloPic獲得的(www.phylopic.org)。

統(tǒng)計(jì)實(shí)驗(yàn)和生物批處理效應(yīng)

通過比較和對照單細(xì)胞數(shù)據(jù)集州叠,可以觀察生物現(xiàn)象的重現(xiàn)性棵红,或者通過將多個(gè)數(shù)據(jù)集合并到更大的細(xì)胞類型圖譜中來識(shí)別額外的細(xì)胞類型。對特定組織內(nèi)的細(xì)胞類型進(jìn)行跨物種比較咧栗,將有助于在模型和非模型系統(tǒng)之間轉(zhuǎn)換知識(shí)逆甜,并可能提示細(xì)胞類型之間的進(jìn)化關(guān)系,從而生成細(xì)胞類型的系統(tǒng)發(fā)育譜系致板。然而交煞,技術(shù)批量效應(yīng)可以在每個(gè)實(shí)驗(yàn)步驟中引入,從細(xì)胞分離過程斟或、分離和條形碼素征、測序和分析。除了物種的起源,由遺傳背景御毅、年齡和性別差異引起的生物批次效應(yīng)也需要考慮根欧。有幾個(gè)小組已經(jīng)生成了計(jì)算工具來處理單細(xì)胞數(shù)據(jù)特有的批處理效果。這些方法從批量rna測序?qū)嶒?yàn)的比較中吸取了教訓(xùn)端蛆,但經(jīng)過改進(jìn)咽块,能夠解決單細(xì)胞數(shù)據(jù)的高度異質(zhì)性。

比較不同物種的細(xì)胞類型

物種單細(xì)胞數(shù)據(jù)集既可以單獨(dú)分析和注釋欺税,也可以組合分析/注釋侈沪。單獨(dú)的分析需要對細(xì)胞類型進(jìn)行交叉注釋(通常是手工注釋),但保留數(shù)據(jù)集內(nèi)部的異構(gòu)性晚凿。聯(lián)合分析增加了用于聚類的細(xì)胞數(shù)量亭罪,從而可以識(shí)別額外的異質(zhì)性和罕見的細(xì)胞種群。然而歼秽,它更復(fù)雜应役,計(jì)算量更大,可能會(huì)模糊物種特有的細(xì)胞類型燥筷。聯(lián)合分析“批量校正(batch-correct)”的潛在基因表達(dá)數(shù)據(jù)箩祥,使每個(gè)物種細(xì)胞內(nèi)的基因表達(dá)水平彼此相似。

跨物種整合單細(xì)胞RNA-seq數(shù)據(jù)集的方法中肆氓,細(xì)胞通常根據(jù)數(shù)據(jù)集或物種而不是細(xì)胞類型聚集在一起袍祖。為了集成下游分析的數(shù)據(jù)集,可以使用批量校正算法谢揪。


數(shù)據(jù)集集成可以通過使用相互最近鄰居(MNN)之間的差異蕉陋、典型相關(guān)分析(CCA)或兩者的組合來識(shí)別批量校正向量來完成。


綜合非負(fù)矩陣因子分解(iNMF)可以將細(xì)胞×基因表達(dá)矩陣分解成單獨(dú)的因子矩陣拨扶,這些因子矩陣可以代表影響基因表達(dá)模式的物種特異性因子凳鬓。然后,這些因素可以被移除患民,以允許細(xì)胞類型聚類缩举,同時(shí)保留關(guān)于哪些基因有助于物種特異性差異的信息。

在主元空間中匹颤,基于細(xì)胞型中心體仅孩,Harmony迭代計(jì)算批量校正向量。

跨物種的基因間的標(biāo)準(zhǔn)分配(物種形成節(jié)點(diǎn)后的藍(lán)線和紅線)由于基因復(fù)制事件(復(fù)制節(jié)點(diǎn))而變得復(fù)雜惋嚎。此外杠氢,在跨物種分配標(biāo)準(zhǔn)品和基因功能時(shí)站刑,應(yīng)考慮基因表達(dá)的次功能化(粉紅色虛線框)或新功能化(綠色虛線框)(標(biāo)準(zhǔn)品檢測)另伍。

單細(xì)胞數(shù)據(jù)集的整合

最大的困難在于批次效應(yīng)。數(shù)據(jù)集的計(jì)算集成允許統(tǒng)一的下游分析,但是摆尝,在刪除物種特定的批處理效果時(shí)必須考慮幾個(gè)因素温艇。大多數(shù)批量校正方法都是基于線性回歸的,它先擬合一個(gè)描述批量效應(yīng)的線性模型堕汞,然后在不考慮批量效應(yīng)的情況下推導(dǎo)出一個(gè)新的表達(dá)矩陣勺爱。這種方法對于單細(xì)胞RNA-seq數(shù)據(jù)是有問題的,因?yàn)樗僭O(shè)每個(gè)數(shù)據(jù)集中的細(xì)胞類型是相同的讯检,并且所有細(xì)胞類型的批處理效果是一致的琐鲁。單細(xì)胞RNA-seq整合方法必須能夠描述物種之間共享的和細(xì)胞類型的具體差異,并解釋取樣方法(觀察到的細(xì)胞/基因數(shù)量人灼,或物種之間解離協(xié)議的差異)造成的差異围段。一般來說,這些技術(shù)的目的是將兩個(gè)物種的細(xì)胞嵌入到一個(gè)共享的低維空間中投放,在這個(gè)空間中可以比較亞群和細(xì)胞奈泪。

發(fā)表的第一個(gè)此類集成方法mnnCorrect/fastMNN,在高維基因表達(dá)空間中識(shí)別相互近鄰(MNNs)灸芳,以識(shí)別細(xì)胞類型特定的批處理糾正載體涝桅。

Seurat也包含了用于數(shù)據(jù)集集成的幾種方法。最初的Seurat比對過程涉及使用典型相關(guān)分析(CCA)在數(shù)據(jù)集或物種之間識(shí)別共享的相關(guān)結(jié)構(gòu)烙样。CCA識(shí)別出與表達(dá)差異相關(guān)的基因群冯遂。這些差異然后被用來批量糾正每組基因的不同使用非線性動(dòng)態(tài)翻轉(zhuǎn)(non-linear dynamic warping),生成一個(gè)共享的低維空間谒获。在Seurat v3.0中债蜜,作者結(jié)合了MNNs來幫助數(shù)據(jù)集集成。在CCA和動(dòng)態(tài)翻轉(zhuǎn)之后究反,mnn在數(shù)據(jù)集之間被識(shí)別寻定,并被用作“錨”來計(jì)算進(jìn)一步的校正向量,此方法類似于mnnCorrect/fastMNN精耐。

這些方法的一個(gè)大問題是在整合過程中過度擬合狼速,導(dǎo)致細(xì)胞類型的合并,或模糊數(shù)據(jù)集特異性基因表達(dá)差異卦停。Seurat和mnnCorrect/fastMNN都使用MNNs向胡,當(dāng)單元類型只出現(xiàn)在數(shù)據(jù)集的一個(gè)子集時(shí),可以減少這種影響惊完,因?yàn)樗鼈冊谌魏纹渌麛?shù)據(jù)集中都沒有相互最近的鄰居僵芹。Scanorama的全景拼接算法(panoramic stitching algorithms)使用了一種更通用的MNN技術(shù),旨在進(jìn)一步減少數(shù)據(jù)集之間的過擬合量小槐,使用的過程類似于從單個(gè)圖像創(chuàng)建全景拇派。

第三種方法荷辕,LIGER,使用整合非負(fù)矩陣分解(iNMF)來學(xué)習(xí)數(shù)據(jù)集之間共享的和唯一的基因表達(dá)特征件豌。iNMF將一個(gè)矩陣(如細(xì)胞通過基因表達(dá)矩陣)分解為多個(gè)基向量(細(xì)胞通過因子矩陣)和系數(shù)向量(因子通過基因矩陣)的矩陣疮方。因子代表了基因協(xié)同調(diào)控的模式,通常與代表特定細(xì)胞類型的基因組相對應(yīng)茧彤。對于每個(gè)數(shù)據(jù)集骡显,LIGER還推斷出與物種特有信號(hào)相對應(yīng)的獨(dú)立因素。

Harmony將來自不同數(shù)據(jù)集的類似細(xì)胞類型向低維PCA空間中的共享形心方向修正曾掂,迭代運(yùn)行惫谤,直到數(shù)據(jù)集收斂。

conos使用統(tǒng)一的圖形表示來跨廣泛的數(shù)據(jù)集集合映射單元類型珠洗。數(shù)據(jù)集之間的虛假連接被最小化——只有跨多個(gè)數(shù)據(jù)集相互映射的細(xì)胞被用來識(shí)別公共的子群石挂。

盡管上述方法為跨物種比較單細(xì)胞數(shù)據(jù)提供了令人興奮的可能性,但在實(shí)現(xiàn)過程中仍存在許多問題险污。目前所有的方法都要求在分析時(shí)只使用物種間的同源基因痹愚。這些基因用于特征選擇和主成分分析。僅在一個(gè)數(shù)據(jù)集中表達(dá)的非同源基因極大地促進(jìn)了變異蛔糯,并可促使細(xì)胞在跨物種間與自己的物種而不是同一細(xì)胞類型聚在一起拯腮。然而,通過排除沒有一對一匹配或一對多匹配的基因蚁飒,物種特異性信息可能會(huì)丟失动壤。事實(shí)上,已知的clade-specific genes可以促進(jìn)物種特異性細(xì)胞類型的多樣化淮逻,在基因復(fù)制后的一個(gè)基因拷貝的表達(dá)模式中琼懊,亞功能化或新功能化是常見的。

對于親緣關(guān)系很近的物種爬早,如人類和老鼠哼丈,基因symbols 可以很容易地進(jìn)行匹配來識(shí)別標(biāo)準(zhǔn)。對于親緣關(guān)系較遠(yuǎn)的生物體筛严,可以使用ENSEMBL等數(shù)據(jù)庫來識(shí)別一對一的匹配醉旦。這對于親緣關(guān)系很近的物種來說很有效,但是隨著物種間進(jìn)化時(shí)間的增加桨啃,以及基因之間的關(guān)系變得不那么清晰车胡,這就變得更加困難了。在系統(tǒng)基因組學(xué)領(lǐng)域照瘾,同源性鑒定已經(jīng)得到了廣泛的應(yīng)用匈棘,用于鑒定物種之間的關(guān)系,并對基因組進(jìn)行功能注釋析命。目前存在許多正射影像檢測技術(shù)主卫,其中大多數(shù)是基于序列相似性和reciprocal BLAST 等方法逃默。為了避免依賴一對一的同源性來理解基因功能,在聚類算法中加入基因標(biāo)準(zhǔn)或序列相似性的度量將是很重要的队秩。上述的一些整合方法可能已經(jīng)解釋了基因表達(dá)的相關(guān)進(jìn)化差異(LIGER, Seurat)笑旺。另外昼浦,在聚類分析中去除相關(guān)性最強(qiáng)的基因也是一種謹(jǐn)慎的方法馍资。

展望

構(gòu)建細(xì)胞系統(tǒng)發(fā)育學(xué)還應(yīng)努力正確識(shí)別物種內(nèi)部和物種之間轉(zhuǎn)錄相似的細(xì)胞類型之間的進(jìn)化關(guān)系。相似性可能來自于共同的祖先(同源性)关噪,也可能來自于趨同于相同的細(xì)胞特征(同質(zhì)性)鸟蟹。同源細(xì)胞模塊和基因調(diào)控網(wǎng)絡(luò)的重復(fù)使用、再利用或協(xié)同選擇被認(rèn)為是細(xì)胞類型趨同的基礎(chǔ)使兔。這種深層同源性不僅導(dǎo)致相似的細(xì)胞功能建钥,而且可能導(dǎo)致高度相似的細(xì)胞轉(zhuǎn)錄組。因此虐沥,用單細(xì)胞測序從同源性中分離同型可能是困難的熊经。沿著更大的系統(tǒng)發(fā)育帶對許多組織進(jìn)行取樣是必要的,以確定特定的細(xì)胞類型在進(jìn)化史上何時(shí)何地出現(xiàn)欲险。從這些實(shí)驗(yàn)中可以得到簡潔的解釋镐依,為同源性或同質(zhì)性提供證據(jù),并確定特定細(xì)胞身份的進(jìn)化史天试。

最后槐壳,在比較物種間在細(xì)胞類型和基因表達(dá)模式方面的差異時(shí),有必要結(jié)合系統(tǒng)發(fā)育比較方法喜每。由于這些物種的進(jìn)化史务唐,生物特征在不同物種間表現(xiàn)出依賴性——親緣關(guān)系更近的物種有更多相似的特征,這也適用于細(xì)胞類型識(shí)別和基因表達(dá)模式带兜。系統(tǒng)發(fā)育比較法考慮了進(jìn)化歷史枫笛,沿著進(jìn)化樹建模性狀變化,并在統(tǒng)計(jì)比較中明確考慮了它們的相關(guān)性刚照。這些已經(jīng)成功地應(yīng)用于大量的轉(zhuǎn)錄組學(xué)數(shù)據(jù)崇堰,并且應(yīng)該擴(kuò)展到單細(xì)胞轉(zhuǎn)錄組學(xué),在單細(xì)胞轉(zhuǎn)錄組學(xué)中涩咖,特征的獨(dú)立性通常是假定的海诲。

結(jié)論

許多單細(xì)胞測序的技術(shù)、工具和技術(shù)已經(jīng)可以用于物種間的比較檩互。然而特幔,在轉(zhuǎn)錄組學(xué)和進(jìn)化細(xì)胞生物學(xué)領(lǐng)域,基于進(jìn)化知識(shí)的現(xiàn)有方法的改進(jìn)和完善應(yīng)該被視為優(yōu)先考慮的問題闸昨。了解細(xì)胞的進(jìn)化史和細(xì)胞之間的關(guān)系將有助于理解細(xì)胞類型的定義蚯斯,以及控制細(xì)胞類型的分子機(jī)制薄风。利用這個(gè)進(jìn)化框架,研究發(fā)育階段拍嵌、細(xì)胞狀態(tài)和cel之間的連續(xù)性遭赂。對細(xì)胞類型及其進(jìn)化起源的整體鑒定需要多種證據(jù)的結(jié)合,不僅包括分子鑒定横辆,還包括功能鑒定和發(fā)育譜系信息撇他。近年來已發(fā)展出利用CRISPR條形碼重建發(fā)育譜系軌跡的方法。將譜系信息整合進(jìn)進(jìn)化比較將是一項(xiàng)困難但重要的任務(wù)狈蚤。對進(jìn)化和細(xì)胞類型的全面理解將使我們能夠建立細(xì)胞類型系統(tǒng)發(fā)育學(xué)困肩,并利用它們來提出關(guān)于細(xì)胞變化如何影響機(jī)體適應(yīng)和選擇以及進(jìn)化如何作用于細(xì)胞生物的重要問題。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末脆侮,一起剝皮案震驚了整個(gè)濱河市锌畸,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌靖避,老刑警劉巖潭枣,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異幻捏,居然都是意外死亡盆犁,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門粘咖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蚣抗,“玉大人,你說我怎么就攤上這事瓮下『舱。” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵讽坏,是天一觀的道長锭魔。 經(jīng)常有香客問我,道長路呜,這世上最難降的妖魔是什么迷捧? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮胀葱,結(jié)果婚禮上漠秋,老公的妹妹穿的比我還像新娘。我一直安慰自己抵屿,他們只是感情好庆锦,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著轧葛,像睡著了一般搂抒。 火紅的嫁衣襯著肌膚如雪艇搀。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天求晶,我揣著相機(jī)與錄音焰雕,去河邊找鬼。 笑死芳杏,一個(gè)胖子當(dāng)著我的面吹牛矩屁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蚜锨,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼档插,長吁一口氣:“原來是場噩夢啊……” “哼慢蜓!你這毒婦竟也來了亚再?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤晨抡,失蹤者是張志新(化名)和其女友劉穎氛悬,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體耘柱,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡如捅,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了调煎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片镜遣。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖士袄,靈堂內(nèi)的尸體忽然破棺而出悲关,到底是詐尸還是另有隱情,我是刑警寧澤娄柳,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布寓辱,位于F島的核電站,受9級(jí)特大地震影響赤拒,放射性物質(zhì)發(fā)生泄漏秫筏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一挎挖、第九天 我趴在偏房一處隱蔽的房頂上張望这敬。 院中可真熱鬧,春花似錦蕉朵、人聲如沸崔涂。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽堪伍。三九已至锚烦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間帝雇,已是汗流浹背涮俄。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留尸闸,地道東北人彻亲。 一個(gè)月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像吮廉,于是被迫代替她去往敵國和親苞尝。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容