TY - JOUR
AU - Shafer, Maxwell E. R.
M3 - 10.3389/fcell.2019.00175
TI - Cross-Species Analysis of Single-Cell Transcriptomic Data
JO - Frontiers in Cell and Developmental Biology
UR - https://www.frontiersin.org/article/10.3389/fcell.2019.00175
隨著單細(xì)胞轉(zhuǎn)錄組測序技術(shù)的發(fā)展辣卒,越來越多的物種細(xì)胞圖譜得以揭曉。這些數(shù)據(jù)集允許我們提出關(guān)于細(xì)胞多樣性起源的問題滥嘴,以及形成細(xì)胞形態(tài)和功能的進(jìn)化機(jī)制撬呢。這些實(shí)驗(yàn)的最終目標(biāo)是產(chǎn)生細(xì)胞類型系統(tǒng)發(fā)育譜系,描述細(xì)胞類型之間的進(jìn)化關(guān)系卖漫。然而,從不同來源、不同模型和非模型生物獲得的相關(guān)信息被許多技術(shù)和生物因素所混淆杭抠,使得單細(xì)胞數(shù)據(jù)的比較變得困難。
利用scrna測序分析數(shù)十萬到數(shù)百萬個(gè)單細(xì)胞的能力已經(jīng)徹底改變了細(xì)胞和發(fā)育生物學(xué)領(lǐng)域恳啥,為許多物種的細(xì)胞類型的形式和功能的多樣性提供了令人難以置信的見解偏灿。這些技術(shù)有望發(fā)展出詳細(xì)的細(xì)胞類型譜系,從而描述跨物種細(xì)胞類型間的進(jìn)化和發(fā)育關(guān)系钝的。這將需要使用單細(xì)胞轉(zhuǎn)錄組學(xué)對許多物種和單細(xì)胞進(jìn)行采樣翁垂,并對細(xì)胞類型同質(zhì)性和多樣性進(jìn)行分類铆遭。目前有許多工具用于分析單細(xì)胞數(shù)據(jù)和識(shí)別細(xì)胞類型。然而沿猜,跨物種比較由于許多生物學(xué)和技術(shù)因素而變得復(fù)雜枚荣。
這些因素包括深度測序方法引起的批量效應(yīng),同源基因和副合基因(orthologous and paralogous genes)之間的進(jìn)化關(guān)系啼肩,以及物種間轉(zhuǎn)錄組變異形成的進(jìn)化力量橄妆。在這篇綜述中,將討論在計(jì)算方法方面的最新進(jìn)展祈坠,以比較跨物種的單細(xì)胞基因組數(shù)據(jù)害碾。這些方法有潛力提供寶貴的見解,了解進(jìn)化力量如何在細(xì)胞水平上發(fā)揮作用赦拘,并將進(jìn)一步了解動(dòng)物和細(xì)胞多樣性的進(jìn)化起源慌随。
單細(xì)胞測序和單細(xì)胞聚類方法
盡管對于這些轉(zhuǎn)錄差異是否是細(xì)胞類型或多樣性的可靠指標(biāo)存在爭議,但單細(xì)胞測序技術(shù)仍然非常強(qiáng)大躺同,有潛力用于了解跨物種的細(xì)胞類型之間的進(jìn)化關(guān)系儒陨。事實(shí)上,這些技術(shù)最近已被用于比較小鼠和人類的胚胎大腦發(fā)育笋籽,以及爬行動(dòng)物神經(jīng)細(xì)胞類型的進(jìn)化蹦漠。
計(jì)算基因特異性的公式以及龜蜥蜴細(xì)胞類型(彩色圓點(diǎn))之間這些值的實(shí)例相關(guān)性,其中紅色的Pearson相關(guān)系數(shù)值表示正相關(guān)车海,藍(lán)色表示負(fù)相關(guān)笛园。
識(shí)別跨物種細(xì)胞類型注釋的隨機(jī)森林機(jī)器學(xué)習(xí)算法包括:首先對來自一個(gè)物種的細(xì)胞類型訓(xùn)練一個(gè)算法(步驟1),然后預(yù)測來自不同物種的每個(gè)細(xì)胞在這些細(xì)胞類型中最相似的是哪個(gè)(步驟2)侍芝,結(jié)果是一個(gè)混淆矩陣(confusion matrix)研铆。動(dòng)物圖標(biāo)是從PhyloPic獲得的(www.phylopic.org)。
統(tǒng)計(jì)實(shí)驗(yàn)和生物批處理效應(yīng)
通過比較和對照單細(xì)胞數(shù)據(jù)集州叠,可以觀察生物現(xiàn)象的重現(xiàn)性棵红,或者通過將多個(gè)數(shù)據(jù)集合并到更大的細(xì)胞類型圖譜中來識(shí)別額外的細(xì)胞類型。對特定組織內(nèi)的細(xì)胞類型進(jìn)行跨物種比較咧栗,將有助于在模型和非模型系統(tǒng)之間轉(zhuǎn)換知識(shí)逆甜,并可能提示細(xì)胞類型之間的進(jìn)化關(guān)系,從而生成細(xì)胞類型的系統(tǒng)發(fā)育譜系致板。然而交煞,技術(shù)批量效應(yīng)可以在每個(gè)實(shí)驗(yàn)步驟中引入,從細(xì)胞分離過程斟或、分離和條形碼素征、測序和分析。除了物種的起源,由遺傳背景御毅、年齡和性別差異引起的生物批次效應(yīng)也需要考慮根欧。有幾個(gè)小組已經(jīng)生成了計(jì)算工具來處理單細(xì)胞數(shù)據(jù)特有的批處理效果。這些方法從批量rna測序?qū)嶒?yàn)的比較中吸取了教訓(xùn)端蛆,但經(jīng)過改進(jìn)咽块,能夠解決單細(xì)胞數(shù)據(jù)的高度異質(zhì)性。
比較不同物種的細(xì)胞類型
物種單細(xì)胞數(shù)據(jù)集既可以單獨(dú)分析和注釋欺税,也可以組合分析/注釋侈沪。單獨(dú)的分析需要對細(xì)胞類型進(jìn)行交叉注釋(通常是手工注釋),但保留數(shù)據(jù)集內(nèi)部的異構(gòu)性晚凿。聯(lián)合分析增加了用于聚類的細(xì)胞數(shù)量亭罪,從而可以識(shí)別額外的異質(zhì)性和罕見的細(xì)胞種群。然而歼秽,它更復(fù)雜应役,計(jì)算量更大,可能會(huì)模糊物種特有的細(xì)胞類型燥筷。聯(lián)合分析“批量校正(batch-correct)”的潛在基因表達(dá)數(shù)據(jù)箩祥,使每個(gè)物種細(xì)胞內(nèi)的基因表達(dá)水平彼此相似。
跨物種整合單細(xì)胞RNA-seq數(shù)據(jù)集的方法中肆氓,細(xì)胞通常根據(jù)數(shù)據(jù)集或物種而不是細(xì)胞類型聚集在一起袍祖。為了集成下游分析的數(shù)據(jù)集,可以使用批量校正算法谢揪。
數(shù)據(jù)集集成可以通過使用相互最近鄰居(MNN)之間的差異蕉陋、典型相關(guān)分析(CCA)或兩者的組合來識(shí)別批量校正向量來完成。
綜合非負(fù)矩陣因子分解(iNMF)可以將細(xì)胞×基因表達(dá)矩陣分解成單獨(dú)的因子矩陣拨扶,這些因子矩陣可以代表影響基因表達(dá)模式的物種特異性因子凳鬓。然后,這些因素可以被移除患民,以允許細(xì)胞類型聚類缩举,同時(shí)保留關(guān)于哪些基因有助于物種特異性差異的信息。
在主元空間中匹颤,基于細(xì)胞型中心體仅孩,Harmony迭代計(jì)算批量校正向量。
跨物種的基因間的標(biāo)準(zhǔn)分配(物種形成節(jié)點(diǎn)后的藍(lán)線和紅線)由于基因復(fù)制事件(復(fù)制節(jié)點(diǎn))而變得復(fù)雜惋嚎。此外杠氢,在跨物種分配標(biāo)準(zhǔn)品和基因功能時(shí)站刑,應(yīng)考慮基因表達(dá)的次功能化(粉紅色虛線框)或新功能化(綠色虛線框)(標(biāo)準(zhǔn)品檢測)另伍。
單細(xì)胞數(shù)據(jù)集的整合
最大的困難在于批次效應(yīng)。數(shù)據(jù)集的計(jì)算集成允許統(tǒng)一的下游分析,但是摆尝,在刪除物種特定的批處理效果時(shí)必須考慮幾個(gè)因素温艇。大多數(shù)批量校正方法都是基于線性回歸的,它先擬合一個(gè)描述批量效應(yīng)的線性模型堕汞,然后在不考慮批量效應(yīng)的情況下推導(dǎo)出一個(gè)新的表達(dá)矩陣勺爱。這種方法對于單細(xì)胞RNA-seq數(shù)據(jù)是有問題的,因?yàn)樗僭O(shè)每個(gè)數(shù)據(jù)集中的細(xì)胞類型是相同的讯检,并且所有細(xì)胞類型的批處理效果是一致的琐鲁。單細(xì)胞RNA-seq整合方法必須能夠描述物種之間共享的和細(xì)胞類型的具體差異,并解釋取樣方法(觀察到的細(xì)胞/基因數(shù)量人灼,或物種之間解離協(xié)議的差異)造成的差異围段。一般來說,這些技術(shù)的目的是將兩個(gè)物種的細(xì)胞嵌入到一個(gè)共享的低維空間中投放,在這個(gè)空間中可以比較亞群和細(xì)胞奈泪。
發(fā)表的第一個(gè)此類集成方法mnnCorrect/fastMNN,在高維基因表達(dá)空間中識(shí)別相互近鄰(MNNs)灸芳,以識(shí)別細(xì)胞類型特定的批處理糾正載體涝桅。
Seurat也包含了用于數(shù)據(jù)集集成的幾種方法。最初的Seurat比對過程涉及使用典型相關(guān)分析(CCA)在數(shù)據(jù)集或物種之間識(shí)別共享的相關(guān)結(jié)構(gòu)烙样。CCA識(shí)別出與表達(dá)差異相關(guān)的基因群冯遂。這些差異然后被用來批量糾正每組基因的不同使用非線性動(dòng)態(tài)翻轉(zhuǎn)(non-linear dynamic warping),生成一個(gè)共享的低維空間谒获。在Seurat v3.0中债蜜,作者結(jié)合了MNNs來幫助數(shù)據(jù)集集成。在CCA和動(dòng)態(tài)翻轉(zhuǎn)之后究反,mnn在數(shù)據(jù)集之間被識(shí)別寻定,并被用作“錨”來計(jì)算進(jìn)一步的校正向量,此方法類似于mnnCorrect/fastMNN精耐。
這些方法的一個(gè)大問題是在整合過程中過度擬合狼速,導(dǎo)致細(xì)胞類型的合并,或模糊數(shù)據(jù)集特異性基因表達(dá)差異卦停。Seurat和mnnCorrect/fastMNN都使用MNNs向胡,當(dāng)單元類型只出現(xiàn)在數(shù)據(jù)集的一個(gè)子集時(shí),可以減少這種影響惊完,因?yàn)樗鼈冊谌魏纹渌麛?shù)據(jù)集中都沒有相互最近的鄰居僵芹。Scanorama的全景拼接算法(panoramic stitching algorithms)使用了一種更通用的MNN技術(shù),旨在進(jìn)一步減少數(shù)據(jù)集之間的過擬合量小槐,使用的過程類似于從單個(gè)圖像創(chuàng)建全景拇派。
第三種方法荷辕,LIGER,使用整合非負(fù)矩陣分解(iNMF)來學(xué)習(xí)數(shù)據(jù)集之間共享的和唯一的基因表達(dá)特征件豌。iNMF將一個(gè)矩陣(如細(xì)胞通過基因表達(dá)矩陣)分解為多個(gè)基向量(細(xì)胞通過因子矩陣)和系數(shù)向量(因子通過基因矩陣)的矩陣疮方。因子代表了基因協(xié)同調(diào)控的模式,通常與代表特定細(xì)胞類型的基因組相對應(yīng)茧彤。對于每個(gè)數(shù)據(jù)集骡显,LIGER還推斷出與物種特有信號(hào)相對應(yīng)的獨(dú)立因素。
Harmony將來自不同數(shù)據(jù)集的類似細(xì)胞類型向低維PCA空間中的共享形心方向修正曾掂,迭代運(yùn)行惫谤,直到數(shù)據(jù)集收斂。
conos使用統(tǒng)一的圖形表示來跨廣泛的數(shù)據(jù)集集合映射單元類型珠洗。數(shù)據(jù)集之間的虛假連接被最小化——只有跨多個(gè)數(shù)據(jù)集相互映射的細(xì)胞被用來識(shí)別公共的子群石挂。
盡管上述方法為跨物種比較單細(xì)胞數(shù)據(jù)提供了令人興奮的可能性,但在實(shí)現(xiàn)過程中仍存在許多問題险污。目前所有的方法都要求在分析時(shí)只使用物種間的同源基因痹愚。這些基因用于特征選擇和主成分分析。僅在一個(gè)數(shù)據(jù)集中表達(dá)的非同源基因極大地促進(jìn)了變異蛔糯,并可促使細(xì)胞在跨物種間與自己的物種而不是同一細(xì)胞類型聚在一起拯腮。然而,通過排除沒有一對一匹配或一對多匹配的基因蚁飒,物種特異性信息可能會(huì)丟失动壤。事實(shí)上,已知的clade-specific genes可以促進(jìn)物種特異性細(xì)胞類型的多樣化淮逻,在基因復(fù)制后的一個(gè)基因拷貝的表達(dá)模式中琼懊,亞功能化或新功能化是常見的。
對于親緣關(guān)系很近的物種爬早,如人類和老鼠哼丈,基因symbols 可以很容易地進(jìn)行匹配來識(shí)別標(biāo)準(zhǔn)。對于親緣關(guān)系較遠(yuǎn)的生物體筛严,可以使用ENSEMBL等數(shù)據(jù)庫來識(shí)別一對一的匹配醉旦。這對于親緣關(guān)系很近的物種來說很有效,但是隨著物種間進(jìn)化時(shí)間的增加桨啃,以及基因之間的關(guān)系變得不那么清晰车胡,這就變得更加困難了。在系統(tǒng)基因組學(xué)領(lǐng)域照瘾,同源性鑒定已經(jīng)得到了廣泛的應(yīng)用匈棘,用于鑒定物種之間的關(guān)系,并對基因組進(jìn)行功能注釋析命。目前存在許多正射影像檢測技術(shù)主卫,其中大多數(shù)是基于序列相似性和reciprocal BLAST 等方法逃默。為了避免依賴一對一的同源性來理解基因功能,在聚類算法中加入基因標(biāo)準(zhǔn)或序列相似性的度量將是很重要的队秩。上述的一些整合方法可能已經(jīng)解釋了基因表達(dá)的相關(guān)進(jìn)化差異(LIGER, Seurat)笑旺。另外昼浦,在聚類分析中去除相關(guān)性最強(qiáng)的基因也是一種謹(jǐn)慎的方法馍资。
展望
構(gòu)建細(xì)胞系統(tǒng)發(fā)育學(xué)還應(yīng)努力正確識(shí)別物種內(nèi)部和物種之間轉(zhuǎn)錄相似的細(xì)胞類型之間的進(jìn)化關(guān)系。相似性可能來自于共同的祖先(同源性)关噪,也可能來自于趨同于相同的細(xì)胞特征(同質(zhì)性)鸟蟹。同源細(xì)胞模塊和基因調(diào)控網(wǎng)絡(luò)的重復(fù)使用、再利用或協(xié)同選擇被認(rèn)為是細(xì)胞類型趨同的基礎(chǔ)使兔。這種深層同源性不僅導(dǎo)致相似的細(xì)胞功能建钥,而且可能導(dǎo)致高度相似的細(xì)胞轉(zhuǎn)錄組。因此虐沥,用單細(xì)胞測序從同源性中分離同型可能是困難的熊经。沿著更大的系統(tǒng)發(fā)育帶對許多組織進(jìn)行取樣是必要的,以確定特定的細(xì)胞類型在進(jìn)化史上何時(shí)何地出現(xiàn)欲险。從這些實(shí)驗(yàn)中可以得到簡潔的解釋镐依,為同源性或同質(zhì)性提供證據(jù),并確定特定細(xì)胞身份的進(jìn)化史天试。
最后槐壳,在比較物種間在細(xì)胞類型和基因表達(dá)模式方面的差異時(shí),有必要結(jié)合系統(tǒng)發(fā)育比較方法喜每。由于這些物種的進(jìn)化史务唐,生物特征在不同物種間表現(xiàn)出依賴性——親緣關(guān)系更近的物種有更多相似的特征,這也適用于細(xì)胞類型識(shí)別和基因表達(dá)模式带兜。系統(tǒng)發(fā)育比較法考慮了進(jìn)化歷史枫笛,沿著進(jìn)化樹建模性狀變化,并在統(tǒng)計(jì)比較中明確考慮了它們的相關(guān)性刚照。這些已經(jīng)成功地應(yīng)用于大量的轉(zhuǎn)錄組學(xué)數(shù)據(jù)崇堰,并且應(yīng)該擴(kuò)展到單細(xì)胞轉(zhuǎn)錄組學(xué),在單細(xì)胞轉(zhuǎn)錄組學(xué)中涩咖,特征的獨(dú)立性通常是假定的海诲。
結(jié)論
許多單細(xì)胞測序的技術(shù)、工具和技術(shù)已經(jīng)可以用于物種間的比較檩互。然而特幔,在轉(zhuǎn)錄組學(xué)和進(jìn)化細(xì)胞生物學(xué)領(lǐng)域,基于進(jìn)化知識(shí)的現(xiàn)有方法的改進(jìn)和完善應(yīng)該被視為優(yōu)先考慮的問題闸昨。了解細(xì)胞的進(jìn)化史和細(xì)胞之間的關(guān)系將有助于理解細(xì)胞類型的定義蚯斯,以及控制細(xì)胞類型的分子機(jī)制薄风。利用這個(gè)進(jìn)化框架,研究發(fā)育階段拍嵌、細(xì)胞狀態(tài)和cel之間的連續(xù)性遭赂。對細(xì)胞類型及其進(jìn)化起源的整體鑒定需要多種證據(jù)的結(jié)合,不僅包括分子鑒定横辆,還包括功能鑒定和發(fā)育譜系信息撇他。近年來已發(fā)展出利用CRISPR條形碼重建發(fā)育譜系軌跡的方法。將譜系信息整合進(jìn)進(jìn)化比較將是一項(xiàng)困難但重要的任務(wù)狈蚤。對進(jìn)化和細(xì)胞類型的全面理解將使我們能夠建立細(xì)胞類型系統(tǒng)發(fā)育學(xué)困肩,并利用它們來提出關(guān)于細(xì)胞變化如何影響機(jī)體適應(yīng)和選擇以及進(jìn)化如何作用于細(xì)胞生物的重要問題。