前情回顧:
單細(xì)胞時代 || 細(xì)胞身份概念的演變
單細(xì)胞時代 || 從眾病之王到希望之光
單細(xì)胞時代 || 宿主-微生物組相互作用
Network modeling of single-cell omics data: challenges, opportunities, and progresses
這不是最好的時代卤恳,也不是最壞的時代奉瘤,這里是單細(xì)胞時代亲族。靈活的單細(xì)胞系統(tǒng)种呐,高效的組織解離液狠半,開源的數(shù)據(jù)分析工具噩死,端到端的單細(xì)胞解決方案是未來發(fā)展的趨勢颤难。這里最主要的是開放靈活的單細(xì)胞系統(tǒng),有了這個系統(tǒng)我們就可以自主地設(shè)計反應(yīng)體系已维,來從不同緯度捕獲單個細(xì)胞的信息行嗤。
單細(xì)胞多組學(xué)技術(shù)正在以前所未有的速度促進(jìn)方法的進(jìn)步和生物學(xué)發(fā)現(xiàn)《舛基因調(diào)控網(wǎng)絡(luò)建模已被用于闡明生物過程和背后的復(fù)雜分子相互作用栅屏,但在單細(xì)胞組學(xué)數(shù)據(jù)建模中的應(yīng)用遇到了獨(dú)特的挑戰(zhàn)和機(jī)遇。在這篇綜述中堂鲜,我們討論了這些挑戰(zhàn)和機(jī)遇栈雳,并提供了網(wǎng)絡(luò)建模方法的最新發(fā)展概況,這些方法設(shè)計用于描述
- 動態(tài)網(wǎng)絡(luò)
- 細(xì)胞內(nèi)網(wǎng)絡(luò)
- 細(xì)胞間交互或通信網(wǎng)絡(luò)
在數(shù)據(jù)科學(xué)中缔莲,我們主要目標(biāo)是元素的對象和屬性及其之間的關(guān)系哥纫。在單細(xì)胞數(shù)據(jù)科學(xué)中,上游是在描述元素痴奏,如細(xì)胞的特性或基因的表達(dá)量蛀骇,下游往往是描述細(xì)胞之間或基因之間的關(guān)系。網(wǎng)絡(luò)是解析關(guān)系的有利工具读拆。
網(wǎng)絡(luò)建模長期以來被用作理解和解釋復(fù)雜生物系統(tǒng)的強(qiáng)大工具擅憔,網(wǎng)絡(luò)本身既是計算框架又是主要的數(shù)據(jù)類型。生物系統(tǒng)網(wǎng)絡(luò)描述為節(jié)點(diǎn)和邊,節(jié)點(diǎn)代表生物實(shí)體如基因檐晕、蛋白質(zhì)暑诸、代謝物,表型特征,細(xì)胞棉姐,環(huán)境暴露屠列,甚至腸道細(xì)菌啦逆;邊代表如regulator-effector連接節(jié)點(diǎn)之間的關(guān)系伞矩,統(tǒng)計相關(guān)性,物理結(jié)合,酶或代謝反應(yīng)(圖1)。
隨著生物數(shù)據(jù)的數(shù)量和類型持續(xù)以指數(shù)速度增長夏志,生物網(wǎng)絡(luò)的數(shù)量和類型也在增長乃坤,包括蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)沟蔑、遺傳相互作用網(wǎng)絡(luò)湿诊、基因/轉(zhuǎn)錄調(diào)節(jié)網(wǎng)絡(luò)(GRNs)、細(xì)胞信號網(wǎng)絡(luò)瘦材。雖然不同的網(wǎng)絡(luò)模型根據(jù)其基本假設(shè)具有固有的優(yōu)勢和局限性厅须,但它們都具有圖形化模型的共同特征,即描述生物系統(tǒng)中的信息流食棕,以幫助理解和解釋基本的生物過程朗和。
在過去的幾十年里错沽,網(wǎng)絡(luò)建模被廣泛應(yīng)用于幫助理解關(guān)鍵的生物過程和健康和疾病的調(diào)節(jié)。特別是眶拉,人類生理和病理生理學(xué)的巨大復(fù)雜性要求在系統(tǒng)水平上理解生物分子如何在單個細(xì)胞和組織內(nèi)相互作用千埃,細(xì)胞和組織之間如何相互作用以維持體內(nèi)平衡,以及這些相互作用的干擾如何導(dǎo)致疾病忆植。omnigenic disease模型指出放可,網(wǎng)絡(luò)中所有基因的相互作用都可能導(dǎo)致復(fù)雜疾病,該模型正日益被人們所認(rèn)可和接受朝刊。這些概念框架完全符合網(wǎng)絡(luò)生物學(xué)耀里,因此,在生物學(xué)的所有領(lǐng)域中坞古,網(wǎng)絡(luò)建模方法的使用越來越多也就不足為奇了备韧。
例如,許多遺傳變異可以影響疾病痪枫,每一種變異都通過很小的影響使生物學(xué)解釋變得困難织堂。這些復(fù)雜的遺傳效應(yīng)可以通過它們在轉(zhuǎn)錄、信號網(wǎng)絡(luò)和生物途徑中的關(guān)系來更好地理解奶陈。我們的團(tuán)隊(duì)和其他人已經(jīng)利用網(wǎng)絡(luò)模型來解釋復(fù)雜疾病的遺傳原因易阳。類似地,網(wǎng)絡(luò)可以用來了解與各種環(huán)境引起的疾病有關(guān)的分子級聯(lián)吃粒。例如潦俺,Chella Krishnan等人通過整合組織特異性GRNs的遺傳關(guān)聯(lián),發(fā)現(xiàn)與非酒精性脂肪肝相關(guān)的大量遺傳變異影響多種生物途徑徐勃,包括脂質(zhì)代謝事示、免疫系統(tǒng)、細(xì)胞周期僻肖、轉(zhuǎn)錄調(diào)節(jié)肖爵、胰島素信號、Notch信號和氧化磷酸化臀脏,這些途徑在肝臟和脂肪組織的GRNs中相互作用劝堪。
基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),他們確定了疾病通路和亞網(wǎng)絡(luò)中心參與線粒體功能的關(guān)鍵調(diào)節(jié)因子揉稚。在另一項(xiàng)研究中秒啦,利用組織特異性GRNs對心血管疾病和2型糖尿病的遺傳風(fēng)險進(jìn)行網(wǎng)絡(luò)建模,揭示了共享的和疾病特異性的網(wǎng)絡(luò)和調(diào)節(jié)因子搀玖。格林等建造144組織特異性網(wǎng)絡(luò)和使用這些網(wǎng)絡(luò)來預(yù)測和理解lineage-specific IL1B刺激的反應(yīng)余境。
雖然基于網(wǎng)絡(luò)的方法促進(jìn)了我們對復(fù)雜疾病的理解,但需要注意的是,大多數(shù)網(wǎng)絡(luò)方法和應(yīng)用主要依賴于從bulk組織中獲得的組學(xué)數(shù)據(jù)芳来。在組織水平上暴氏,已經(jīng)開發(fā)了許多用于網(wǎng)絡(luò)建模的方法和算法,主要關(guān)注于預(yù)測組織內(nèi)和組織間的GRNs绣张,并具有合理的準(zhǔn)確性答渔。然而,肝臟的非實(shí)質(zhì)細(xì)胞等組織是由包括庫普弗細(xì)胞侥涵、竇狀內(nèi)皮細(xì)胞和肝細(xì)胞衛(wèi)星細(xì)胞在內(nèi)的異質(zhì)細(xì)胞群組成的沼撕,它們都具有與獨(dú)特的基因調(diào)控譜相關(guān)的獨(dú)特功能∥咂考慮到組織的異質(zhì)性抖棘,組織網(wǎng)絡(luò)主要代表了所有細(xì)胞群的平均活動驻售,這些細(xì)胞群可以由最豐富的細(xì)胞類型所控制皮壁。因此凯楔,組織網(wǎng)絡(luò)無法捕捉單個細(xì)胞群的獨(dú)特行為,以及細(xì)胞如何相互作用來執(zhí)行更高層次的組織功能娶牌。
最近的高通量單細(xì)胞組學(xué)技術(shù)的爆炸帶來了令人興奮的可能性奔浅,包括但不限于動力模型,內(nèi)部和細(xì)胞間的基因網(wǎng)絡(luò)诗良,以闡明背后的過程汹桦,細(xì)胞發(fā)育,功能狀態(tài)和細(xì)胞-細(xì)胞通訊鉴裹,而這些不可能在bulk水平獲得舞骆。這些單細(xì)胞組學(xué)技術(shù)給了我們前所未有的能力以檢查轉(zhuǎn)錄,蛋白質(zhì)和表觀基因組的概況在單細(xì)胞解決径荔,在調(diào)節(jié)和功能關(guān)系的生物分子在單個細(xì)胞或細(xì)胞類型以及細(xì)胞群之間督禽。在理論上,類似的框架和方法已經(jīng)被用于組織網(wǎng)絡(luò)建模总处,可以擴(kuò)展到單細(xì)胞數(shù)據(jù)狈惫,以揭示調(diào)控細(xì)胞內(nèi)部和細(xì)胞之間的功能的調(diào)節(jié)機(jī)制。然而辨泳,正如Chen和Mar在他們最近的研究中所指出的虱岂,bulk組織模型可能不太適合克服單細(xì)胞數(shù)據(jù)帶來的獨(dú)特挑戰(zhàn)玖院。
在此菠红,我們將討論為bulk組織組學(xué)數(shù)據(jù)開發(fā)的現(xiàn)有網(wǎng)絡(luò)建模方法,使用單細(xì)胞組學(xué)數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)建模所面臨的獨(dú)特挑戰(zhàn)难菌,利用單細(xì)胞數(shù)據(jù)建立網(wǎng)絡(luò)模型的方法的最新發(fā)展及其關(guān)鍵的底層算法優(yōu)缺點(diǎn)试溯。最后,我們討論了有待克服的問題以及我們認(rèn)為該領(lǐng)域?qū)⒃谀男┓矫鎸?shí)現(xiàn)基于單細(xì)胞組學(xué)數(shù)據(jù)的更高效郊酒、更準(zhǔn)確的基因調(diào)控網(wǎng)絡(luò)建模遇绞。
bulk組織數(shù)據(jù)GRN建模方法
針對bulk組織數(shù)據(jù)開發(fā)和優(yōu)化的常見GRN方法通臣ぃ基于相關(guān)、回歸摹闽、常微分方程(ode)蹄咖、互信息、高斯圖形模型和貝葉斯方法付鹿。例如:
- 基于相關(guān)關(guān)系的加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA)是最常用的方法澜汤。WGCNA用于發(fā)現(xiàn)高度相關(guān)的基因簇(或模塊),這些基因通常代表參與類似生物途徑或功能的受到嚴(yán)格調(diào)控的基因舵匾。雖然基于共表達(dá)的方法計算效率高俊抵,且較少依賴于假設(shè),但這些方法主要對功能相似或調(diào)控相似的基因進(jìn)行分組坐梯,但不能推斷出方向性或直接的調(diào)控關(guān)系徽诲,需要整合其他信息以促進(jìn)可解釋性。
- 基于回歸的方法吵血,如GENIE3谎替,通過基于回歸模型確定每個網(wǎng)絡(luò)基因的最具預(yù)測性的基因子集來解析網(wǎng)絡(luò)。這些方法適用于線性級聯(lián)蹋辅,但不適用于前饋回路院喜。
- 對于基于相互信息的方法,如ARACNE和CLR晕翠,網(wǎng)絡(luò)結(jié)構(gòu)是由基因?qū)χg的依賴程度決定的喷舀。這些相互信息的網(wǎng)絡(luò)方法可以推斷方向性和潛在的因果關(guān)系,可以更準(zhǔn)確地預(yù)測前饋回路淋肾,但線性級聯(lián)的性能有限硫麻。
- 貝葉斯網(wǎng)絡(luò)(BN)建模方法提供了靈活的框架來合并和整合多組數(shù)據(jù)作為先驗(yàn)信息,以推斷因果性和方向性基因-基因相互作用樊卓。BN編碼基因之間的條件依賴性拿愧,其中每個基因由其父節(jié)點(diǎn)的值決定。為了提高精確度碌尔,BNs通過可能圖的多元空間進(jìn)行搜索浇辜,這樣做的代價是較高的計算成本,并且不能保證可以檢測到最優(yōu)拓?fù)洹?/li>
常用的GRN推理算法各有優(yōu)缺點(diǎn)唾戚,多方法的集成可以彌補(bǔ)每種方法固有的缺點(diǎn)柳洋,更好地解釋數(shù)據(jù)。需要注意的是叹坦,這些方法是針對bulk組織級數(shù)據(jù)進(jìn)行優(yōu)化的熊镣,這些數(shù)據(jù)通常符合標(biāo)準(zhǔn)數(shù)據(jù)分布,并且?guī)缀鯖]有缺失值。
單細(xì)胞技術(shù)和數(shù)據(jù)結(jié)構(gòu)
利用最近開發(fā)的單細(xì)胞技術(shù)绪囱,我們現(xiàn)在能夠檢測轉(zhuǎn)錄(DropSeq 测蹲, inDrop, 10X鬼吵,SmartSeq v4扣甲,Marsseq , Seq-Well 齿椅, SPLiT-seq 文捶, sci-RNA-seq),蛋白質(zhì)(CITE-seq)媒咳,以及表觀基因組如開放染色質(zhì)(scacc -seq)和甲基化景觀粹排。這些單細(xì)胞技術(shù)帶來了令人興奮的可能性,以前所未有的分辨率和規(guī)模探索生物學(xué)涩澡。單細(xì)胞RNA測序(scRNAseq)是目前最流行和廣泛應(yīng)用的高通量檢測單細(xì)胞的技術(shù)顽耳。通常,這些高通量單細(xì)胞轉(zhuǎn)錄組技術(shù)是基于從3 '端計數(shù)轉(zhuǎn)錄片段妙同,然后與參考基因組對齊射富。由此產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)集合了每個單細(xì)胞的基因計數(shù),稱為數(shù)字基因表達(dá)譜(digital gene expression 粥帚,DGE)胰耗。
對于其他數(shù)據(jù)類型,相似的細(xì)胞標(biāo)記(如蛋白質(zhì)芒涡,染色質(zhì)位置柴灯,和甲基化位點(diǎn))矩陣形成主要的數(shù)據(jù)結(jié)構(gòu)。雖然已經(jīng)將單細(xì)胞表觀基因組投射到單細(xì)胞轉(zhuǎn)錄組上费尽,但就我們所知赠群,整合多組數(shù)據(jù)用于GRN建模還沒有嘗試過,這是方法學(xué)未來發(fā)展的方向旱幼。多組數(shù)據(jù)可以以多種方式合并查描,包括構(gòu)建一個跨組學(xué)層外推的具有邊緣置信度的單一網(wǎng)絡(luò),以及從單個組學(xué)層構(gòu)建多個網(wǎng)絡(luò)柏卤,通過關(guān)聯(lián)關(guān)系或已知功能相關(guān)性在各層之間進(jìn)行交互冬三。例如,位于特定基因啟動子或增強(qiáng)子區(qū)域的開放染色質(zhì)將允許在scac -seq和scRNAseq層之間繪制有向邊缘缚;蛋白質(zhì)組數(shù)據(jù)可以幫助推斷蛋白質(zhì)之間的相互作用勾笆,并提供有關(guān)調(diào)控蛋白質(zhì)的信息,如轉(zhuǎn)錄因子(TFs)和調(diào)控轉(zhuǎn)錄組和表觀基因組的表觀基因組調(diào)控忙灼。在這篇綜述中匠襟,我們將重點(diǎn)關(guān)注scRNAseq數(shù)據(jù),因?yàn)樗鼈兪荊RN建模中研究的最豐富的單細(xì)胞數(shù)據(jù)類型该园。
現(xiàn)有GRN方法在單細(xì)胞網(wǎng)絡(luò)建模中的性能
最近酸舍,Chen和Mar在利用經(jīng)驗(yàn)和模擬單細(xì)胞數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)構(gòu)建時,評估了五種常用的用于bulk組織數(shù)據(jù)的廣義網(wǎng)絡(luò)重建方法的能力里初。在他們的分析中使用的方法包括部分相關(guān)啃勉、BN、GENIE3双妨、ARACNE和CLR淮阐。利用精確召回和接受者工作特性曲線( precision-recall and receiver operating characteristic curves )來評估每種方法是否能準(zhǔn)確再現(xiàn)參考網(wǎng)絡(luò),發(fā)現(xiàn)在模擬和實(shí)驗(yàn)單細(xì)胞數(shù)據(jù)集中刁品,所有方法都沒有明顯優(yōu)于隨機(jī)生成方法泣特。此外,在網(wǎng)絡(luò)預(yù)測中挑随,不同方法之間也只存在有限的重疊状您。這表明,現(xiàn)有的基于單細(xì)胞數(shù)據(jù)的網(wǎng)絡(luò)建設(shè)方法缺乏通用性和適用性兜挨。然而膏孟,在解釋這種比較結(jié)果時需要謹(jǐn)慎,因?yàn)槭褂玫慕饦?biāo)準(zhǔn)參考網(wǎng)絡(luò)的有效性和質(zhì)量評價指標(biāo)會顯著影響比較結(jié)果拌汇。
scRNAseq數(shù)據(jù)網(wǎng)絡(luò)建模中特有挑戰(zhàn)與機(jī)遇
現(xiàn)有方法的潛在性能不足可能是由于與數(shù)據(jù)稀疏性柒桑、分布以及數(shù)據(jù)維數(shù)和容量增加相關(guān)的獨(dú)特挑戰(zhàn)造成的。
首先噪舀,對于使用最近的高通量平臺的scRNAseq來說魁淳,由于單細(xì)胞中存在的mRNA數(shù)量非常少,以及目前技術(shù)限制導(dǎo)致DGE矩陣中的大多數(shù)條目都是零与倡,這導(dǎo)致矩陣非常稀疏先改,使得為bulk組織數(shù)據(jù)設(shè)計的方法的直接擴(kuò)展非常困難。重要的是蒸走,盡管這些零可能是個體細(xì)胞中隨機(jī)基因表達(dá)的結(jié)果(生物學(xué)上的零)仇奶,但它們并不一定意味著mRNA分子的缺失,而是對中至低表達(dá)基因的低技術(shù)敏感性的結(jié)果比驻,稱為缺失【著名的雙零問題】该溯。值得注意的是,基于讀取計數(shù)的scRNAseq是零膨脹的别惦,而包含獨(dú)特分子標(biāo)識符(UMI)計數(shù)的scRNAseq被發(fā)現(xiàn)具有“非零膨脹”特征狈茉,導(dǎo)致與基于讀取計數(shù)的技術(shù)相比,其分布不同掸掸。reads計數(shù)和基于uml的scRNAseq中底層數(shù)據(jù)分布的差異要求在未來實(shí)現(xiàn)新方法時考慮這些不同技術(shù)的數(shù)據(jù)特征氯庆。
在試圖為缺失值賦值時蹭秋,許多單細(xì)胞歸算方法,例如MAGIC堤撵、scImpute仁讨、DrImpute、SAVER实昨、BISCUIT洞豁、ScUnif、PBLR荒给、deepImpute等得到了開發(fā)和應(yīng)用丈挟。但是,這些方法的性能差異很大志电。在基準(zhǔn)測試中曙咽,scImpute和DrImpute在模擬數(shù)據(jù)上成功,但在面對非共線經(jīng)驗(yàn)數(shù)據(jù)時失敗挑辆,而SAVER和BISCUIT只能持續(xù)地將dropouts歸為接近零的值桐绒。此外,用于測量性能的主要指標(biāo)(例如rand指數(shù)或相互信息)對這些方法定義細(xì)胞集群的能力進(jìn)行基準(zhǔn)測試之拨;目前還不清楚這些估算值如何影響網(wǎng)絡(luò)結(jié)構(gòu)茉继。由于對這些數(shù)值插入方法的結(jié)果沒有一致的意見和實(shí)驗(yàn)驗(yàn)證,在使用數(shù)值插入數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)構(gòu)建時需要謹(jǐn)慎蚀乔。簡單和直觀的方法由漢等使用相同的細(xì)胞亞群的細(xì)胞類型烁竭,平均每個基因在細(xì)胞的非零值從每個子集獲得一個超細(xì)胞(supercell)的基因表達(dá)矩陣,與零值和更少的膨脹可能更多的生物有關(guān)吉挣。值得注意的是派撕,這種做法會減少細(xì)胞數(shù)量并犧牲統(tǒng)計能力。
第二個挑戰(zhàn)是與細(xì)胞數(shù)據(jù)中的dropout 問題相關(guān)的非標(biāo)準(zhǔn)數(shù)據(jù)分布模式睬魂。大量的缺失值顯著地使數(shù)據(jù)分布從單峰分布(如高斯分布)向多模態(tài)分布傾斜终吼,這違反了大多數(shù)經(jīng)典GRN建模方法的統(tǒng)計假設(shè)。對于單細(xì)胞網(wǎng)絡(luò)的構(gòu)建氯哮,需要仔細(xì)評估數(shù)據(jù)分布模式和適當(dāng)?shù)慕y(tǒng)計方法际跪。有幾種統(tǒng)計方法,如零膨脹因子分析(ZIFA)和ZINB-WaVE(基于零膨脹負(fù)二項(xiàng)式的期望變異提取)已經(jīng)被開發(fā)來專門建模零膨脹的單細(xì)胞數(shù)據(jù)分布喉钢。ZIFA是一種降維方法姆打,其假設(shè)是低表達(dá)的基因比高表達(dá)的基因更有可能導(dǎo)致缺失。ZIFA擴(kuò)展了因子分析肠虽,在非零均值表達(dá)式的基礎(chǔ)上幔戏,將dropout率模型作為指數(shù)衰減。然而税课,ZIFA也有限制闲延,因?yàn)樗鼑?yán)格地對零測量進(jìn)行建模痊剖,不能解釋接近零的值。此外垒玲,ZIFA還有一個底層的線性轉(zhuǎn)換框架陆馁;然而,非線性降維技術(shù)侍匙,如t-SNE和UMAP已經(jīng)被證明在解釋單細(xì)胞數(shù)據(jù)中是有用的氮惯,所以零膨脹模型的擴(kuò)展到這些非線性方法可能是有用的叮雳。ZINB-WaVE是另一種降維技術(shù)想暗,它獨(dú)特地模擬了scRNAseq數(shù)據(jù)的計數(shù)性質(zhì),并使用樣本級截獲(sample-level intercept)和靈活的基因級和樣本級協(xié)變合并標(biāo)準(zhǔn)化帘不,以解決批次效應(yīng)和序列組成效應(yīng)(如基因長度或GC內(nèi)容)说莫。為了解決數(shù)據(jù)的零膨脹和過度分散問題,ZINB-WaVE修改了一個不適合數(shù)據(jù)的標(biāo)準(zhǔn)負(fù)二項(xiàng)分布寞焙,用一個術(shù)語給出觀察到0的概率储狭,而不是實(shí)際的計數(shù)。雖然ZINB-WaVE主要被證明是單細(xì)胞數(shù)據(jù)的降維技術(shù)捣郊,但作者認(rèn)為低維表示可以用于下游分析辽狈,如聚類或偽時間。
最近呛牲,Townes等發(fā)現(xiàn)多項(xiàng)式方法在特征選擇和降維方面優(yōu)于現(xiàn)有的其他方法刮萌。考慮這些替代的統(tǒng)計方法在GRN推斷可能被證明是有用的娘扩。應(yīng)該指出的是着茸,這些統(tǒng)計方法是為讀計數(shù)數(shù)據(jù)開發(fā)的,可能不適合基于UMI的單細(xì)胞數(shù)據(jù)集琐旁,因?yàn)樗鼈冇胁煌牡讓訑?shù)據(jù)分布涮阔,而這些數(shù)據(jù)分布不是零膨脹的。
第三灰殴,該領(lǐng)域必須掌握校正混雜因素的能力敬特,并將從多個實(shí)驗(yàn)獲得的數(shù)據(jù)推斷為一個共同的圖譜。挑戰(zhàn)出現(xiàn)在各批次數(shù)據(jù)由變量構(gòu)成和研究牺陶,甚至批次還包含相同的細(xì)胞類型擅羞,個別細(xì)胞類型的細(xì)胞數(shù)量和轉(zhuǎn)錄狀態(tài)由于程序上可以有很大的不同噪聲(組織分離、排序和試劑批次)义图,scRNAseq平臺(例如10×與Dropseq)减俏,和試劑版本(10×的2和3版本)。就像在bulk組織設(shè)置中使用批次校正來調(diào)整混雜因素一樣碱工,不同實(shí)驗(yàn)甚至實(shí)驗(yàn)室產(chǎn)生的數(shù)據(jù)集的集成是重要的娃承,因?yàn)樗鰪?qiáng)了統(tǒng)計強(qiáng)度和重現(xiàn)性奏夫。最初用于bulk組織校正的方法,如limma和ComBat历筝,已應(yīng)用于單細(xì)胞數(shù)據(jù)的批量校正酗昼;而,已有研究表明梳猪,將這些為bulk數(shù)據(jù)開發(fā)的方法同時應(yīng)用于模擬和真實(shí)單細(xì)胞數(shù)據(jù)存在局限性麻削。最近,該領(lǐng)域取得了重大進(jìn)展春弥,產(chǎn)生了專門用于單細(xì)胞批次校正的方法呛哟,如典型相關(guān)分析(CCA)和mnnCorrect,以及基于帶標(biāo)記的參考數(shù)據(jù)集的細(xì)胞類型識別方法匿沛,如scmap和singleR扫责。然而,在對單細(xì)胞數(shù)據(jù)應(yīng)用批次修正方法后逃呼,謹(jǐn)慎地進(jìn)行下游分析(如GRN構(gòu)建)是很重要的鳖孤,而且有必要了解底層算法和假設(shè)。
像CCA和mnnCorrect這樣的方法只利用跨數(shù)據(jù)集共享的高度可變的基因進(jìn)行集成抡笼,并返回一個校正后的基因表達(dá)矩陣苏揣,其中只包含用于集成的可變基因。這些基因主要定義細(xì)胞類型特異性標(biāo)記推姻,而CCA的過程固有地引入了基因之間的依賴關(guān)系平匈,并違反了用于下游分析(如差異表達(dá))的統(tǒng)計測試的假設(shè),因此CCA的作者警告說拾碌,不要使用CCA進(jìn)行跨數(shù)據(jù)集的保守細(xì)胞類型鑒定吐葱。一般來說,為批次數(shù)據(jù)開發(fā)的批次校正方法在批次校正中執(zhí)行得更差校翔,而為單細(xì)胞數(shù)據(jù)開發(fā)的方法在從不同批次聚集細(xì)胞類型方面更準(zhǔn)確弟跑,但可能不能擴(kuò)展到下游分析。因此防症,有必要開發(fā)能兩者兼顧的方法孟辑。
最后,與通常由試驗(yàn)組id蔫敲、樣本id和特征測量組成的bulk組織數(shù)據(jù)相比饲嗽,單細(xì)胞數(shù)據(jù)通過從每個樣本中添加數(shù)十種細(xì)胞類型和數(shù)千個細(xì)胞,也呈現(xiàn)出維數(shù)和數(shù)據(jù)量的增加奈嘿。這種維數(shù)和數(shù)據(jù)量的增加貌虾,不僅使網(wǎng)絡(luò)建模更加復(fù)雜,計算成本更高裙犹,而且從生物學(xué)角度帶來了現(xiàn)有方法無法承受的新可能性尽狠。除了基因在網(wǎng)絡(luò)中是如何組織和相互作用這一典型問題之外衔憨,人們還可以提出許多新的令人激動的問題。例如:
- 什么定義了細(xì)胞類型?
- 基因在每種細(xì)胞類型中是如何組織的?
- 細(xì)胞類型之間的網(wǎng)絡(luò)架構(gòu)有何不同?
- 細(xì)胞之間的關(guān)系是什么?
- 它們來自相同的還是不同的血統(tǒng)?
- 這些血統(tǒng)是如何進(jìn)化的?
- 同一細(xì)胞類型是否有不同的狀態(tài)?
- 什么基因調(diào)控通路決定細(xì)胞狀態(tài)?
- 細(xì)胞如何從一種狀態(tài)過渡到另一種狀態(tài)?
- 哪些細(xì)胞相互溝通以確定更高層次的功能袄膏,以及它們通過哪些基因和途徑進(jìn)行溝通?
許多這些新問題在bulk時代并沒有被考慮或容易解決践图。除了提供回答這些重要問題的機(jī)會外,在每個樣本中測量的 細(xì)胞中細(xì)胞間的差異性或異質(zhì)性也提供了足夠的信息來構(gòu)建樣本內(nèi)或特定于輪廓的網(wǎng)絡(luò)沉馆。這樣的網(wǎng)絡(luò)描述單個生物樣本的GRN码党,這在bulk時代是不可能的。換句話說斥黑,利用大細(xì)胞數(shù)維的能力允許為每個樣本構(gòu)建基于其組成細(xì)胞剖面的grn揖盘,這可以用于樣本間的共識網(wǎng)絡(luò),以提高準(zhǔn)確性心赶。
最近的scRNAseq GRN建模方法
認(rèn)識到對單細(xì)胞數(shù)據(jù)的新的GRN建模方法的需要扣讼,最近開發(fā)了許多主要基于scRNAseq數(shù)據(jù)的方法缺猛。我們根據(jù)基本的生物學(xué)問題對這些方法進(jìn)行分類(動態(tài)建模缨叫、細(xì)胞內(nèi)網(wǎng)絡(luò)和細(xì)胞-細(xì)胞相互作用網(wǎng)絡(luò)。然后是具體的生物學(xué)假設(shè)(例如TF目標(biāo)相互作用荔燎,配體-受體相互作用)和算法(例如共表達(dá)耻姥,回歸,ode有咨,貝葉斯和布爾型)琐簇,如表1所示:
Category | Example methods | Underlying biological assumption | Algorithmic basis | Advantages | Limitations | |
---|---|---|---|---|---|---|
Dynamic network **(extensively reviewed in refs | SCNS | Single-gene changes between cell transition states can inform on gene regulatory relations | Boolean | Does not rely on prior knowledge. Has a web UI. Resulting models are executable and can be used to make predictions | Need data discretization; limit to small numbers of genes; regulatory relations need to follow Boolean rules | |
Dynamic network (extensively reviewed in refs) | SCODE [82] | TF expression dynamics (pseudo-time) and TF regulatory relations (GENEI3) | ODE; Bayesian model selection | Estimate relational expression efficiently using linear regression; reduction of time complexity; fast algorithm | Need dimension reduction first for computing speed and memory feasibility; assumes that all cells are on the same trajectory; optimization is computationally intractable | |
Dynamic network (extensively reviewed in refs) | GRISLI [83] | Variability in scRNAseq data caused by cell cycle, states, etc. allows the inference of pseudo-time associated with each individual cell | ODE | Makes no restrictive assumption on the gene network structure; can consider multiple trajectories; fast algorithm | Has to estimate the velocity of each individual cell using information from neighbors | |
Dynamic network (extensively reviewed in refs) | SINCERITIES [84] | Changes in the expression of a TF will alter the expression of target genes | Ridge regression and partial correlation analysis | Low computational complexity and able to handle large-scale data | Requires scRNAseq data at multiple time points. Restricted to TFs and their targets to infer edges | |
Dynamic network (extensively reviewed in refs) | Scribe [85] | Cell ordering can be improved with time-series or cell velocity estimations | RDI | Outperforms other pseudo-time methods given time-series data. Can be applied to any data type if the data structure is appropriate | Requires time-ordered gene expression profiles or velocity estimation from introns and exons | |
Dynamic network (extensively reviewed in refs) | AR1MA1-VBEM [40] | The cell differentiation process or response to external stimulus reveals the hierarchical structure of the transcriptome | First-order autoregressive moving-average and variational Bayesian expectation-maximization | Weighted interactions between genes along psuedotime. Model used accounts for noisy data | Data are expressed as fold changes between timepoints/conditions or scaled by housekeeping genes | |
Dynamic network (extensively reviewed in refs) | SCINGE [86] | Learned target regulator genes can be used to assign each cell to their progress along a trajectory | Granger causality | Smooths irregular pseudo-times and missing expression values | Near random performance for predicting targets of individual regulators | |
Dynamic network (extensively reviewed in refs) | SoptSC [87] | Similarities between whole transcriptomes of single cells can be used to order them | Cells ordered by minimum paths on weighted cluster-to-cluster graph derived from cell similarity matrix | Includes comprehensive single-cell workflow; leverages information from other parts of the workflow to improve performance | Cannot be run with other tools, have run the full workflow to get pseudo-time inference | |
Within-cell or cell population network | SCENIC [88] | TF target-based regulation | Combining TF regulatory relations (GENIE3) with TF-binding motif analysis | Robust against dropouts, get a TF score for individual cells (no averaging of cells). | Limited to TF-based relations | |
Within-cell or cell population network | Pina et al. [89] | TFs drive lineage commitment | Odds ratio for on/off gene associations and spearmen correlation for expression levels associations | Robust to dropouts | Based on single-cell multiplex qRT-PCR, may be difficult to extend the method to sparse single-cell data (selected 44 genes to test) | |
Within-cell or cell population network | Iacono et al. [90] | Coexpression is regulated by TFs, cofactors, and signaling molecules which can be captured with gene–gene correlations | Pearson correlation using z-score-transformed counts | Can compute correlations at the single-cell level and it is robust to dropouts and noise inherent to single-cell data | Networks are very dense (some have millions of significant edges) | |
Within-cell or cell population network | PIDC [39,91] | Gene regulatory information reflected in dependencies in the expression patterns of genes | Partial information decomposition using gene trios | Compared with correlation, captures more complicated gene dependencies | Networks are influenced by data discretization, choice of mutual information estimator, method developed for sc-qPCR data, may not be extendable to higher throughput and sparser scRNAseq data | |
Within-cell or cell population network | Jackson et al. [92] | Deletion of TFs combined with experimental conditions allows for the inference of gene relationships | MTL to leverage cross-dataset commonalities and incorporate prior knowledge | Does not require sophisticated normalization of single-cell data or imputation. Able to combine multiple conditions/datasets for more accurate inference. TF deletions give strong causal link to affected genes | Requires single-cell data with TF deletions and/or environmental perturbations | |
Within-cell or cell population network | Wang et al. [93] | Gene perturbations allow for inference of causal relationships | Scoring of conditional independence test to identify optimal DAG | Gives causal relationships between genes | Requires interventional data. No loops allowed in DAG | |
Within-cell or cell population network | ACTION [94] | Functional identity of cells is determined by a weak, but specifically expressed set of genes which are mediated by TFs | Kernel-based cell similarity and geometric approach to identify primary functions | Robust to dropout and does not require averaging. Identifies functions unique to cell types | Requires TFs and their targets. Only provides TF-driven networks | |
Within-cell or cell population network | SINCERA [95] | TF target-based regulation | First-order conditional dependence on gene expression to construct a DAG | Key TFs identified using multiple importance metrics | Only considers TFs and their targets. Requires genes/TFs to be DEGs or expressed in >80% of cells | |
Cell–cell communication network | iTALK [96] | Ligand–receptor interactions | Threshold ranked list of genes from two cell types for ligand–receptor pairs | Allows for the inference of directionality of interaction | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell). Cannot reveal novel interactions beyond known ligand–receptor knowledge | |
Cell–cell communication network | Zhou et al. [97] | Ligand–receptor interactions | Expression of ligand and corresponding receptor more than three standard deviations greater than the mean | Allows for the inference of directionality of interaction | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell) | |
Cell–cell communication network | Kumar et al. [98] | Ligand–receptor interactions | Product of the average expression of ligand and corresponding receptor | Allows for the inference of directionality of interaction. Interaction score gives the strength of interaction (rather than just significance) | Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell) | |
Cell–cell communication network | Arneson et al. [99] | Ligand to downstream signaling | Coexpression of ligand genes in source cells with other genes in target cells | Use secreted ligands as a guidance for directional inference between cell populations | Gene expression is summarized to the cell population level and coexpression is at the sample level, requiring large sample sizes | |
Cell–cell communication network | SoptSC [87] | Ligand–receptor interactions | Likelihood estimate of the interaction | Cell–cell communication networkbetween two cells based on expression of the ligand, receptor, and downstream pathway target genes (including expression direction). Consensus signaling network derived from all cells in each cluster | Incorporates target genes of pathways and their directionality. Computes interaction likelihood at the single-cell level and summarizes across all cells in the cluster for higher confidence | Requires curation of ligand–receptor interactions and their downstream pathways |
Cell–cell communication network | scTensor [100] | Ligand–receptor interactions | Tensor decomposition with cell–cell interactions as hypergraphs | Allows L–R pairs to function across multiple cell-type pairs (not restricted to a single-cell-type pair), which is more reflective of underlying biology | Requires curation of ligand–receptor interactions. Averages single cells to the cell-type level |
最直接的算法是共表達(dá),即一個基因與另一個基因相互作用的可能性取決于它們成對相關(guān)系數(shù)的強(qiáng)度座享。雖然在計算上易于處理婉商,但這些方法中的大多數(shù)不提供方向性,而且可能推斷函數(shù)相關(guān)性而不是直接調(diào)節(jié)渣叛。更復(fù)雜的方法包括ode丈秩、布爾網(wǎng)絡(luò)和BNs,如前所述淳衙,每種方法都有其優(yōu)點(diǎn)和局限性蘑秽。
- 布爾網(wǎng)絡(luò)要求離散化基因表達(dá)值,并應(yīng)用布爾函數(shù)來描述調(diào)控相互作用箫攀,這可能導(dǎo)致過度簡化肠牲。
- 基于ode的方法使用線性、非線性或分段微分方程以連續(xù)而不是離散的方式對mRNA含量的動態(tài)特性建模靴跛。
- BN是一個有向無環(huán)圖(DAG)缀雳,它整合了先驗(yàn)信息來指導(dǎo)其基因-基因相互作用的預(yù)測,本質(zhì)上是概率性的梢睛。
- 最后肥印,信息論度量描述了生物實(shí)體之間的統(tǒng)計相關(guān)性严拒,包括熵(熵是基于隨機(jī)變量的不確定性對信息進(jìn)行量化的概念)和互信息(互信息是對一個隨機(jī)變量的觀察可以告知或減少另一個隨機(jī)變量的不確定性)。這種方法產(chǎn)生了更一般的關(guān)聯(lián)竖独,允許捕獲非線性依賴裤唠,并在網(wǎng)絡(luò)推理中被普遍使用。
值得注意的是莹痢,由于新的方法正在迅速發(fā)展种蘸,不可能詳盡地記錄所有現(xiàn)有的方法。在這里竞膳,我們強(qiáng)調(diào)了單細(xì)胞GRN建模的廣泛類別航瞭,并討論了示例方法來說明這些概念,并注意到它們的優(yōu)點(diǎn)和潛在的局限性坦辟。我們還排除了基于舊的低通量單細(xì)胞平臺(如單細(xì)胞qPCR)數(shù)據(jù)開發(fā)的方法刊侯,這些方法與稀疏高通量的scRNAseq沒有相同的挑戰(zhàn)。
動力學(xué)網(wǎng)絡(luò)
到目前為止锉走,大多數(shù)基于scRNAseq的GRN建模方法被設(shè)計用于處理動態(tài)細(xì)胞狀態(tài)轉(zhuǎn)換(圖1B)滨彻,因?yàn)閟cRNAseq數(shù)據(jù)包含來自顯示時間動態(tài)的異步細(xì)胞種群的信息,允許在擬(偽)時間(pseudo-time)尺度上映射細(xì)胞轉(zhuǎn)換挪蹭。表達(dá)動力學(xué)或偽時間估計的常用模型假設(shè)細(xì)胞變化(即發(fā)育亭饵、激活和失活)沿著連續(xù)曲線或理想化樹進(jìn)行,每個中間階段都很短梁厉,并通過對大量細(xì)胞的測序得到辜羊。在這些假設(shè)下,計算建拇使耍可以推斷細(xì)胞動力學(xué)的軌跡八秃,可以根據(jù)已知的調(diào)控關(guān)系,如TF靶標(biāo)信息肉盹、基因表達(dá)的相似性昔驱、以未成熟和成熟mRNA含量為代表的RNA速度來推導(dǎo)。但是垮媒,需要注意的是舍悯,在給定快照上同時出現(xiàn)的各種細(xì)胞狀態(tài)并不代表序列或沿襲信息推斷的實(shí)時過程。因此睡雇,加入偽時間不一定能改善GRN的構(gòu)造萌衬。
到目前為止,已經(jīng)開發(fā)了超過50種方法用于軌跡推斷來推導(dǎo)偽時間信息它抱,這些方法之前已經(jīng)被回顧和比較過秕豫。偽時間排序?yàn)閯討B(tài)GRN建模提供了方向性和交互性信息。這種偽時間信息與上述常用的網(wǎng)絡(luò)構(gòu)造算法如correlation , ODE 混移, Boolean 祠墅, BN,信息論和其他方法相結(jié)合歌径。許多動態(tài)GRN方法已經(jīng)被其他人廣泛地回顧過毁嗦,我們在這里只討論不同類別中的幾個例子。
- 一種布爾網(wǎng)絡(luò)方法回铛,即SCNS狗准,是基于有序細(xì)胞之間的單基因變化,細(xì)胞被離散到一個開/關(guān)的狀態(tài)茵肃。
- 另一種方法SCODE使用線性O(shè)DE(一種假設(shè)所有細(xì)胞都在同一軌跡上的偽時間估計)和基于TF的框架來建模TF動力學(xué)腔长,捕獲基因間的調(diào)控關(guān)系。
- 在此基礎(chǔ)上验残,GRISLI最近被開發(fā)出來捞附,它使用了與SCODE類似的方法,但考慮了多個細(xì)胞軌跡您没,不采用網(wǎng)絡(luò)結(jié)構(gòu)鸟召,計算時間更快。GRISLI首先估計每個細(xì)胞的速度紊婉,然后解決一個稀疏回歸問題药版,將細(xì)胞的基因表達(dá)與其速度分布聯(lián)系起來辑舷,以估計GRN喻犁。
- 以信息論為基礎(chǔ)的方法,SINCERITIES何缓,利用Granger因果關(guān)系獲取方向性信息肢础,量化每個基因表達(dá)在兩個后續(xù)(偽)時間點(diǎn)之間的時間變化。通過嶺回歸分析碌廓,利用TF表達(dá)的變化預(yù)測相應(yīng)基因在下一個時間窗口的變化传轰,通過對每個基因?qū)Φ谋磉_(dá)進(jìn)行偏相關(guān)分析,推斷邊緣方向和符號谷婆。SCINGE還對有序單細(xì)胞數(shù)據(jù)使用基于核函數(shù)的因果回歸來預(yù)測調(diào)控因子與靶基因的相互作用慨蛙,然后對回歸結(jié)果進(jìn)行聚合,對預(yù)測的相互作用進(jìn)行排序纪挎。
- 另一種方法是PIPER期贫,它使用局部泊松圖形建模來更有效地捕獲細(xì)胞分化過程中的網(wǎng)絡(luò)變化,并突出顯示驅(qū)動這些變化的關(guān)鍵TFs异袄。
- NB推理方法通砍,AR1MA1-VBEM(變分貝葉斯采用),應(yīng)用一階自回歸移動平均(AR1MA1)模型適合代表觀測時間序列的線性模型的組合數(shù)據(jù)前面的計算和噪聲項(xiàng),并使用一個問題的框架封孙,利用變分法來優(yōu)化網(wǎng)絡(luò)模型的邊際似然和后驗(yàn)分布迹冤。
- Scribe是另一種最近發(fā)展起來的方法,它使用限制性定向信息(RDI)虎忌,通過引用相關(guān)的時間序列數(shù)據(jù)或從內(nèi)含子(指示未成熟RNA)和外顯子讀子中推斷細(xì)胞速度來推斷因果grn泡徙。作者證明當(dāng)有真實(shí)的時間序列數(shù)據(jù)時,Scribe優(yōu)于其他偽時間方法膜蠢;然而锋勺,當(dāng)測量的時間信息丟失時,所有方法的性能都會受到極大影響狡蝶。有趣的是庶橱,Deshpande等人最近對各種方法進(jìn)行了比較,發(fā)現(xiàn)加入偽時間并不一定會帶來更好的性能贪惹,但在某些情況下會損害網(wǎng)絡(luò)重建苏章。如前所述阳似,這可能是由于偽時間方法的假設(shè)存在問題造成的胡野。
細(xì)胞內(nèi)網(wǎng)絡(luò)
第二類方法側(cè)重于在不考慮細(xì)胞軌跡或動力學(xué)的情況下對細(xì)胞內(nèi)群體的grn進(jìn)行建模树酪。這些方法包括共表達(dá)和基于tf的方法蔬咬、共表達(dá)和不依賴tf的方法以及信息論方法(表1和圖1B)将谊。這符合組織基因-基因相互作用GRN建模的基本概念亚兄,除了這里為特定細(xì)胞群建模的單細(xì)胞數(shù)據(jù)醋安。
與動態(tài)網(wǎng)絡(luò)建模相似假丧,對細(xì)胞內(nèi)群體建模的最簡單方法是基于共表達(dá)珍昨。在這里县耽,共表示方法分為兩組:利用TFs形式的先驗(yàn)信息的方法和不利用TFs形式的方法。對于與tf無關(guān)的方法镣典,一個基因與另一個基因相互作用的可能性取決于它們成對相關(guān)系數(shù)的強(qiáng)度兔毙,并考慮了所有可能的基因?qū)ΑT诨趖f的方法中兄春,根據(jù)與不同TFs的成對相關(guān)系數(shù)最強(qiáng)的基因分組到模塊中澎剥,或者根據(jù)之前的文獻(xiàn)或motif證據(jù)分離到潛在的相互作用。定義細(xì)胞內(nèi)grn的一種更復(fù)雜的方法是部分信息分解赶舆,它可以捕獲非線性的基因依賴性哑姚。在這里,由一對基因提供的信息被用來量化所有三組基因中關(guān)于第三個基因的獨(dú)特的芜茵、共享的和協(xié)同的信息叙量,從而推斷出一個網(wǎng)絡(luò)結(jié)構(gòu)。
幾種基于相關(guān)的方法已經(jīng)被開發(fā)出來夕晓,用來比較已知或預(yù)測的TFs與靶基因或所有基因之間的基因表達(dá)模式宛乃。例如,
- 通過對共表達(dá)基因模塊進(jìn)行帶有TF結(jié)合基序的SCENIC couples基因共表達(dá)分析,以識別GRN模塊征炼,預(yù)測TF調(diào)節(jié)因子析既,并識別假定的TF靶標(biāo)(稱為調(diào)節(jié)因子)的單細(xì)胞水平活性。這些調(diào)節(jié)因子的活性可用于群集細(xì)胞類型谆奥,比較網(wǎng)絡(luò)保護(hù)眼坏,并確定參與疾病的重要細(xì)胞狀態(tài)和grn。
- 另一種方法是使用完整的分析管道來處理scRNAseq數(shù)據(jù)酸些。它首先識別每個細(xì)胞類型的候選TFs和它們的靶標(biāo)宰译。然后利用基因表達(dá)的一階條件依賴性來確定兩個或一個轉(zhuǎn)錄因子與目標(biāo)基因之間的相互作用,并通過整合六個不同節(jié)點(diǎn)重要性指標(biāo)來確定每個GRN中的關(guān)鍵轉(zhuǎn)錄因子魄懂。
- 其他的coexpression-based GRN方法沿侈,使用一個細(xì)胞類型特異的GRN正交化方法構(gòu)建基于細(xì)胞的功能標(biāo)識的關(guān)鍵假設(shè)是由一組弱,但具體表達(dá)基因介導(dǎo)的一組TFs市栗。
- ACTION將每個細(xì)胞描述為高維空間中的一組“細(xì)胞函數(shù)”缀拭,這些函數(shù)的數(shù)量使用非參數(shù)方法確定。使用正交化法確定每種細(xì)胞功能所特有的基因填帽,并評估TFs在控制這些細(xì)胞功能基因中的作用蛛淋。細(xì)胞內(nèi)的TF和相關(guān)靶基因構(gòu)成了這個網(wǎng)絡(luò)。
Pina等和最近的Iacono等也利用共表達(dá)構(gòu)建了不限于TF目標(biāo)關(guān)系的全局GRNs篡腌。前者計算一個細(xì)胞類型內(nèi)所有細(xì)胞間的Spearman等級(rank)相關(guān)性褐荷,以推斷造血過程中的細(xì)胞型GRNs,并利用線性轉(zhuǎn)化表達(dá)數(shù)據(jù)的比值比確定顯著的成對關(guān)聯(lián)嘹悼。Iacono等人使用了一種基于皮爾遜相關(guān)的方法叛甫,該方法首先使用bigSCale轉(zhuǎn)換表達(dá)值,使用概率模型推導(dǎo)出每個基因的z分?jǐn)?shù)绘迁,以考慮單細(xì)胞數(shù)據(jù)固有的噪音和變異性合溺。利用z得分的兩兩相關(guān)關(guān)系來構(gòu)建grn。z分?jǐn)?shù)的使用增加了顯著的基因?qū)虻南嚓P(guān)性缀台。
為了揭示簡單的相關(guān)策略所不能提供的復(fù)雜的基因依賴關(guān)系,GRN推理方法采用了信息論的技術(shù)哮奇。具體來說膛腐,PIDC使用部分信息分解,在所有其他可能的基因中找到任何一對兩個基因所提供的唯一信息鼎俘。這種多元信息的方法利用第三個基因之間的依賴關(guān)系識別非線性雙基因關(guān)系哲身。
細(xì)胞通信網(wǎng)絡(luò)
一個給定的異質(zhì)組織的基本功能不僅由組織內(nèi)不同細(xì)胞類型的活動決定,而且由細(xì)胞群體之間密切的溝通和協(xié)調(diào)決定贸伐。例如勘天,神經(jīng)元和星形膠質(zhì)細(xì)胞相互作用以保證大腦的基本功能,免疫細(xì)胞與脂肪組織中的脂肪細(xì)胞相互作用以調(diào)節(jié)能量代謝和產(chǎn)熱。因此脯丝,細(xì)胞-細(xì)胞間的通訊是一個關(guān)鍵的生物學(xué)問題商膊,但由于之前缺乏高通量、高分辨率的單細(xì)胞數(shù)據(jù)而尚未得到全面的解決宠进。單細(xì)胞方法同時捕獲多種細(xì)胞類型的獨(dú)特能力晕拆,使得建立細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)模型成為可能。建立這種網(wǎng)絡(luò)模型的基本假設(shè)是材蹬,細(xì)胞之間的通信可以通過測量單個細(xì)胞群體的分子模式來捕獲实幕。例如,一對相互聯(lián)系的細(xì)胞可能以協(xié)調(diào)的方式表達(dá)參與特定功能的基因和蛋白質(zhì)(例如堤器,一個細(xì)胞表達(dá)配體昆庇,另一個細(xì)胞表達(dá)相應(yīng)的受體,以觸發(fā)信號通路)闸溃。
早期對細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)模型的嘗試主要是基于基因共同表達(dá)的概念凰锡,無論是否考慮配體-受體的相互作用信息。潛在的假設(shè)是細(xì)胞之間的基因相關(guān)模式反映了真實(shí)的生物相互作用圈暗。在組織-組織相互作用的水平上掂为,已有證據(jù)支持這一假設(shè)的有效性。例如员串,腦區(qū)域間的基因共表達(dá)可以概括出小鼠腦連接體功能衍生的相互作用勇哗,5種不同小鼠組織間的基因共表達(dá)揭示了介導(dǎo)溝通的新內(nèi)分泌因子,這些新因子隨后被實(shí)驗(yàn)驗(yàn)證寸齐。
當(dāng)Han等人基于不同細(xì)胞類型的基因表達(dá)譜的相似性建立細(xì)胞-細(xì)胞連接時欲诺,共表達(dá)方法迅速適用于單細(xì)胞數(shù)據(jù)。然而渺鹦,這些網(wǎng)絡(luò)更有可能反映細(xì)胞類型之間的相似性扰法,而不是相互作用或通信。為了修改經(jīng)典的共表達(dá)框架毅厚,基于配體和受體的方法已經(jīng)被提出塞颁,它依賴于這樣的假設(shè):細(xì)胞間通信的重要部分是通過釋放化學(xué)分子從一個細(xì)胞結(jié)合到另一個細(xì)胞的受體。利用這個假設(shè)允許基于配體受體的方法來構(gòu)建可靠的基于生物的定向網(wǎng)絡(luò)吸耿。然而祠锣,這樣做的代價是在固有的稀疏數(shù)據(jù)模式中嚴(yán)重限制了潛在基因的集合。值得注意的是咽安,基于共表達(dá)的分析通常使用皮爾遜相關(guān)系數(shù)伴网,由于零膨脹的性質(zhì)和獨(dú)特的分布模式,皮爾遜相關(guān)系數(shù)可能不適用于基于讀取的單細(xì)胞數(shù)據(jù)集妆棒。在對單細(xì)胞數(shù)據(jù)使用基于共表達(dá)的分析時澡腾,重要的是要考慮數(shù)據(jù)轉(zhuǎn)換和適當(dāng)?shù)慕y(tǒng)計沸伏。
有幾種方法說明了通過配體-受體相互作用的細(xì)胞-細(xì)胞通信。
- Zhou等人編制了一份>25000對已知配體受體的清單动分,以檢測它們在關(guān)于4000個黑色素瘤細(xì)胞的轉(zhuǎn)錄組中的變化毅糟。為了確定一對細(xì)胞是否在交流,配體和相應(yīng)的受體必須在這兩種細(xì)胞中表達(dá)超過一定的可調(diào)閾值刺啦。
- 類似地留特,Kumar等人關(guān)注的是基于約1800文獻(xiàn)的配體-受體對,但采用了不同的評分方案玛瘸,考慮了各自被測細(xì)胞類型中平均受體表達(dá)和平均配體表達(dá)的產(chǎn)物蜕青。
- iTALK是另一種新的基于配體-受體交互的網(wǎng)絡(luò)構(gòu)建方法,它被移植為帶有數(shù)據(jù)可視化工具的R包糊渊。對于每一個細(xì)胞類型和iTALK數(shù)據(jù)庫中的配體對右核,iTALK標(biāo)識中的配體-受體對(> 2600對)兩個細(xì)胞類型之間通過詢問排名列表基因來源于平均差異表達(dá)基因(單一的計算/條件)或(多個時間點(diǎn)/條件)。此外渺绒,iTALK還能夠使用元數(shù)據(jù)(例如贺喝,時間點(diǎn)、組和群組)通過識別不同表達(dá)的配體-受體對來發(fā)現(xiàn)細(xì)胞-細(xì)胞相互作用的變化宗兼。
- 類似地躏鱼,Smillie等人使用了FANTOM5數(shù)據(jù)庫中數(shù)千篇支持文獻(xiàn)的受體-配體相互作用來識別細(xì)胞-細(xì)胞相互作用,要求基因是細(xì)胞標(biāo)記基因或差異表達(dá)基因來表示細(xì)胞間的重要相互作用殷绍。
- 在大多數(shù)配體-受體方法中染苛,配體-受體對僅限于細(xì)胞類型;然而主到,在scTensor中茶行,Tsuyuzaki等人采用了更靈活的方法,不存在此類限制登钥。在scTensor中畔师,細(xì)胞-細(xì)胞相互作用被表示為超圖,超圖描述了用張量分解確定的配體-受體對的有向邊牧牢。
- Vento-Tormo等人最近提出的一種方法也考慮了分泌分子和細(xì)胞表面分子看锉,并使用基于置換的方法來尋找細(xì)胞類型之間豐富的配體-受體對。為了實(shí)現(xiàn)這一點(diǎn)结执,作者開發(fā)了CellPhoneDB度陆,一個配體-受體相互作用的公共知識庫,由蛋白質(zhì)-蛋白質(zhì)相互作用的公共資源管理献幔,其中包括配體和受體的亞基組成,以充分表達(dá)它們的相互作用趾诗。對于由多個亞基組成的蛋白質(zhì)蜡感,需要表達(dá)所有亞基才能推斷出準(zhǔn)確的相互作用蹬蚁。
上述方法都只專注于配體-受體對,這依賴于假定的基因郑兴,使其局限于一組可通知細(xì)胞-細(xì)胞通訊的基因?qū)ο4饲埃环N限制較少的建模方法已經(jīng)被開發(fā)出來情连,該方法基于編碼源組織分泌肽和靶組織中所有基因的共同表達(dá)叽粹,來解剖組織-組織通信網(wǎng)絡(luò)。Arneson等人采用這一概念却舀,在假小鼠和腦外傷小鼠的海馬中構(gòu)建細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)圖虫几,揭示了腦損傷中廣泛的網(wǎng)絡(luò)重新布線。這種方法推斷出細(xì)胞之間的聯(lián)系挽拔,其基礎(chǔ)是假設(shè)一個細(xì)胞通過分泌信號分子與另一個細(xì)胞通訊辆脸,這些信號分子與靶細(xì)胞上的受體結(jié)合,從而觸發(fā)靶細(xì)胞的下游分子事件螃诅。因此啡氢,可能在源細(xì)胞類型中編碼分泌信號分子(即配體)的基因與受體以及靶細(xì)胞類型的下游通路基因之間存在共表達(dá)。通過考慮細(xì)胞類型之間所有表達(dá)基因的模式术裸,其他方法可以將細(xì)胞-細(xì)胞相互作用的范圍擴(kuò)展到基于配體-受體的關(guān)系之外倘是,盡管對這種方法的生物學(xué)解釋不是那么直接。
綜合的方法
wang et al提出了SoptSC袭艺,一個統(tǒng)一的框架來進(jìn)行單細(xì)胞分析從基因表達(dá)矩陣基本分析工作流(如標(biāo)準(zhǔn)化搀崭、集群、降維,并確定細(xì)胞標(biāo)記基因)匹表,隨后推斷信息交流網(wǎng)絡(luò)和pseudotemporal门坷。SoptSC的關(guān)鍵前提是結(jié)構(gòu)化的細(xì)胞間相似度矩陣有助于改進(jìn)網(wǎng)絡(luò)推理步驟。相似矩陣也被用于偽時間排序袍镀,在加權(quán)簇到簇圖中尋找細(xì)胞之間的最短路徑默蚌。為了推斷細(xì)胞-細(xì)胞信號網(wǎng)絡(luò),根據(jù)配體-受體對的表達(dá)和下游通路靶基因的方向來計算兩個細(xì)胞間相互作用的可能性估計值苇羡。通過總結(jié)任意兩種細(xì)胞類型的所有細(xì)胞之間的信號轉(zhuǎn)導(dǎo)概率绸吸,就可以形成一個集群/細(xì)胞類型之間的一致網(wǎng)絡(luò)。
基因擾動網(wǎng)絡(luò)
上述方法都是利用TF級聯(lián)设江、配體-受體關(guān)系等信息流假設(shè)锦茁,沒有直接的因果信息。含有基因擾動信息的單細(xì)胞數(shù)據(jù)對于提供GRN構(gòu)建的因果信息極為有用叉存,因?yàn)橐粋€基因的靶向擾動是其他基因下游反應(yīng)的來源或觸發(fā)器码俩。Jackson等人提出了利用基因缺失突變體的方法。具體地說歼捏,他們匯集了橫跨12種不同基因型(TF缺失)和11種不同條件的72種不同酵母株稿存,生成了38000個細(xì)胞的scRNAseq數(shù)據(jù)笨篷。除了表達(dá)數(shù)據(jù),該方法使用來自TF目標(biāo)和生物物理參數(shù)(如TF活性和mRNA衰減率)的先驗(yàn)信息瓣履,使用多任務(wù)學(xué)習(xí)(MTL)框架構(gòu)建GRN率翅。這允許在不同的條件和實(shí)驗(yàn)中整合信息,以解釋TF擾動和觀察到的基因表達(dá)變化之間的關(guān)系袖迎。通過直接刪除TFs冕臭,作者創(chuàng)建了一個有價值的數(shù)據(jù)集,可以作為其他單細(xì)胞網(wǎng)絡(luò)推理方法的有用基準(zhǔn)燕锥。Wang等人提出了一種推斷因果DAGs的算法辜贵。將CRISPR/ cas9介導(dǎo)的基因擾動與單細(xì)胞測序相結(jié)合,生成高通量的介入基因表達(dá)數(shù)據(jù)脯宿。該算法基于貪心SP來限制基于置換的DAG搜索空間念颈,利用貪心干涉等價搜索來評估潛在的網(wǎng)絡(luò)分?jǐn)?shù)。為了進(jìn)一步擴(kuò)展因果網(wǎng)絡(luò)推理的研究连霉,Wang等人引入了一種方法榴芳,可以識別從不同數(shù)據(jù)集推導(dǎo)出的DAGs之間的差異。同一組也表明,軟干預(yù)用于Perturb-seq跺撼,比如那些導(dǎo)致局部破壞的基因相關(guān)性(例如RNAi或CRISPR-mediated基因激活)窟感,提供相同數(shù)量的因果信息困難的干預(yù)(例如CRISPR / Cas9-mediated基因刪除),導(dǎo)致完全中斷歉井,盡管只是輕微擾動柿祈。
單細(xì)胞GRN建模方法的性能評估
Chen和Mar最近將一些單細(xì)胞網(wǎng)絡(luò)建模方法,包括SCENIC哩至、SCODE和PIDC躏嚎,應(yīng)用于模擬和經(jīng)驗(yàn)的單細(xì)胞數(shù)據(jù)集,以評估其捕獲已知網(wǎng)絡(luò)交互的能力菩貌。他們發(fā)現(xiàn)這些方法之間的一致性很低卢佣。然而,由于每一種方法都有獨(dú)特的假設(shè)箭阶,并且可能不被設(shè)計來捕捉類似的交互作用虚茶,因此方法之間的一致并不一定適合于評估性能。另一項(xiàng)比較研究考察了包含偽時間信息的多種網(wǎng)絡(luò)推理方法(如SCINGE仇参、SCODE和SINCERITIES)的性能嘹叫,也表明許多調(diào)節(jié)目標(biāo)預(yù)測對于每一種被測試的方法都可以接近隨機(jī)。
這些發(fā)現(xiàn)需要對單細(xì)胞網(wǎng)絡(luò)建模方法進(jìn)行改進(jìn)诈乒,并對現(xiàn)有的單細(xì)胞GRN方法的性能進(jìn)行全面評估罩扇。另一方面,由生物學(xué)假設(shè)和數(shù)據(jù)驅(qū)動的基因共同表達(dá)驅(qū)動的配體-受體框架似乎在細(xì)胞-細(xì)胞通信網(wǎng)絡(luò)建模中很有前景怕磨。例如暮蹂,用這種方法對scRNAseq數(shù)據(jù)進(jìn)行建模寞缝,再現(xiàn)了海馬體內(nèi)已知的細(xì)胞-細(xì)胞相互作用癌压。
理想與現(xiàn)實(shí)之間
單細(xì)胞多組學(xué)分析技術(shù)正在迅速發(fā)展仰泻,帶來革命性的力量以提高我們對生命的基本單位----細(xì)胞-----以及在生理和病理?xiàng)l件下細(xì)胞之間的綜合了解。在更準(zhǔn)確地分類細(xì)胞類型滩届、糾正混雜因素集侯、描述細(xì)胞譜系和細(xì)胞狀態(tài)轉(zhuǎn)變等方面取得了重大進(jìn)展。然而帜消,這些進(jìn)展還不足以使我們完全理解個體細(xì)胞群功能的調(diào)節(jié)機(jī)制棠枉,以及決定更高水平組織功能的細(xì)胞-細(xì)胞相互作用。現(xiàn)有方法模型基因網(wǎng)絡(luò)優(yōu)化的主要組織數(shù)據(jù)為單細(xì)胞數(shù)據(jù)表現(xiàn)不佳或不能適應(yīng)新的生物單細(xì)胞數(shù)據(jù),帶來的問題和方法泡挺,有效地和精確地模型流出單細(xì)胞數(shù)據(jù)到全面的RGNS的圖譜還在初級階段辈讶。特別是,目前仍急需新的網(wǎng)絡(luò)方法來解決單細(xì)胞數(shù)據(jù)的獨(dú)特挑戰(zhàn)娄猫,如數(shù)據(jù)稀疏性贱除、多模態(tài)分布和更高維數(shù)。數(shù)據(jù)稀疏性問題可以通過改進(jìn)單細(xì)胞技術(shù)來增強(qiáng)信號捕獲媳溺,或者通過更精確的注入方法來解決月幌,這些方法得到了強(qiáng)有力的實(shí)驗(yàn)驗(yàn)證數(shù)據(jù)的支持。這些努力將有助于緩解與非標(biāo)準(zhǔn)數(shù)據(jù)分布相關(guān)的問題悬蔽,這些問題限制了現(xiàn)有網(wǎng)絡(luò)方法的使用扯躺。另外,建立在更合適的統(tǒng)計數(shù)據(jù)和算法上的方法可以更好地適應(yīng)dropout值和獨(dú)特的數(shù)據(jù)分布蝎困,這是有必要的录语。
在單細(xì)胞數(shù)據(jù)的網(wǎng)絡(luò)建模中,另一個重要但不太突出的缺陷是缺少空間信息來約束建暮坛耍空間澎埠。目前許多高通量的單細(xì)胞測序方法缺乏保持單個細(xì)胞的空間身份的能力,這降低了準(zhǔn)確解析細(xì)胞網(wǎng)絡(luò)的能力盖袭,特別是在開發(fā)階段失暂。各種高通量熒光原位雜交(FISH)方法已被開發(fā)為解決空間信息的工具。假設(shè)細(xì)胞間的距離越近鳄虱,就越有可能進(jìn)行通信弟塞,可以利用成對單細(xì)胞間的空間距離作為建立更復(fù)雜、更準(zhǔn)確的網(wǎng)絡(luò)模型的先驗(yàn)拙已。最近發(fā)現(xiàn)决记,產(chǎn)生配體的細(xì)胞與表達(dá)相應(yīng)受體的靶細(xì)胞直接相鄰,這一假設(shè)得到了支持倍踪∠倒基于單分子魚的方法的另一個關(guān)鍵優(yōu)勢是索昂,它們是非常定量的,并且不會出現(xiàn)中斷扩借,而這種中斷會困擾基于高通量單細(xì)胞測序方法椒惨。在空間單細(xì)胞方法中,也可以將表型(即行為)與細(xì)胞激活(即cFos)結(jié)合潮罪,在假設(shè)特定表型或刺激中活躍的細(xì)胞更有可能進(jìn)行交流的前提下康谆,整合到模型中。此前嫉到,Moffitt等人曾使用這種方法來識別在養(yǎng)育過程中激活的神經(jīng)元沃暗。因此,將單細(xì)胞測序方法與高通量單分子成像相結(jié)合何恶,在提高單細(xì)胞分辨率下的網(wǎng)絡(luò)建模方面具有巨大潛力孽锥。盡管有潛力,但使用空間數(shù)據(jù)構(gòu)建GRNs仍存在局限性和復(fù)雜性细层。首先惜辑,基于單分子fish方法的細(xì)胞分割是非平凡的,沒有它GRN的構(gòu)建是不可能的今艺。此外韵丑,單個圖像承載有限的動態(tài)細(xì)胞景觀表示。事實(shí)上虚缎,許多這些技術(shù)只能實(shí)現(xiàn)單個細(xì)胞的成像深度撵彻,因此它本質(zhì)上是一個給定時間的二維快照,可能無法捕捉到在成像平面和時間框架之外的細(xì)胞動態(tài)实牡。
目前陌僵,大多數(shù)方法都是為scRNAseq設(shè)計的,需要結(jié)合其他單細(xì)胞組學(xué)指標(biāo)(遺傳创坞、表觀遺傳和蛋白質(zhì))的方法碗短。這與大組織GRN推斷所面臨的挑戰(zhàn)相同,而多組學(xué)集成和建模的最新進(jìn)展可能為單細(xì)胞多組學(xué)建模提供指導(dǎo)题涨。
最后偎谁,從經(jīng)驗(yàn)數(shù)據(jù)中預(yù)測的網(wǎng)絡(luò)的準(zhǔn)確性很難評估,因?yàn)橥ㄟ^在體內(nèi)單個細(xì)胞中干擾預(yù)測的調(diào)節(jié)因子進(jìn)行高通量驗(yàn)證比進(jìn)行全身敲除或敲除更具挑戰(zhàn)性纲堵。值得肯定的是巡雨,新的高通量基因干擾技術(shù),如Perturb-seq 與scRNAseq的結(jié)合席函,有可能深入了解基因和細(xì)胞之間的真正關(guān)系铐望。來自這些平臺的數(shù)據(jù)可以作為更合適的基準(zhǔn)數(shù)據(jù)集,通過測試每種方法檢索擾動-響應(yīng)實(shí)驗(yàn)中已知的真實(shí)調(diào)節(jié)關(guān)系或交互關(guān)系的效果,來評估現(xiàn)有網(wǎng)絡(luò)方法的預(yù)測正蛙。同樣督弓,利用文獻(xiàn)中已知的、經(jīng)過實(shí)驗(yàn)驗(yàn)證的基因-基因乒验、細(xì)胞-細(xì)胞通路可以作為這些方法的基準(zhǔn)愚隧。即使在沒有經(jīng)過驗(yàn)證的網(wǎng)絡(luò)連接的情況下,也可以采用基于社區(qū)的方法徊件,通過結(jié)合多種方法推斷出的多個網(wǎng)絡(luò)來獲得一致的網(wǎng)絡(luò)奸攻,從而提高網(wǎng)絡(luò)性能。這種方法已經(jīng)被證明對提高預(yù)測網(wǎng)絡(luò)的質(zhì)量非常有價值虱痕。
總而言之,我們正在進(jìn)入一個黃金時代辐赞,在這個時代部翘,生物發(fā)現(xiàn)可以以前所未有的分辨率和通量進(jìn)行。單細(xì)胞多組學(xué)數(shù)據(jù)的網(wǎng)絡(luò)建模是解開病理生理學(xué)背后復(fù)雜的分子機(jī)制和指導(dǎo)精準(zhǔn)醫(yī)療的關(guān)鍵工具之一响委。盡管面臨諸多挑戰(zhàn)新思,但該領(lǐng)域正在迅速發(fā)展,方法創(chuàng)新的大量機(jī)會等待著更準(zhǔn)確地描繪健康和疾病細(xì)胞的分子圖譜赘风。
<單細(xì)胞時代 · 2021春節(jié)系列> 是參考學(xué)術(shù)或媒體文章整理而來夹囚,個人水平有限,錯訛難免邀窃,還請讀者諸君批評指正荸哟。內(nèi)容均為個人觀點(diǎn),不代表任何單位瞬捕,也不構(gòu)成就業(yè)或投資建議鞍历,圖片來自網(wǎng)絡(luò),侵刪肪虎。