hello,大家好,今天我們要分享一個(gè)很難的數(shù)學(xué)理論,大家在用單細(xì)胞做velocyto的時(shí)候,如果用到的是scvelo寒波,那么會有三種模式,列舉如下:
(1)穩(wěn)態(tài)/確定性模型
velocyto 中使用穩(wěn)態(tài)/確定性模型對RNA 速率進(jìn)行估計(jì)急迂。在假定轉(zhuǎn)錄階段(誘導(dǎo)和抑制) 持續(xù)足夠長的時(shí)間以達(dá)到穩(wěn)態(tài)平衡的情況下影所,速率被量化為實(shí)際觀測值如何偏離穩(wěn)態(tài)平衡。平衡mRNA 水平近似于在假定的上下分位數(shù)的穩(wěn)定狀態(tài)下的線性回歸僚碎。這種簡化是通過假設(shè)一個(gè)跨基因的通用剪接率和數(shù)據(jù)中反映的穩(wěn)態(tài)mRNA 水平來實(shí)現(xiàn)的猴娩。基于這些假設(shè),可能導(dǎo)致速率估計(jì)和細(xì)胞狀態(tài)的錯(cuò)誤勺阐,特別是當(dāng)一個(gè)種群包含多個(gè)異質(zhì)亞種群動態(tài)時(shí)卷中。
(2)隨機(jī)模型
隨機(jī)模型的目標(biāo)是更好地捕捉穩(wěn)態(tài),但與穩(wěn)態(tài)模型的假設(shè)相同渊抽。它是通過處理轉(zhuǎn)錄蟆豫,剪接和降解作為概率事件,從而納入二階矩懒闷。也就是說十减,穩(wěn)態(tài)水平不僅與mRNA 水平近似栈幸,而且與內(nèi)在表達(dá)變異性近似。
(3)動態(tài)模型
動態(tài)模型(最強(qiáng)大帮辟,但計(jì)算量最大) 解決了每個(gè)基因的剪接動力學(xué)的全部動態(tài)速址。因此,它使RNA 速率適應(yīng)廣泛變化的規(guī)格由驹,如非平穩(wěn)群體芍锚,因?yàn)樗灰蕾囉谙拗埔粋€(gè)共同的剪接率或待抽樣的穩(wěn)態(tài)。通過迭代估計(jì)反應(yīng)速率和潛在細(xì)胞特異性變量的可識別參數(shù)蔓榄,即轉(zhuǎn)錄狀態(tài)和細(xì)胞內(nèi)潛伏時(shí)間并炮,在基于概率的期望最大化框架中求解剪接動力學(xué)。該模型能夠進(jìn)一步以一種基于概率的方式系統(tǒng)地識別動態(tài)驅(qū)動基因甥郑,從而找到控制細(xì)胞命運(yùn)轉(zhuǎn)變的關(guān)鍵驅(qū)動因素逃魄。此外,動態(tài)模型推斷了一個(gè)普遍的細(xì)胞內(nèi)潛伏時(shí)間共享的基因澜搅,能夠?qū)⑾嚓P(guān)基因和識別轉(zhuǎn)錄變化的機(jī)制聯(lián)系起來嗅钻。
其實(shí)大家應(yīng)該都明白,發(fā)育本身就是動態(tài)的過程店展,推薦大家使用動態(tài)模式,這一篇我們就來分享速率動態(tài)模型的理論依據(jù)秃流,參考文獻(xiàn)在Generalizing RNA velocity to transient cell states through dynamical modeling 赂蕴,2020年發(fā)表于nature biotechnology,IF55分舶胀,這個(gè)相較于之前18年的Nature文章提出的RNA速率的概念的基礎(chǔ)上概说,并對之前的數(shù)學(xué)模型做了進(jìn)一步優(yōu)化,在這篇文章中提出了更全面更準(zhǔn)確的模型和方法嚣伐。而我們今天就來分享這個(gè)數(shù)學(xué)理論糖赔。
Abstract
RNA Velocyto開辟了研究單細(xì)胞 RNA 測序數(shù)據(jù)中細(xì)胞分化的新方法。它根據(jù)其剪接和未剪接的信使 RNA (mRNA) 的比率描述了單個(gè)基因在給定時(shí)間點(diǎn)的基因表達(dá)變化率轩端。然而放典,如果違反了共同剪接率的中心假設(shè)和對具有穩(wěn)態(tài) mRNA 水平的完整剪接動力學(xué)的觀察,則會出現(xiàn)velocyto估計(jì)的錯(cuò)誤基茵。在這里奋构,開發(fā)介紹了 scVelo,這是一種通過使用基于似然的動力學(xué)模型解決剪接動力學(xué)的完整轉(zhuǎn)錄動力學(xué)來克服這些限制的方法拱层。這將 RNA velocyto推廣到具有瞬態(tài)細(xì)胞狀態(tài)的系統(tǒng)弥臼,這在發(fā)育和對擾動的響應(yīng)中很常見。分析將 scVelo 應(yīng)用于解開神經(jīng)發(fā)生和胰腺內(nèi)分泌發(fā)生中的subset動力學(xué)根灯。推斷基因特異性的轉(zhuǎn)錄径缅、剪接和降解速率掺栅,恢復(fù)每個(gè)細(xì)胞在潛在分化過程中的位置并檢測推定的驅(qū)動基因。 scVelo 將促進(jìn)譜系決定和基因調(diào)控的研究纳猪。
Introduction
單細(xì)胞轉(zhuǎn)錄組學(xué)能夠以單細(xì)胞分辨率對生物過程進(jìn)行unbiased的研究氧卧,例如細(xì)胞分化和lineage choice。由此產(chǎn)生的計(jì)算問題稱為trajectory inference兆旬。從處于發(fā)育過程不同階段的細(xì)胞群開始假抄,軌跡推斷算法旨在重建導(dǎo)致潛在細(xì)胞命運(yùn)的轉(zhuǎn)錄變化的developmental sequence。目前已經(jīng)開發(fā)了多種此類方法丽猬,通常將動力學(xué)建模為細(xì)胞沿著理想化的宿饱、潛在的分支軌跡的進(jìn)展。軌跡推斷的一個(gè)核心挑戰(zhàn)是單細(xì)胞 RNA 測序 (scRNA-seq) 的破壞性脚祟,它只能揭示細(xì)胞狀態(tài)的靜態(tài)快照谬以。為了從描述性軌跡模型轉(zhuǎn)向預(yù)測性軌跡模型,需要額外的信息來限制可能產(chǎn)生相同軌跡的可能動態(tài)空間由桌。因此为黎,lineage-tracing assays可以通過基因改造添加信息,以重建譜系關(guān)系行您。然而铭乾,這些檢測方法設(shè)置起來并不簡單,并且在許多系統(tǒng)(例如人體組織)中受到技術(shù)限制娃循。
RNA velocyto的概念通過利用新轉(zhuǎn)錄的炕檩、未剪接的前 mRNA 和成熟的剪接 mRNA 可以在常見的 scRNA-seq protocol中區(qū)分的事實(shí),使定向動態(tài)信息的恢復(fù)成為可能捌斧,前者可通過內(nèi)含子的存在檢測笛质。假設(shè)一個(gè)簡單的每個(gè)基因反應(yīng)模型將未剪接和剪接 mRNA 的豐度聯(lián)系起來,可以推斷出 mRNA 豐度的變化捞蚂,稱為 RNA velocyto妇押。正 RNA velocyto表明基因被上調(diào),這種情況發(fā)生在該基因的未剪接 mRNA 豐度高于預(yù)期的穩(wěn)定狀態(tài)的細(xì)胞中姓迅。相反敲霍,負(fù)velocyto表明基因被下調(diào)。然后可以使用跨基因的velocyto組合來估計(jì)單個(gè)細(xì)胞的未來狀態(tài)队贱。原始模型在假設(shè)基因表達(dá)的誘導(dǎo)和抑制的轉(zhuǎn)錄階段持續(xù)足夠長的時(shí)間以達(dá)到活躍轉(zhuǎn)錄和非活躍沉默穩(wěn)態(tài)平衡的情況下估計(jì)velocyto色冀。在推斷處于恒定轉(zhuǎn)錄穩(wěn)態(tài)的未剪接與剪接 mRNA 豐度的比率后,velocyto被確定為觀察到的比率與其穩(wěn)態(tài)比率的偏差柱嫌。推斷穩(wěn)態(tài)比率有兩個(gè)基本假設(shè)锋恬,即 (1) 在基因水平上,捕獲了具有轉(zhuǎn)錄誘導(dǎo)编丘、抑制和穩(wěn)態(tài) mRNA 水平的完整剪接動態(tài)与学; (2) 在細(xì)胞水平上彤悔,所有基因共享一個(gè)共同的剪接率。這些假設(shè)經(jīng)常violated索守,特別是當(dāng)一個(gè)群體包含多個(gè)具有不同動力學(xué)的異質(zhì)亞群時(shí)晕窑。將這種建模方法稱為“穩(wěn)態(tài)模型”。
為了解決上述限制卵佛,作者開發(fā)了 scVelo杨赤,這是一種基于可能性的動力學(xué)模型,可以解決完整的基因轉(zhuǎn)錄動力學(xué)問題截汪。 因此疾牲,它將 RNA velocyto估計(jì)推廣到瞬態(tài)系統(tǒng)和具有異質(zhì)亞群動力學(xué)的系統(tǒng)。 在有效的期望最大化 (EM) 框架中推斷轉(zhuǎn)錄衙解、剪接和降解的基因特異性反應(yīng)速率以及潛在的基因共享潛伏時(shí)間阳柔。 推斷的潛伏時(shí)間代表細(xì)胞的internal clock,它準(zhǔn)確地描述了細(xì)胞在潛在生物過程中的位置蚓峦。 與現(xiàn)有的基于相似性的偽時(shí)間方法相比舌剂,這種潛在時(shí)間僅基于轉(zhuǎn)錄動力學(xué),并考慮了運(yùn)動的速度和方向暑椰。
示例展示了動力學(xué)模型對海馬齒狀回神經(jīng)發(fā)生和胰腺內(nèi)分泌發(fā)生中各種細(xì)胞譜系的能力霍转。與穩(wěn)態(tài)模型相比,動態(tài)模型通常會在相鄰細(xì)胞之間產(chǎn)生更一致的速度估計(jì)一汽,并準(zhǔn)確識別轉(zhuǎn)錄狀態(tài)谴忧。它提供了對循環(huán)胰腺內(nèi)分泌前體細(xì)胞的細(xì)胞狀態(tài)的fine-grained見解,包括它們的譜系定型角虫、細(xì)胞周期退出以及最終的內(nèi)分泌細(xì)胞分化。在這里委造,分析推斷的潛伏時(shí)間能夠重建轉(zhuǎn)錄組事件和細(xì)胞命運(yùn)的時(shí)間序列戳鹅。此外,scVelo 確定了調(diào)節(jié)變化的機(jī)制昏兆,例如過渡狀態(tài)和細(xì)胞命運(yùn)承諾的階段枫虏。在這里,scVelo 確定了這些轉(zhuǎn)錄變化的假定驅(qū)動基因爬虱。驅(qū)動基因顯示出明顯的動態(tài)行為隶债,并通過動態(tài)模型中的高可能性特征系統(tǒng)地檢測到。此過程提出了標(biāo)準(zhǔn)差異表達(dá)范式的基于動力學(xué)的替代方案跑筝。
最后死讹,建議進(jìn)一步解釋基因表達(dá)的隨機(jī)性,通過將轉(zhuǎn)錄曲梗、剪接和降解視為概率事件而獲得赞警。 分析展示了如何為穩(wěn)態(tài)模型實(shí)現(xiàn)這一點(diǎn)妓忍,并展示其在很大程度上捕獲從完整動力學(xué)模型推斷出的方向性的能力。 軟件scVelo對穩(wěn)態(tài)模型的顯著改進(jìn)愧旦,同時(shí)在計(jì)算時(shí)間上同樣有效世剖。 動態(tài)、隨機(jī)和穩(wěn)態(tài)模型在 scVelo 中可用作強(qiáng)大且可擴(kuò)展的實(shí)現(xiàn) (https://scvelo.org)笤虫。
Results
Solving the full gene-wise transcription dynamics at single-cell resolution.
與original framework一樣旁瘫,使用以下描述的基本反應(yīng)動力學(xué)模擬轉(zhuǎn)錄動力學(xué)(導(dǎo)數(shù)和偏導(dǎo)數(shù)不知道大家還知道多少)
- 注:Modeling transcriptional dynamics captures transcriptional induction and repression (‘on’ and ‘off’ phase) of unspliced pre-mRNAs, their conversion into mature, spliced mRNAs and their eventual degradation.
對于每個(gè)基因,獨(dú)立于所有其他基因琼蚯。 與original framework相反酬凳,為了解釋未觀察到的穩(wěn)態(tài),這里明確地求解這些方程并推斷出由兩組參數(shù)控制的剪接動力學(xué):(1) 轉(zhuǎn)錄反應(yīng)速率 ()凌停,剪接 和degradation 粱年; (2) 細(xì)胞特異性潛在變量——即離散的轉(zhuǎn)錄狀態(tài) 和連續(xù)的時(shí)間 ,其中 代表單個(gè)觀察到的細(xì)胞罚拟。
- 注:An actively transcribed and an inactive silenced steady state is reached when the transcriptional phases of induction and repression last sufficiently long, respectively. In particular in transient cell populations, however, steady states are often not reached as, for example, induction might terminate before mRNA-level saturation, displaying an ‘early switching’ behavior.
如果給定潛在變量台诗,則可以獲得反應(yīng)速率的參數(shù),反之亦然赐俗。因此拉队,通過 EM 推斷參數(shù),通過最大似然迭代估計(jì)反應(yīng)速率和潛在變量阻逮。 In the expectation step, for a given model estimate of the unspliced/spliced phase trajectory,
- 注:, We propose scVelo, a likelihood-based model that solves the full gene-wise transcriptional dynamics of splicing kinetics, which is governed by two sets of parameters: (1) reaction rates of transcription, splicing and degradation, and (2) cell-specific latent variables of transcriptional state and time. The parameters are inferred iteratively via EM. For a given estimate of reaction rate parameters, time points are assigned to each cell by minimizing its distance to the current phase trajectory. The transcriptional states are assigned by associating a likelihood to respective segments on the trajectory—that is, induction, repression and active and inactive steady state. , The overall likelihood is then optimized by updating the model parameters of reaction rates. The dashed purple line links the inferred (unobserved) inactive with the active steady state.
由此產(chǎn)生的基因特異性軌跡 χ粱快,由反應(yīng)速率和轉(zhuǎn)錄狀態(tài)的可解釋參數(shù)參數(shù)化,明確描述了 mRNA 水平如何隨潛伏時(shí)間演變叔扼。 而穩(wěn)態(tài)模型使用線性回歸來擬合假設(shè)的穩(wěn)態(tài)事哭,如果沒有觀察到這些就會失敗,而動力學(xué)模型解決了未剪接和剪接 mRNA 豐度的完整動態(tài)瓜富,從而使未觀察到的穩(wěn)態(tài)也能被忠實(shí)地捕獲鳍咱。 然后,RNA 速度由剪接 mRNA 豐度的導(dǎo)數(shù)明確給出与柑,由推斷變量參數(shù)化谤辜。
為了使反應(yīng)速率的推斷參數(shù)與基因相關(guān),基因潛伏時(shí)間與代表細(xì)胞internal clock的通用基因共享潛伏時(shí)間相耦合
這個(gè)universal time使我們能夠在所有基因剪接動力學(xué)的支持下解析細(xì)胞在生物過程中的相對位置价捧。 此外丑念,通過在基因之間共享信息,可以更自信地識別轉(zhuǎn)錄狀態(tài)结蟋。 在模擬剪接動力學(xué)上脯倚,潛在時(shí)間能夠以近乎完美的相關(guān)性和正確的尺度重建潛在的實(shí)時(shí)時(shí)間,明顯優(yōu)于擴(kuò)散偽時(shí)間嵌屎。 與偽時(shí)間方法相反挠将,潛在時(shí)間基于轉(zhuǎn)錄動力學(xué)胳岂,并在內(nèi)部解釋運(yùn)動的速度和方向。 因此舔稀,scVelo 的潛伏時(shí)間產(chǎn)生忠實(shí)的基因表達(dá)時(shí)間過程乳丰,以描繪動態(tài)過程并提取基因級聯(lián)。
此外内贮,與普遍潛伏時(shí)間的耦合使我們能夠確定高達(dá)global基因共享尺度參數(shù)的動力學(xué)速率产园。 使用發(fā)育過程的整體時(shí)間尺度作為先驗(yàn)信息,最終可以確定動力學(xué)速率的絕對值.
Identifying reaction rates in transient cell populations.
為了驗(yàn)證這兩種模型對模擬剪接動力學(xué)中不同參數(shù)的敏感性夜郁,按照泊松定律為每個(gè)反應(yīng)速率和時(shí)間事件隨機(jī)采樣了 2,000 個(gè)對數(shù)正態(tài)分布參數(shù)什燕。 處于轉(zhuǎn)錄狀態(tài)的總時(shí)間在 2 到 10 小時(shí)之間變化。
隨著transcriptional induction時(shí)間的減少竞端,由穩(wěn)態(tài)模型推斷的比率會產(chǎn)生系統(tǒng)誤差屎即,因此 mRNA 水平不太可能達(dá)到穩(wěn)態(tài)平衡水平。 相比之下事富,動力學(xué)模型產(chǎn)生的誤差始終較小技俐,并且對induction duration的可變性完全不敏感。 此外统台,當(dāng)使用動力學(xué)模型時(shí)雕擂,真實(shí)和推斷穩(wěn)態(tài)比率之間的 Pearson 相關(guān)性從 0.71 增加到 0.97。 將 20 小時(shí)拼接動力學(xué)的整體時(shí)間尺度作為先驗(yàn)信息贱勃,動力學(xué)模型可靠地恢復(fù)了模擬拼接動力學(xué)的真實(shí)參數(shù)井赌,實(shí)現(xiàn)了 0.85 及更高的相關(guān)性
Resolving the heterogeneous population kinetics in dentate gyrus development.
為了測試 scVelo 的速度估計(jì)是否允許識別更復(fù)雜的種群動力學(xué),分析考慮了來自發(fā)育中的小鼠齒狀回的 scRNA-seq 實(shí)驗(yàn)贵扰,該實(shí)驗(yàn)包括兩個(gè)時(shí)間點(diǎn)(P12 和 P35)仇穗,使用基于液滴的 scRNA-seq(10x Genomics Chromium Single 細(xì)胞試劑盒 V1)。 最初的出版物旨在闡明發(fā)育和成人齒狀回神經(jīng)發(fā)生之間的關(guān)系戚绕。 盡管他們將瞬時(shí)中間狀態(tài)與成神經(jīng)細(xì)胞階段和成熟顆粒細(xì)胞聯(lián)系起來仪缸,但無法最終確定放射狀膠質(zhì)細(xì)胞樣細(xì)胞的定型。
在基本預(yù)處理之后列肢,應(yīng)用穩(wěn)態(tài)模型和動力學(xué)模型,并在基于統(tǒng)一流形近似和投影 (UMAP) 的數(shù)據(jù)嵌入中使用流線圖顯示矢量場
- 注:Velocities derived from the dynamical model for dentate gyrus neurogenesis19 are projected into a UMAP-based embedding. The main gene-averaged flow visualized by velocity streamlines corresponds to the granule lineage, in which neuroblasts develop into granule cells. The remaining populations form distinct cell types that are either differentiated, for example CR cells, or cell types that form sublineages, for example the GABA and oligodendrocyte lineages (OPC to OL). When zooming into the cell types to examine single-cell velocities, fundamental differences between the velocities derived from the steady-state and dynamical model become apparent. Only the dynamical model identifies CR cells to be terminal by assigning no velocity and indicates that OPCs indeed differentiate into OLs. By contrast, the steady-state model displays a high velocity in CR cells and points OPCs away from OLs. Overall, the dynamical model yields a more coherent velocity vector field as illustrated by the consistency scores (in the top-right corner, defined for each cell as the correlation of its velocity with the velocities of neighboring cells).
主要結(jié)構(gòu)是顆粒細(xì)胞譜系宾茂,其中成神經(jīng)細(xì)胞發(fā)育成顆粒細(xì)胞瓷马。 同時(shí),剩余的群體形成完全分化的不同細(xì)胞類型(例如跨晴,Cajal-Retzius (CR) 細(xì)胞)或形成亞系的細(xì)胞類型(例如欧聘,GABA 細(xì)胞)。 兩個(gè)實(shí)驗(yàn)時(shí)間點(diǎn)和實(shí)驗(yàn)分析表明細(xì)胞類型是仍在過渡中還是已經(jīng)結(jié)束端盆,兩者都支持整體速度推斷的方向性怀骤。 值得注意的是费封,來自兩種模型的速度解決了先前關(guān)于徑向膠質(zhì)細(xì)胞樣細(xì)胞的命運(yùn)選擇有利于星形膠質(zhì)細(xì)胞而不是神經(jīng)源性中間祖細(xì)胞的模棱兩可的證據(jù)。
雖然兩種模型都捕獲了成熟顆粒細(xì)胞的主要譜系蒋伦,但單細(xì)胞velocyto說明了亞譜系和subcluster的顯著差異弓摘。因此,只有 scVelo 才能正確識別分化為髓鞘少突膠質(zhì)細(xì)胞 (OL) 和 CR 細(xì)胞的少突膠質(zhì)細(xì)胞前體細(xì)胞 (OPC) 作為終端痕届。穩(wěn)態(tài)模型錯(cuò)誤地將high velocities分配給 CR 細(xì)胞韧献,這可以追溯到基因解析velocyto。使用 研叫,穩(wěn)態(tài)模型中不協(xié)調(diào)的 CR 速度變得明顯锤窑。剪接動態(tài),特別是 很好地說明嚷炉,清楚地表明 CR 群體是終端渊啰。此外,表達(dá)模式?jīng)]有顯示 CR 群體內(nèi)任何進(jìn)一步成熟的證據(jù)申屹。然而绘证,由于穩(wěn)態(tài)模型將速度確定為與針對整個(gè)群體計(jì)算的穩(wěn)態(tài)的偏差,因此該模型傾向于將高速分配給離群細(xì)胞独柑,例如 CR 群體迈窟。動力學(xué)模型將 CR 細(xì)胞分配到穩(wěn)定狀態(tài)的可能性很高,因?yàn)樗荒艽_信地與任何瞬態(tài)相關(guān)聯(lián)忌栅。
- 注:Gene-resolved velocities allow further interpreting the inferred directionality on the cellular level. For instance, Tmsb10 is the major contributor to the gene-averaged flow that describes neuroblasts as differentiating into granule cells. With Fam155a, the incongruous CR velocities from the steady-state model become evident. By reducing velocity estimation to steady-state deviations, this model is biased to assign high velocities to outlier cells, such as the CR population. In contrast, the dynamical model assigns CR cells to a steady state with high likelihoods, as they are not well explained by the overall kinetics and cannot be confidently linked to the transient induction state.
是推斷動態(tài)的主要貢獻(xiàn)者车酣,并說明了另一個(gè)根本區(qū)別。 從動力學(xué)模型導(dǎo)出的速度在相鄰細(xì)胞的velocyto之間比從穩(wěn)態(tài)模型導(dǎo)出的速度更一致索绪,這導(dǎo)致速度矢量場的整體相干性更高.
穩(wěn)態(tài)模型和動力學(xué)模型都在成熟的顆粒細(xì)胞隔室中產(chǎn)生額外的動態(tài)流動湖员,預(yù)計(jì)這是最終的,可能值得進(jìn)行實(shí)驗(yàn)跟進(jìn)瑞驱。 進(jìn)一步值得注意的是娘摔,即使mossy細(xì)胞位于神經(jīng)母細(xì)胞旁邊,但速度推斷的細(xì)胞間轉(zhuǎn)換概率并未顯示兩個(gè)種群之間的任何可能的轉(zhuǎn)換唤反,因此表明mossy細(xì)胞形成了自己的譜系凳寺。
Determining dynamical genes beyond differential expression testing.
scVelo 計(jì)算每個(gè)基因和細(xì)胞在模型最佳潛伏時(shí)間和轉(zhuǎn)錄狀態(tài)下的可能性,解釋了學(xué)習(xí)的拼接/未拼接相位軌跡對細(xì)胞的描述程度彤侍。 聚合細(xì)胞以獲得整體基因可能性肠缨,根據(jù)基因的擬合優(yōu)度對基因進(jìn)行排名。 能夠識別表現(xiàn)出明顯動態(tài)行為的基因盏阶,這使它們成為種群中主要過程的重要驅(qū)動因素的候選者
- 注:The dynamical model allows to systematically identify putative driver genes as genes characterized by high likelihoods. Whereas genes selected by high likelihoods (upper row) display pronounced dynamic behavior, expression of low-likelihood genes (lower row) is governed by noise or nonexisting transient states. nIPC, neurogenic intermediate progenitor cell.
排名最高的基因顯示出剪接動力學(xué)的明確指示晒奕,而排名低的基因的表達(dá)受噪聲或不存在的瞬態(tài)控制。此外,部分基因可能性——即為細(xì)胞subset計(jì)算的可能性——能夠識別特定過渡階段脑慧、分支區(qū)域魄眉、特定細(xì)胞類型或循環(huán)subcluster的潛在驅(qū)動因素。據(jù)報(bào)道闷袒,許多排名靠前的基因在神經(jīng)發(fā)生中發(fā)揮關(guān)鍵作用(例如 Grin2b坑律、Map1b 和 Dlg2),而其中一些基因與海馬回路中的 CA1 區(qū)域相連(例如霜运,Tmsb10 和 Hn1 )脾歇。 Ppp3ca 是可能性最高的基因,主要對速度矢量場有貢獻(xiàn)淘捡,它被提升到顆粒細(xì)胞藕各。通過將 Ppp3ca 活性的降低與阿爾茨海默病中的 tau 蛋白病變聯(lián)系起來褥紫,已經(jīng)證明了它的重要作用来破。通過表明排除最高似然排名的基因會導(dǎo)致動力學(xué)的不可重構(gòu)性矫限,我們在計(jì)算上表明推斷的方向性主要受這些驅(qū)動基因控制坛善。
Delineating cycling progenitors, commitment and fate transitions in endocrinogenesis.
接下來绍豁,展示了 scVelo 描繪小鼠胰腺內(nèi)分泌發(fā)育瞬態(tài)譜系的能力阔馋,以及從 E15.5 采樣的轉(zhuǎn)錄組譜擎椰。 內(nèi)分泌細(xì)胞來源于位于胰腺上皮細(xì)胞的內(nèi)分泌祖細(xì)胞膨桥,以轉(zhuǎn)錄因子 Ngn3 的瞬時(shí)表達(dá)為標(biāo)志创葡。 內(nèi)分泌承諾在四種主要命運(yùn)中終止:glucagon-producing α-cells, insulin-producing β-cells, somatostatin-producing δ-cells and ghrelin-producing ∈-cells浙踢。盡管在之前的工作中 RNA velocyto闡明了內(nèi)分泌譜系中的定向流動,但無法清楚地描繪內(nèi)分泌命運(yùn)灿渴,并且出現(xiàn)了不協(xié)調(diào)的subpopulation流動洛波。
與穩(wěn)態(tài)模型相比,我們展示了從動態(tài)模型中獲得的對發(fā)展過程的額外細(xì)粒度見解骚露。 首先蹬挤,scVelo 準(zhǔn)確描繪了導(dǎo)管細(xì)胞和內(nèi)分泌祖細(xì)胞的循環(huán)群體,通過細(xì)胞周期評分(相位標(biāo)記基因平均表達(dá)水平的標(biāo)準(zhǔn)化評分)和先前的分析在生物學(xué)上得到證實(shí)
- 注:Velocities derived from the dynamical model for pancreatic endocrinogenesis are visualized as streamlines in a UMAP-based embedding. The dynamical model accurately delineates the cycling population of endocrine progenitors, their lineage commitment, cell cycle exit and endocrine differentiation. Inferred S and G2M phases based on cell cycle scores affirms the cell cycle identified by the dynamical model棘幸。
此外焰扳,scVelo 闡明了譜系定型、細(xì)胞周期退出和內(nèi)分泌細(xì)胞分化的細(xì)胞狀態(tài)误续。 相比之下吨悍,穩(wěn)態(tài)模型不捕獲細(xì)胞周期,并在后期內(nèi)分泌階段產(chǎn)生不協(xié)調(diào)的回流蹋嵌。例如育瓜,錯(cuò)誤地似乎在去分化的 α 細(xì)胞可以追溯到錯(cuò)誤的狀態(tài)識別——例如,在 Cpe 中將部分 α 細(xì)胞分配到誘導(dǎo)和抑制階段
- 注:b,The steady-state model does not capture the cycle and yields incongruous backflows directed against the lineage in later endocrine stages. c, Single-gene velocities illustrate the limitations of the steady-state model. Incongruous backflows in α-cells can be traced back to false state identifications—for example, in Cpe it assigns α-cells in parts to both induction and repression phases.
最近的幾項(xiàng)研究報(bào)告了 scVelo 推斷的動態(tài)欣尼,這些研究闡明了沿譜系階段的時(shí)間分辨程序。 例如,譜系追蹤分析顯示內(nèi)分泌細(xì)胞是通過 Fev+ 內(nèi)分泌細(xì)胞的中間階段從 Ngn3+ 前體衍生而來的愕鼓。
Relating cell fates and disentangling dynamical regimes through latent time.
分析推斷出一個(gè)代表細(xì)胞internal clock的通用基因共享潛伏時(shí)間钙态。 與基于相似性的擴(kuò)散偽時(shí)間相比,這種潛在時(shí)間是對實(shí)時(shí)的更忠實(shí)的重建
比較了內(nèi)分泌細(xì)胞命運(yùn)chronology中的偽時(shí)間和潛伏時(shí)間菇晃。 實(shí)時(shí)地册倒,α 細(xì)胞比 β 細(xì)胞(E12.5-E15.5)更早(在 E12.5 之前)產(chǎn)生。 此排序由潛在時(shí)間而非偽時(shí)間捕獲磺送。
此外驻子,推斷出的 α 細(xì)胞velocyto低于 β 細(xì)胞中的強(qiáng)定向流動,這再次表明 α 細(xì)胞已經(jīng)在較早階段產(chǎn)生估灿。 此外崇呵,推斷的基因特異性轉(zhuǎn)換時(shí)間點(diǎn)表明轉(zhuǎn)錄變化區(qū)域。 從一種轉(zhuǎn)錄狀態(tài)轉(zhuǎn)變?yōu)榱硪环N轉(zhuǎn)錄狀態(tài)的已識別基因的數(shù)量——例如馅袁,從誘導(dǎo)到抑制——產(chǎn)生了lineage commitment域慷、過渡狀態(tài)和分支點(diǎn)的區(qū)域。
在這些區(qū)域內(nèi)汗销,推定的驅(qū)動基因可以通過它們的可能性來識別犹褒,其中排名靠前的基因與hormone processing(例如,Cpe 和 Pcsk2)和分泌(Abcc8)相關(guān)弛针。 它們的轉(zhuǎn)錄活性通過沿潛伏時(shí)間解析的基因表達(dá)動態(tài)顯示叠骑。
Extending the model to account for stochasticity in gene expression.
基因表達(dá)的部分隨機(jī)性已通過系統(tǒng)生物學(xué)中的各種建模方法得到解決。 scVelo 基于似然的方法的靈活性能夠擴(kuò)展確定性常微分方程 (ODE) 模型削茁,通過將轉(zhuǎn)錄宙枷、剪接和降解視為概率事件來解釋隨機(jī)性。為簡單起見付材,演示了如何在穩(wěn)態(tài)模型中實(shí)現(xiàn)這一點(diǎn)朦拖。由此產(chǎn)生的馬爾可夫跳躍過程通常由矩方程近似,可以在所考慮的線性 ODE 系統(tǒng)中以封閉形式求解厌衔。通過包括二階矩璧帝,我們不僅利用了未剪接與剪接 mRNA 水平的平衡,而且還利用了它們的協(xié)變富寿。隨機(jī)穩(wěn)態(tài)模型能夠比確定性穩(wěn)態(tài)模型更大程度地捕獲完整動力學(xué)模型的結(jié)果睬隶,這表明隨機(jī)性增加了有價(jià)值的信息。例如页徐,隨機(jī)模型解決了顆粒苏潜、星形膠質(zhì)細(xì)胞和 GABA 成熟的齒狀回中的亞譜系。在胰腺內(nèi)分泌發(fā)生中变勇,它能夠在很大程度上解決循環(huán)祖細(xì)胞和內(nèi)分泌譜系承諾恤左,但也像確定性模型一樣在 α 細(xì)胞中產(chǎn)生回流贴唇。總體而言飞袋,隨機(jī)模型顯示出比確定性模型更高的一致性戳气,同時(shí)在計(jì)算時(shí)間上保持同樣高效。隨機(jī)動力學(xué)模型的研究留待未來工作巧鸭。
Accounting for different kinetic regimes and insufficiently observed kinetics.
一個(gè)重要的問題是處理代表多個(gè)譜系和過程的系統(tǒng)瓶您,其中基因可能在亞群中顯示不同的動力學(xué)機(jī)制。 不同的細(xì)胞狀態(tài)和譜系通常由基因調(diào)控網(wǎng)絡(luò)中的不同變化控制纲仍,因此可能表現(xiàn)出不同的剪接動力學(xué)呀袱。 這產(chǎn)生了在相空間中顯示多個(gè)軌跡的基因。 為了解決這個(gè)問題郑叠,我們對微分動力學(xué)進(jìn)行似然比測試夜赵,以檢測顯示出不能由整體動力學(xué)的單一模型很好解釋的動力學(xué)行為的cluster。 將細(xì)胞類型聚類到它們不同的動力學(xué)機(jī)制中锻拘,然后我們就可以分別擬合每個(gè)機(jī)制油吭。
另一個(gè)困難涉及觀察不到的剪接動力學(xué)。例如署拟,可能在過程的最后只檢測到整體動態(tài)的一小部分婉宰。這在未拼接到拼接的相圖中表現(xiàn)為一條直線,而不是一條曲線推穷。以這種方式觀察局部動力學(xué)會導(dǎo)致穩(wěn)態(tài)和隨機(jī)模型錯(cuò)誤地?cái)M合這條線并錯(cuò)誤地分配正velocyto和負(fù)velocyto心包。在確定是否應(yīng)該適合上調(diào)或下調(diào)時(shí),缺乏觀察到的曲率也挑戰(zhàn)了動力學(xué)模型馒铃。這種模糊性可以在兩個(gè)應(yīng)用場景中觀察到蟹腾,其中只公開了一小部分動力學(xué):(1) 基因僅在觀察過程的一個(gè)小窗口中處于活動狀態(tài),或 (2) 數(shù)據(jù)中觀察到的時(shí)間范圍僅涵蓋底層動態(tài)過程的一小部分時(shí)間框架区宇。前一種情況發(fā)生在基因僅在發(fā)育過程的最后上調(diào)或在發(fā)育過程的最開始下調(diào)時(shí)娃殖。后一種情況可能發(fā)生在動態(tài)過程以快速或同步方式發(fā)生時(shí),這樣在 scRNA-seq 數(shù)據(jù)集中捕獲的快照幾乎不能恢復(fù)完整的動態(tài)议谷。在這里炉爆,樣本群體的整體發(fā)展時(shí)間尺度可能遠(yuǎn)短于動力學(xué)的潛在持續(xù)時(shí)間。分析通過使用“根先驗(yàn)”擴(kuò)展動態(tài)模型來解決這個(gè)問題卧晓。該先驗(yàn)既可以從具有足夠信息以揭示過程根源的基因內(nèi)部獲得芬首,也可以從先驗(yàn)知識中獲得,例如第一個(gè)實(shí)驗(yàn)時(shí)間點(diǎn)或已知的祖細(xì)胞群 逼裆。
為此郁稍,建議用戶不要將生物學(xué)結(jié)論限制在預(yù)測速度上,而是通過相圖檢查單個(gè)基因動態(tài)胜宇,以了解特定基因如何支持推斷的方向耀怜。 因此恢着,動態(tài)模型極大地促進(jìn)了尋找最相關(guān)的基因。 我們還鼓勵(lì)用戶挑戰(zhàn)基本假設(shè)财破,特別是測試差分動力學(xué)然评、未充分觀察的動力學(xué)和時(shí)間尺度不匹配。
Tenfold speedup for the steady-state model and large-scale applicability.
動態(tài)狈究、隨機(jī)和穩(wěn)態(tài)模型在 scVelo 中可用作強(qiáng)大且可擴(kuò)展的實(shí)現(xiàn) (https://scvelo.org)。 舉例來說盏求,在具有 25,919 個(gè)轉(zhuǎn)錄組譜的胰腺發(fā)育過程中抖锥,scVelo 運(yùn)行穩(wěn)態(tài)和隨機(jī)模型的完整管道,從預(yù)處理數(shù)據(jù)到速度估計(jì)碎罚,再到在不到 1 分鐘的時(shí)間內(nèi)將數(shù)據(jù)投影到任何嵌入中磅废。這是通過與 scanpy 集成的內(nèi)存高效、可擴(kuò)展和并行化的管道荆烈,通過利用高效的最近鄰搜索拯勉、分析封閉形式解決方案、稀疏實(shí)現(xiàn)和矢量化來獲得的憔购。因此宫峦,scVelo 管道比原始實(shí)現(xiàn)(velocy)實(shí)現(xiàn)了十倍以上的加速。完整的剪接動力學(xué)玫鸟,包括動力學(xué)速率參數(shù)导绷、潛伏時(shí)間和速度,是在 35,000 個(gè)profiles中的 1,000 個(gè)基因的 20 分鐘的更長但可行的運(yùn)行時(shí)間中推斷出來的屎飘。由于它隨著細(xì)胞和基因的數(shù)量在接近線性的時(shí)間內(nèi)擴(kuò)展妥曲,它的運(yùn)行時(shí)間被 velocy 的二次運(yùn)行時(shí)間超過了在 35,000 和更高的大細(xì)胞數(shù)量上。對于大量細(xì)胞钦购,內(nèi)存效率也成為一個(gè)關(guān)鍵方面檐盟。在具有 3.7 GHz 和 64 GB RAM 的 Intel Core i7 CPU 上,velocyto 無法處理超過 40,000 個(gè)細(xì)胞押桃,而 scVelo 可擴(kuò)展到超過 300,000 個(gè)細(xì)胞葵萎。值得注意的是,隨機(jī)穩(wěn)態(tài)模型以封閉形式求解并保持計(jì)算效率怨规。它用作效率和準(zhǔn)確性之間的權(quán)衡陌宿,建議在運(yùn)行時(shí)特別重要時(shí)使用。
Discussion
scVelo 無需假設(shè)存在穩(wěn)態(tài)或跨基因的共同剪接率即可估計(jì)velocyto波丰。它保持了恒定的基因特異性剪接和降解速率以及兩個(gè)分別用于誘導(dǎo)和抑制的轉(zhuǎn)錄速率的較弱假設(shè)壳坪。這些假設(shè)在實(shí)踐中可能會被違反,并且可以通過將 scVelo 擴(kuò)展到更復(fù)雜的法規(guī)來解決掰烟。在基因水平上爽蝴,全長 scRNA-seq protocol沐批,如 Smart-seq2,允許考慮基因結(jié)構(gòu)蝎亚、可變剪接和狀態(tài)相關(guān)的降解率九孩。這些可以通過調(diào)整 ODE 模型并入 scVelo 基于似然的推理中。特別是发框,轉(zhuǎn)錄組尺度的空間單細(xì)胞 RNA 分析可能提供有關(guān)解決基因調(diào)控空間依賴性所需的相對細(xì)胞位置的額外信息躺彬。空間坐標(biāo)和實(shí)驗(yàn)時(shí)間也可能被用作額外的約束來擴(kuò)展?jié)摲鼤r(shí)間的概念——例如,捕捉細(xì)胞周期的進(jìn)展梅惯∠苡担可以在穩(wěn)態(tài)之外利用隨機(jī)可變性,這被稱為“傾聽噪音”并被證明可以提高參數(shù)的可識別性铣减。已在穩(wěn)態(tài)公式中提出將動力學(xué)模型擴(kuò)展到蛋白質(zhì)翻譯她君,并且同樣可以包含在動力學(xué)模型中。代謝標(biāo)記葫哗,例如使用單細(xì)胞 SLAM-seq缔刹,可以量化總 RNA 水平以及新轉(zhuǎn)錄的 RNA。這種額外的reads可以很容易地包含在動態(tài)模型中劣针,將不同的標(biāo)記長度作為額外的先驗(yàn)校镐。進(jìn)一步的擴(kuò)展是將單基因動力學(xué)模型結(jié)合起來制定調(diào)節(jié)motifs,這可以通過利用最近的參數(shù)推理技術(shù)進(jìn)行可擴(kuò)展的估計(jì)和模型選擇來推斷捺典。在 scVelo 的下游灭翔,現(xiàn)有的軌跡推斷方法可以通過穩(wěn)健地整合速度以更好地模擬細(xì)胞命運(yùn)決策來擴(kuò)展到通知方向性。因此辣苏,has made a first suggestion for inferring directed abstracted representations of trajectories through RNA velocity肝箱。此外,scVelo 的潛在時(shí)間和速度可以與表達(dá)譜一起使用稀蟋,共同學(xué)習(xí)更好的潛在空間表示煌张。
除了軌跡的識別和單個(gè)基因的動力學(xué)之外,通路的動態(tài)激活也很重要退客。 通過將 scVelo 與富集技術(shù)相結(jié)合骏融,可以系統(tǒng)地推斷激活的通路,而不依賴于聚類和差異表達(dá)分析萌狂,類似于我們?nèi)绾巫C明動態(tài)調(diào)節(jié)基因的推斷档玻。 動態(tài)通路和轉(zhuǎn)錄因子的識別立即導(dǎo)致了對細(xì)胞狀態(tài)轉(zhuǎn)變的貢獻(xiàn)的可測試假設(shè)。 scVelo 適用于表征瞬態(tài)populations茫藏,使其成為研究細(xì)胞對擾動的反應(yīng)的有希望的候選者误趴,擾動通常表現(xiàn)出劇烈的轉(zhuǎn)換行為。 特別是务傲,scVelo 可以幫助從機(jī)制上理解最近對此類響應(yīng)建模的機(jī)器學(xué)習(xí)方法凉当,并指出將它們擴(kuò)展到結(jié)合剪接動力學(xué)的方法枣申。
In the meantime, scVelo is continuously advanced by the community, bringing efficiency enhancements to the RNA velocity workflow. It has, for instance, contributed to the detailed study of dynamic processes in human lung regeneration and is expected to facilitate the study of lineage decisions and gene regulation, particularly in humans.
Method
示例代碼的話大家可以參考我的文章10X單細(xì)胞(10X空間轉(zhuǎn)錄組)RNA速率分析之scVelo。
生活很好看杭,有你更好