作者:seqyuan
鏈接:單細(xì)胞軌跡分析知多少--擬時(shí)間分析比較
來(lái)源:微信公眾號(hào)
著作權(quán)歸作者所有,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者晃跺。
單細(xì)胞轉(zhuǎn)錄組揩局、蛋白組、表觀組學(xué)等單細(xì)胞技術(shù)的發(fā)展為研究細(xì)胞周期掀虎、細(xì)胞分化等細(xì)胞動(dòng)態(tài)過(guò)程提供了新的機(jī)會(huì)凌盯。使用軌跡推斷(TI,trajectory inference)的方法可以根據(jù)測(cè)序的細(xì)胞之間表達(dá)模式的相似性對(duì)單細(xì)胞沿著軌跡進(jìn)行排序烹玉,以此來(lái)模擬細(xì)胞動(dòng)態(tài)變化的過(guò)程驰怎。軌跡推斷也常被稱作“偽時(shí)間分析”(pseudotime analysis)。
在過(guò)去幾年中春霍,已經(jīng)開(kāi)發(fā)了大量的軌跡推斷(后續(xù)簡(jiǎn)稱TI)方法,在以下幾個(gè)收錄單細(xì)胞工具的庫(kù)中叶眉,TI分析的工具是最大的類別之一址儒。
單細(xì)胞領(lǐng)域的新用戶面臨著大量的TI方法選擇,而沒(méi)有一個(gè)明確的想法可以最佳地解決他們的問(wèn)題衅疙,縱然大多數(shù)人選擇了引用率比較高的Monocle2 (Qiu et al., 2017)做TI分析莲趣,但是Monocle2也常常不能做出令人滿意的TI結(jié)果,現(xiàn)實(shí)中很多人往往選擇篩選細(xì)胞減少計(jì)算量以應(yīng)對(duì)大數(shù)據(jù)集的項(xiàng)目饱溢。不同的數(shù)據(jù)集可能對(duì)應(yīng)不同的軌跡模型(線性的喧伞、分叉、樹(shù)形绩郎、循環(huán)圖潘鲫、不連續(xù)圖),繁多的TI方法在性能肋杖、可擴(kuò)展性溉仑、健壯性和可用性上存在差異,各有其優(yōu)缺點(diǎn)状植。
2019年發(fā)表在
Nature biotechnology
的一篇文章A comparison of single-cell trajectory inference methods
(Saelens et al., 2019)對(duì)45種TI方法在110個(gè)真實(shí)數(shù)據(jù)集和229個(gè)合成數(shù)據(jù)集中進(jìn)行了全面比較浊竟,主要評(píng)估了TI方法的準(zhǔn)確性怨喘、可擴(kuò)展性、穩(wěn)定性和可用性四個(gè)方面
以下是文章(Saelens et al., 2019)的主要可參考點(diǎn):
- 文章的研究評(píng)估發(fā)現(xiàn):發(fā)現(xiàn)當(dāng)前TI方法之間存在很大的互補(bǔ)性振定,數(shù)據(jù)集的特性不同必怜,執(zhí)行效果最佳的TI方法也不同
- 作者基于評(píng)估的結(jié)果,制定了一套準(zhǔn)則后频,以幫助用戶為自己的數(shù)據(jù)集選擇最佳方法
http://guidelines.dynverse.org
- 開(kāi)發(fā)了一個(gè)R包--dyno梳庆,把文章中測(cè)試過(guò)的TI方法進(jìn)行了封裝,目前已封裝了55種徘郭,允許用戶根據(jù)
guidelines.dynverse
推薦的方法靠益,自由選擇進(jìn)行TI分析,dyno采用統(tǒng)一的輸入残揉,同時(shí)也對(duì)不同TI方法的輸出做了統(tǒng)一
不得不說(shuō)dyno真的很吸引人胧后,一個(gè)R包就解決了那么多TI包的安裝和使用問(wèn)題,可以讓用戶在自己項(xiàng)目的數(shù)據(jù)集上方便的嘗試多種TI方法抱环,所有TI方法的輸入統(tǒng)一成一種格式壳快,提供了統(tǒng)一的可視化模式,方便用戶比較不同TI方法在自己項(xiàng)目數(shù)據(jù)集上的表現(xiàn)
不同TI方法結(jié)果的比較策略
為了使不同TI方法的輸出彼此直接可比镇草,作者開(kāi)發(fā)了一個(gè)通用的概率模型來(lái)表示來(lái)自所有可能來(lái)源的軌跡眶痰,如上圖所示。在這個(gè)模型中梯啤。
一 整體拓?fù)浣Y(jié)構(gòu)由里程碑
(milestones)網(wǎng)絡(luò)表示
細(xì)胞被放置在每組相互連接的里程碑所形成的空間內(nèi)竖伯。
二 不同TI結(jié)果標(biāo)準(zhǔn)化歸類輸出
幾乎每種TI方法都返回一個(gè)唯一的軌跡結(jié)果輸出,作者總結(jié)了TI方法的結(jié)果因宇,把這些結(jié)果分為7個(gè)不同的公共軌跡模型:
對(duì)每一種TI方法的結(jié)果做歸類七婴,假如一組數(shù)據(jù)用某一種TI的結(jié)果被歸為了Branch assignment
這個(gè)類別,就把這種TI方法的分析結(jié)果轉(zhuǎn)化成統(tǒng)一的Branch assignment
類標(biāo)準(zhǔn)的公共軌跡模型輸出察滑。
這個(gè)通用模型可以對(duì)任何TI方法產(chǎn)生的軌跡模型執(zhí)行通用分析功能打厘,例如軌跡的可視化及與黃金數(shù)據(jù)集結(jié)果的比較。
三 不同TI方法歸類
TI方法之間最大區(qū)別在于贺辰,是否固定拓?fù)浠Фⅲ髡叨x了7種可能的拓?fù)漕愋停瑥淖罨镜耐負(fù)洌ň€性饲化,循環(huán)和分叉)到更復(fù)雜的拓?fù)洌ㄟB通圖和非連通圖)莽鸭。大多數(shù)TI方法要么著重于推斷線性軌跡,要么將搜索范圍限制在樹(shù)或較不復(fù)雜的拓?fù)渲谐钥浚挥猩贁?shù)嘗試推斷循環(huán)或不連續(xù)的拓?fù)洌┙ǎ煌琓I方法的軌跡模型分類如下圖所示:
作者從四個(gè)核心方面評(píng)估了每種方法:
- 在110個(gè)真實(shí)數(shù)據(jù)集和229個(gè)合成數(shù)據(jù)集上給出金或銀標(biāo)準(zhǔn)的情況下,預(yù)測(cè)的準(zhǔn)確性撩笆;
- 關(guān)于細(xì)胞和特征(例如基因)數(shù)量的可擴(kuò)展性捺球;
- 對(duì)數(shù)據(jù)集進(jìn)行二次采樣后預(yù)測(cè)的穩(wěn)定性缸浦;
- 工具在軟件、文檔和手稿方面的可用性氮兵。
總體而言裂逐,作者發(fā)現(xiàn)大多數(shù)TI方法在這四個(gè)評(píng)估標(biāo)準(zhǔn)之間存在很大差異,只有少數(shù)方法(例如PAGA泣栈,Slingshot和SCORPIUS)比較均衡卜高。
四個(gè)核心方面評(píng)估
準(zhǔn)確性評(píng)估(Accuracy)
為了將TI方法的結(jié)果與先驗(yàn)的參考軌跡進(jìn)行比較,作者定義了幾個(gè)度量標(biāo)準(zhǔn):
metric
- HIM score:考慮了邊長(zhǎng)和度分布(度-degree 是指網(wǎng)絡(luò)/圖中一個(gè)點(diǎn)的與其他點(diǎn)的連接數(shù)量南片,度分布-Degree Distribution 就是整個(gè)網(wǎng)絡(luò)中掺涛,各個(gè)點(diǎn)的度數(shù)量的概率分布)的差異,評(píng)估了兩種拓?fù)渲g的相似性
- F1 Branches assesses:將細(xì)胞分配到分支的相似性
- Cell positions:通過(guò)計(jì)算成對(duì)測(cè)地距離之間的相關(guān)性疼进,來(lái)量化兩個(gè)軌跡之間的細(xì)胞位置相似性
- Features (genes):特征量化了從已知軌跡到預(yù)測(cè)軌跡的軌跡差異表達(dá)特征之間的一致性
dataset source
測(cè)試數(shù)據(jù)由以下兩部分構(gòu)成:
- 229個(gè)合成數(shù)據(jù)集:提供最精確參考軌跡
- 110個(gè)真實(shí)數(shù)據(jù)集:提供最高生物學(xué)相關(guān)性
110個(gè)真實(shí)的數(shù)據(jù)集來(lái)自各種單細(xì)胞技術(shù)薪缆,各種生物體和動(dòng)態(tài)過(guò)程,并包含幾種類型的拓?fù)滠壽E伞广。
作者把做測(cè)試用的真實(shí)數(shù)據(jù)集
做了兩個(gè)分類:
- Gold standard:參考軌跡是通過(guò)細(xì)胞分選或細(xì)胞混合而來(lái)拣帽,不是從表達(dá)數(shù)據(jù)本身中提取
- Silver standard:gold standard之外的數(shù)據(jù)集
作者使用4個(gè)不同的合成數(shù)據(jù)模擬器合成了229個(gè)合成數(shù)據(jù)集
,對(duì)于每種模擬嚼锄,作者都使用一個(gè)真實(shí)的數(shù)據(jù)集作為參考减拭,以匹配其尺寸,差異表達(dá)基因的數(shù)量区丑,丟棄率和其他統(tǒng)計(jì)特性:
? dyngen:用來(lái)模擬細(xì)胞調(diào)控網(wǎng)絡(luò)github.com/dynverse/dyngen
? dyntoy:縮減空間中表達(dá)的隨機(jī)梯度github.com/dynverse/dyntoy
? PROSSTT:從線性模型中抽取表達(dá)式拧粪,該模型取決于偽時(shí)間
? Splatter:模擬不同表達(dá)狀態(tài)之間的非線性路徑
trajectory type
作者發(fā)現(xiàn)TI方法性能在各個(gè)數(shù)據(jù)集之間的表現(xiàn)變化很大,這表明沒(méi)有一種萬(wàn)金油
的方法適用于每個(gè)數(shù)據(jù)集沧侥,即便是PAGA可霎、RaceID/StemID、SLICER這些可以檢測(cè)大多數(shù)軌跡類型正什。
不同數(shù)據(jù)集來(lái)源之間的總體得分與包含金標(biāo)準(zhǔn)的真實(shí)數(shù)據(jù)集的得分具有中等至高度相關(guān)性(斯皮爾曼等級(jí)相關(guān)性在0.5-0.9之間)啥纸,從而確認(rèn)了金標(biāo)準(zhǔn)軌跡的準(zhǔn)確性以及合成數(shù)據(jù)的相關(guān)性号杏。
不同的指標(biāo)(metric)經(jīng)常彼此不一致婴氮,Monocle和PAGA Tree在拓?fù)浞謹(jǐn)?shù)上得分更高,而其他方法(例如Slingshot)則在細(xì)胞排序并將它們放入正確的分支方面更好盾致。
TI方法的性能在很大程度上取決于數(shù)據(jù)中存在的軌跡類型主经,Slingshot
通常在包含更簡(jiǎn)單拓?fù)涞臄?shù)據(jù)集上表現(xiàn)更好,PAGA
庭惜,pCreode
和RaceID/StemID
在具有樹(shù)狀或更復(fù)雜軌跡的數(shù)據(jù)集上得分更高
這種情況反映在每種方法檢測(cè)到的拓?fù)漕愋椭姓肿ぃ驗(yàn)?code>Slingshot預(yù)測(cè)的拓?fù)鋬A向于包含較少的分支,而PAGA
护赊,pCreode
和Monocle DDRTree
檢測(cè)到的拓?fù)鋬A向于更復(fù)雜的拓?fù)洹?br>
因此惠遏,這些分析表明砾跃,對(duì)于大多數(shù)TI方法而言,檢測(cè)正確的拓?fù)淙匀皇且豁?xiàng)艱巨的任務(wù),因?yàn)榫蛿?shù)據(jù)中拓?fù)涞膹?fù)雜性而言,目前的TI方法往往過(guò)于樂(lè)觀或過(guò)于悲觀哭懈。
TI方法之間的互補(bǔ)性
數(shù)據(jù)集之間的高度可變性以及不同TI方法檢測(cè)到的拓?fù)浣Y(jié)構(gòu)的多樣性可能表明不同TI方法之間存在一定的互補(bǔ)性产阱,為了測(cè)試這一點(diǎn),作者計(jì)算了僅使用所有TI方法的子集時(shí)獲得頂級(jí)模型的可能性荷逞,頂級(jí)模型被定義為獲得的總得分高于最優(yōu)模型得分的95%。
在所有數(shù)據(jù)集上,只使用一種TI方法(PAGA Tree)的情況下碳竟,有27%可能性獲得頂級(jí)模型,通過(guò)增加其他6種方法(SCORPLUS|Singshot|Angle|Monocle ICA|PAGA|)
以上獲得頂級(jí)模型的方法組合是一組相對(duì)多樣化的方法狸臣,其中包括嚴(yán)格的線性或循環(huán)方法莹桅,以及具有廣泛軌跡類型范圍的方法,例如PAGA固棚,在僅包含線性统翩,分叉或多分支軌跡的數(shù)據(jù)上,作者發(fā)現(xiàn)頂級(jí)方法之間具有相似的互補(bǔ)性跡象此洲。
盡管在一個(gè)給定數(shù)據(jù)集的情況下厂汗,以上案例中能夠用比較少的TI方法獲得頂級(jí)模型,總體而言呜师,這表明不同方法之間存在相當(dāng)大的互補(bǔ)性娶桦,用戶應(yīng)在其數(shù)據(jù)上嘗試各種TI方法,尤其是在先驗(yàn)知識(shí)不清楚的情況下汁汗。此外衷畦,這也為利用這種互補(bǔ)性構(gòu)建新的集合方法提供了可能性。
可擴(kuò)展性評(píng)估(Scalability)
早期TI方法構(gòu)建時(shí)的測(cè)試數(shù)據(jù)集在1000個(gè)細(xì)胞左右知牌,但是現(xiàn)在隨著10X等高通量單細(xì)胞技術(shù)的普及祈争,這些TI方法經(jīng)常需要處理幾萬(wàn),也許在未來(lái)有處理上千萬(wàn)細(xì)胞的需求角寸,而且隨著單細(xì)胞多組學(xué)技術(shù)的發(fā)展(10X ATAC等)菩混,每個(gè)細(xì)胞的需要處理的特征(gene|peak等)也越來(lái)越多。所以作者評(píng)估了目前的TI方法在處理細(xì)胞數(shù)扁藕、特征數(shù)(gene)性能的擴(kuò)展沮峡。
擴(kuò)展對(duì)運(yùn)行時(shí)間的影響
作者發(fā)現(xiàn),大多數(shù)TI方法的可擴(kuò)展性總體上很差亿柑,大多數(shù)圖和樹(shù)方法無(wú)法在一小時(shí)內(nèi)在具有10k個(gè)細(xì)胞和幾千個(gè)特征(gene)的數(shù)據(jù)集上完成邢疙,這是典型的10X等基于液滴的單細(xì)胞數(shù)據(jù)集大小。
隨著細(xì)胞數(shù)量的增加,運(yùn)行時(shí)間進(jìn)一步增加疟游,只有少數(shù)幾個(gè)方法(PAGA, PAGA Tree, Monocle DDRTree, Stemnet and GrandPrix)可以在1天內(nèi)處理完100萬(wàn)細(xì)胞的分析呼畸。當(dāng)處理大量特征的數(shù)據(jù)集時(shí),某些方法(例如Monocle DDRTree和GrandPrix)也會(huì)遇到運(yùn)行時(shí)間不令人滿意的情況颁虐。
運(yùn)行時(shí)間短的TI方法通常具有兩方面特征:
- 相對(duì)于細(xì)胞/特征役耕,它們具有線性的時(shí)間復(fù)雜度
- 添加新的細(xì)胞/特征導(dǎo)致時(shí)間增加相對(duì)較低
作者發(fā)現(xiàn),在所有方法中聪廉,有超過(guò)一半的方法具有相對(duì)于細(xì)胞數(shù)量的二次或超二次復(fù)雜度瞬痘,這將使得很難在合理的時(shí)間范圍內(nèi)將這些方法中的任何一種應(yīng)用于細(xì)胞量超過(guò)1000數(shù)據(jù)集
擴(kuò)展對(duì)運(yùn)行內(nèi)存的影響
大多數(shù)TI方法都具有合理的內(nèi)存消耗。但是板熊,對(duì)于細(xì)胞數(shù)比較多的數(shù)據(jù)集而言有一些方法(RaceID / StemID框全,pCreode和MATCHER)內(nèi)存需求非常高,對(duì)于Monocle DDRTree, SLICE 和 MFA來(lái)說(shuō)干签,特征值比較多時(shí)會(huì)消耗比較大的內(nèi)存津辩。
總的來(lái)說(shuō)數(shù)據(jù)集的大小是選擇合適方法的重要因素,在TI方法開(kāi)發(fā)的時(shí)候應(yīng)該更加注意保持合理的運(yùn)行時(shí)間和內(nèi)存使用率容劳。
穩(wěn)定性評(píng)估(Stability)
TI方法不僅要能夠在合理的時(shí)間范圍內(nèi)推斷出準(zhǔn)確的模型喘沿,而且要在給定非常相似的輸入數(shù)據(jù)時(shí)生成相似的模型。
為了測(cè)試每種方法的穩(wěn)定性竭贩,作者對(duì)10個(gè)數(shù)據(jù)集的子集(95%細(xì)胞蚜印,95%特征)測(cè)試了每種方法,并評(píng)估每對(duì)模型之間的平均相似性和軌跡的準(zhǔn)確性留量。
考慮到通過(guò)算法或通過(guò)參數(shù)固定拓?fù)涞姆椒ǖ能壽E已經(jīng)受到很大的限制窄赋,因此可以預(yù)料,這種方法會(huì)產(chǎn)生非常穩(wěn)定的結(jié)果楼熄。但是忆绰,某些固定拓?fù)浞椒ㄈ匀划a(chǎn)生稍微更穩(wěn)定的結(jié)果,例如線性方法的SCORPIUS和MATCHER以及多分支方法的MFA可岂。
在具有自由拓?fù)涞姆椒ㄖg错敢,穩(wěn)定性更加多樣化。Slingshot產(chǎn)生的模型比PAGA(樹(shù))更穩(wěn)定缕粹,而PAGA(樹(shù))又比pCreode和Monocle DDRTree產(chǎn)生更穩(wěn)定的結(jié)果稚茅。
可用性評(píng)估(Usability)
盡管與推斷的軌跡的準(zhǔn)確性沒(méi)有直接關(guān)系,但一個(gè)TI方法能不能被評(píng)估實(shí)施以及對(duì)生物學(xué)用戶的友好程度也很重要致开。
作者對(duì)每種方法的軟件包裝峰锁、文檔萎馅、自動(dòng)代碼測(cè)試以及發(fā)布的期刊做了評(píng)估双戳。作者發(fā)現(xiàn)大多數(shù)方法都滿足基本標(biāo)準(zhǔn),例如教程的可用性和基本代碼質(zhì)量標(biāo)準(zhǔn)糜芳,新方法的質(zhì)量得分比舊方法好一些飒货,
以下幾個(gè)方面幾乎所有的TI方法在某些方面多少有些不足
- Availability
- Behaviour
- Code assurance
- Code quality
- Documentation
- Paper
只有兩種方法具有近乎完美的可用性評(píng)分(Slingshot和Celltrails)它們可以用作未來(lái)新方法開(kāi)發(fā)的參考魄衅。
TI方法選擇指導(dǎo)原則
根據(jù)基準(zhǔn)測(cè)試的結(jié)果,作者為用戶提供了一套TI方法選擇實(shí)用的指導(dǎo)原則Guidelines.dynverse.org
作者基于這樣的假設(shè):由于一種方法的性能很大程度上取決于所研究的軌跡類型塘辅,因此方法的選擇應(yīng)主要由數(shù)據(jù)中預(yù)期的軌跡拓?fù)錄Q定
晃虫。在大多數(shù)情況下,用戶可能對(duì)預(yù)期的軌跡了解得很少扣墩,除非期望自己的數(shù)據(jù)包含固定的軌跡預(yù)期哲银,例如多個(gè)斷開(kāi)的軌跡、循環(huán)或復(fù)雜的樹(shù)形結(jié)構(gòu)呻惕。對(duì)應(yīng)每一種預(yù)期的軌跡類型Guidelines.dynverse.org
都提出了一組不同的最佳方法荆责。數(shù)據(jù)集的大小
和可用的先驗(yàn)信息
也會(huì)影響方法的選擇。這些因素以及其他幾個(gè)因素都可以在交互式應(yīng)用程序(guidelines.dynverse.org)中進(jìn)行動(dòng)態(tài)探索亚脆。這個(gè)shiny應(yīng)用程序還可用于查詢?cè)u(píng)估結(jié)果做院,例如過(guò)濾數(shù)據(jù)集或更改評(píng)估指標(biāo)對(duì)最終排名的重要性。
在數(shù)據(jù)集上嘗試不同TI方法的意義
在推斷感興趣的數(shù)據(jù)集的軌跡時(shí)濒持,必須考慮另外兩點(diǎn):
- 軌跡以及其下游結(jié)果/假設(shè)需要在多種TI方法上得到重現(xiàn)键耕,這樣做可以確保軌跡的預(yù)測(cè)不會(huì)是由于給定的參數(shù)設(shè)置或TI方法所基于的特定算法而產(chǎn)出的偏好性的結(jié)果。
- 即使我們知道了預(yù)期的軌跡拓?fù)涓逃部梢試L試一些分支較少的軌跡拓?fù)浼僭O(shè)屈雄。如果使用這種方法確認(rèn)了預(yù)期的拓?fù)洌敲此鼘橛脩籼峁┳C據(jù)支持官套;當(dāng)產(chǎn)生更復(fù)雜的拓?fù)鋾r(shí)棚亩,這可能表明基礎(chǔ)生物學(xué)比用戶預(yù)期的要復(fù)雜得多。
TI方法輸入和輸出接口的標(biāo)準(zhǔn)化
TI方法輸入和輸出接口的標(biāo)準(zhǔn)化對(duì)于TI方法的廣泛應(yīng)用非常關(guān)鍵虏杰,如果能夠?qū)崿F(xiàn)讥蟆,那么用戶就可以非常輕松方便地在感興趣的數(shù)據(jù)集上執(zhí)行不同的TI方法,以便進(jìn)行比較預(yù)測(cè)軌跡并應(yīng)用下游分析纺阔,例如尋找對(duì)軌跡或網(wǎng)絡(luò)推斷重要的基因或?qū)ふ一蚰K集合瘸彤。
使用作者提供的框架,僅需使用幾行R代碼(https://methods.dynverse.org)就可重新創(chuàng)建圖形笛钝。在未來(lái)质况,這個(gè)框架可以擴(kuò)展以兼容其他輸入數(shù)據(jù),例如空間位置和RNA velocity信息玻靡,并簡(jiǎn)化下游分析结榄。
作者呼吁:需要在TI領(lǐng)域內(nèi)進(jìn)行進(jìn)一步討論以達(dá)成關(guān)于軌跡模型的通用接口的共識(shí),其中可能包括不確定性(uncertainty)和基因重要性等其他特征囤捻。
TI領(lǐng)域的持續(xù)挑戰(zhàn)
軌跡推斷的領(lǐng)域正在成熟臼朗,主要是線性和分叉的軌跡。
但是在TI成為分析具有復(fù)雜軌跡的單細(xì)胞組學(xué)數(shù)據(jù)集的可靠工具之前,應(yīng)解決這些挑戰(zhàn)视哑。
- 新方法應(yīng)該集中在改善樹(shù)绣否,循環(huán)圖和不連續(xù)拓?fù)涞臒o(wú)偏推論上,因?yàn)樽髡甙l(fā)現(xiàn):即使使用降維方法可以輕松地確定軌跡方法挡毅,大多方法卻反復(fù)高估或低估基礎(chǔ)拓?fù)涞膹?fù)雜性蒜撮。
- 更高的代碼保證和文檔標(biāo)準(zhǔn)可以幫助在單細(xì)胞組學(xué)領(lǐng)域推廣這些工具。
- 應(yīng)該設(shè)計(jì)新的工具以隨著細(xì)胞和特征數(shù)量的增加而很好地?cái)U(kuò)展跪呈。作者發(fā)現(xiàn)段磨,目前只有少數(shù)幾種方法可以在合理的時(shí)間內(nèi)處理超過(guò)10,000個(gè)細(xì)胞的數(shù)據(jù)集。
為了支持這些新工具的開(kāi)發(fā)耗绿,作者在https://benchmark.dynverse.org上提供了一系列有關(guān)如何包裝和評(píng)估一種針對(duì)本研究中提出的不同措施的方法的方法薇溃。
作者的總結(jié)
作者通過(guò)測(cè)試發(fā)現(xiàn)一種TI方法的性能在數(shù)據(jù)集之間可能非常不同,因此在評(píng)估中包含了大量的真實(shí)和合成數(shù)據(jù)缭乘,從而對(duì)不同方法進(jìn)行了全面的排名沐序。但是目前萬(wàn)金油的方法
,TI領(lǐng)域仍然值得繼續(xù)探索并做出非常有價(jià)值的貢獻(xiàn)堕绩,特別是如果研究者利用新穎的算法策幼,返回更具可擴(kuò)展性的解決方案或在特定用例中提供獨(dú)特的見(jiàn)解。作者對(duì)不同TI方法互補(bǔ)性的分析也支持了這一點(diǎn)奴紧,例如
-
PhenoPath
:可以在其模型中包含其他協(xié)變量 -
ouija
:可以返回軌跡中每個(gè)細(xì)胞位置的不確定性度量 -
StemID
:可以推斷出軌跡內(nèi)分支的方向性
后記
作者對(duì)幾十種TI方法的輸入輸出接口進(jìn)行了標(biāo)準(zhǔn)化特姐,并提供的統(tǒng)一的工具包dyno
,下期我們將帶來(lái)dyno
代碼實(shí)操教學(xué)黍氮,讓你實(shí)現(xiàn)安裝一個(gè)軟件方便的體驗(yàn)多種軌跡分析方法
唐含。
參考
- Qiu X, Mao Q, Tang Y, et al. Reversed graph embedding resolves complex single-cell trajectories[J]. Nature methods, 2017, 14(10): 979.
- Saelens W, Cannoodt R, Todorov H, et al. A comparison of single-cell trajectory inference methods[J]. Nature biotechnology, 2019, 37(5): 547.