14種單細(xì)胞測(cè)序去批次效應(yīng)哪家強(qiáng)

今天跟大家分享的是2020年1月發(fā)表在Genome Biol.(IF:14.028)雜志上的一篇文章A benchmark of batch-effect correction methods for single-cell RNA sequencing data.在文章中作者基于10個(gè)人和鼠的dataset,使用t-SNE和UMAP可視化技術(shù)胎食,結(jié)合kBET、LISI、ASW振坚、ARI和DEG等基準(zhǔn)度量捎废,來(lái)評(píng)估對(duì)14種去批次效應(yīng)算法的批次效應(yīng)校正結(jié)果。

A benchmark of batch-effect correction methods for single-cell RNA sequencing data

對(duì)單細(xì)胞RNA測(cè)序數(shù)據(jù)的批次效應(yīng)校正算法基準(zhǔn)

(因?yàn)橐曨l是白天錄的尔当,住所附近小孩比較活潑坞靶,視頻有些地方可能會(huì)有些許雜音憔狞,望讀者朋友們海涵(T ^ T)?)

一.研究背景

使用不同技術(shù)生成的大規(guī)模單細(xì)胞轉(zhuǎn)錄組dataset,批次效應(yīng)特殊的系統(tǒng)變化對(duì)批次效應(yīng)效果的去除和dataset成提出了挑戰(zhàn)彰阴。隨著scRNA-seq數(shù)據(jù)的持續(xù)增長(zhǎng)瘾敢,實(shí)現(xiàn)計(jì)算器資源的有效批次集成是至關(guān)重要的。在這里尿这,作者對(duì)批次效應(yīng)校正算法的基準(zhǔn)進(jìn)行了深入的研究簇抵,以確定最適合去除批次效應(yīng)的算法。

二.分析流程

三.結(jié)果解讀

1.使用五個(gè)評(píng)估指標(biāo)對(duì)十個(gè)dataset的14種方法進(jìn)行全面測(cè)試

圖1.基于10個(gè)使用5個(gè)評(píng)估指標(biāo)的dataset的14個(gè)算法進(jìn)行基準(zhǔn)測(cè)試

表1.十四種批次效應(yīng)校正算法描述

圖1A:展示了基準(zhǔn)測(cè)試的流程妻味。

評(píng)估了14種批次效應(yīng)校正算法的性能正压,評(píng)估了它們?cè)诒3旨?xì)胞亞群分離準(zhǔn)確性的同時(shí)進(jìn)行批次集成的能力。作者使用t-SNE和UMAP可視化技術(shù)责球,結(jié)合kBET焦履、LISI、ASW雏逾、ARI和DEG等基準(zhǔn)度量來(lái)評(píng)估批次效應(yīng)校正結(jié)果嘉裤。

圖2B:批次效應(yīng)校正算法測(cè)試的十個(gè)dataset。

涵蓋了不同類(lèi)型的細(xì)胞栖博,如樹(shù)突狀細(xì)胞屑宠、胰腺細(xì)胞、視網(wǎng)膜細(xì)胞和外周血單核細(xì)胞(PBMCs)仇让,dataset來(lái)自人類(lèi)和小鼠典奉。所使用的技術(shù)范圍也很廣,包括10x丧叽、SMART-seq卫玖、Drop-seq和SMARTer等。

表1:總結(jié)了14種批次效應(yīng)校正算法的關(guān)鍵特性踊淳。

2.不同情形下對(duì)矯正方法進(jìn)行評(píng)估

2.1情形一:不同的技術(shù)處理的相同細(xì)胞類(lèi)型的批次

圖2.使用UMAP可視化技術(shù)對(duì)“dataset2(鼠細(xì)胞譜)”進(jìn)行的14種批次效應(yīng)校正算法進(jìn)行定性評(píng)價(jià)

圖2:每種算法下有兩行圖假瞬,第一行是依據(jù)細(xì)胞批次來(lái)著色,在第二行中是按細(xì)胞類(lèi)型來(lái)著色迂尝。在第一行中按批次效應(yīng)著色脱茉,在第二行中按細(xì)胞類(lèi)型著色(下文后續(xù)的操作類(lèi)似)。

Seurat 2, Seurat 3, Harmony,fastMNN,等降維后亞群聚類(lèi)情況較好 垄开。

圖3.使用ASW琴许、ARI、LISI和kBET等四個(gè)評(píng)估指標(biāo)對(duì)“dataset2”14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估?圖3:綜合對(duì)批次集成和細(xì)胞亞群純度的四項(xiàng)指標(biāo)評(píng)估結(jié)果中溉躲,Harmony算法的排名都比較靠前(圖中用“黑色下劃線”和“橙色方框”標(biāo)注綜合socre較高的幾個(gè)算法榜田,下文其余指標(biāo)評(píng)估的圖示除特殊說(shuō)明外寸认,也是如此)。

圖4.14種批次效應(yīng)校正算法的定性評(píng)價(jià):使用UMAP可視化技術(shù)對(duì)“dataset5”(人外周血單個(gè)核細(xì)胞)進(jìn)行校正

圖4:scGen串慰、MMD-ResNet和LIGER的降維后亞群聚類(lèi)情況較好偏塞。

圖5.使用4個(gè)評(píng)估指標(biāo)對(duì)“dataset5”的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)估

圖5.結(jié)果顯示Harmony、Seurat 3邦鲫、LIGER去批次效應(yīng)結(jié)果較好灸叼。

小結(jié):對(duì)于這兩個(gè)dataset(人PBMCs和鼠細(xì)胞圖譜),Harmony庆捺、Seurat 3和LIGER是首選的三種算法古今。

2.2情形二:每個(gè)批次的細(xì)胞類(lèi)型不完全相同

圖6.利用UMAP可視化技術(shù)對(duì)”dataset1(人樹(shù)突狀細(xì)胞)“的14種批次效應(yīng)校正算法進(jìn)行評(píng)估

圖6:dataset1在不同的批次中存在兩個(gè)高度相似的細(xì)胞類(lèi)型。

對(duì)可視化圖的檢驗(yàn)表明滔以,大多數(shù)算法可以將兩個(gè)批次的細(xì)胞混合在一起(圖6)捉腥。不過(guò),limma使兩個(gè)批次的細(xì)胞簇接近你画,但沒(méi)有實(shí)現(xiàn)混合抵碟,而MMD-ResNet和BBKNN無(wú)法混合常見(jiàn)類(lèi)型的細(xì)胞簇。

圖7.使用4個(gè)評(píng)估指標(biāo)對(duì)dataset1的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖7:對(duì)于dataset1坏匪,綜合四項(xiàng)指標(biāo)拟逮,fastMNN是最優(yōu)的算法,LIGER和scMerge分別排在第二位和第三位适滓。

圖8.使用UMAP可視化技術(shù)對(duì)dataset6的14種批次效應(yīng)校正算法進(jìn)行評(píng)估

圖8:dataset6只包含兩個(gè)細(xì)胞類(lèi)型敦迄。

scGen、scMerge和BBKNN的降維聚類(lèi)效果較好凭迹。

圖9.使用4個(gè)評(píng)估指標(biāo)對(duì)dataset6的14種批次效應(yīng)效果校正算法進(jìn)行定量評(píng)估

圖9:綜合4個(gè)評(píng)價(jià)指標(biāo)來(lái)看罚屋,Harmony是最優(yōu)算法,其次是Scanorama和scGen嗅绸。

圖10.利用UMAP可視化技術(shù)對(duì)dataset7(小鼠視網(wǎng)膜細(xì)胞)的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)?圖10:dataset7的不同批次中脾猛,細(xì)胞類(lèi)型很不均勻。

此次處理結(jié)果顯示朽砰,ComBat和limma處理后的降維聚類(lèi)效果較優(yōu)尖滚。

圖11.使用ASW喉刘、ARI瞧柔、LISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset7的14種批次效應(yīng)評(píng)估

圖11:LIGER是此次最優(yōu)的算法,接著是MNN Correct和scMerge睦裳。

圖12.利用UMAP可視化技術(shù)對(duì)dataset10(小鼠造血干細(xì)胞和祖細(xì)胞)的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)

圖12:Seurat 2造锅、Seurat 3、Harmony廉邑、Scanorama和LIGER處理的降維聚類(lèi)效果較優(yōu)哥蔚。

圖13.使用ASW倒谷、ARILISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset10的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)估

圖13:綜合四個(gè)指標(biāo)來(lái)看,Harmony糙箍、Scanorama和LIGER是該dataset的較優(yōu)算法渤愁。

小結(jié):

在情形二中,作者在四個(gè)不同的dataset上評(píng)估了14種批次效應(yīng)校正算法深夯。

雖然沒(méi)有一種算法對(duì)所有dataset都是最優(yōu)的抖格,但LIGER是dataset1,7,10的較優(yōu)算法,而scMerge在dataset1,6,7中排名第三咕晋。Harmony在dataset6和10中排名第一雹拄,而Scanorama在dataset6和10中排名第二。

基于這些結(jié)果掌呜,LIGER是這個(gè)情形的較優(yōu)算法滓玖。

2.3情形三:有多個(gè)批次

這個(gè)情形測(cè)試了多個(gè)批次下的批次效應(yīng)校正能力。

圖14.使用UMAP可視化技術(shù)對(duì)dataset4(人胰腺細(xì)胞)的14種批次效應(yīng)校正算法進(jìn)行定性評(píng)價(jià)

圖14:dataset4的人胰腺細(xì)胞包括五個(gè)批次质蕉。

t-SNE和UMAP圖顯示势篡,Seurat 3、Harmony模暗、scGen和LIGER處理后的降維聚類(lèi)效果更優(yōu)殊霞。

圖15.使用ASW、ARI汰蓉、LISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset4的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖15:綜合四項(xiàng)指標(biāo)绷蹲,Seurat 3是較優(yōu)的算法,其次是scGen和scMerge顾孽。

前面情形2中分析的dataset6(也包括了兩個(gè)以上的批次)前三名分別是Harmony祝钢、Scanorama和scGen, scMerge排在第四。

所以綜合dataset4若厚、6的評(píng)估情況來(lái)看拦英,作者給出的建議是:

對(duì)于已標(biāo)記細(xì)胞類(lèi)型的dataset,建議使用scGen测秸;

對(duì)于未標(biāo)記細(xì)胞類(lèi)型的dataset疤估,推薦使用Seurat 3和Harmony。

2.4情形四:處理的數(shù)據(jù)集很大

在這個(gè)情形中霎冯,作者在兩個(gè)大dataset(8铃拇、9)上測(cè)試了這些算法。

圖16.用UMAP可視化技術(shù)對(duì)dataset8(小鼠大腦)的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)

圖16:只有LIGER在實(shí)現(xiàn)分批混合的同時(shí)沈撞,保持了較好的細(xì)胞類(lèi)型分離慷荔。

圖17.使用ASW、ARI缠俺、iLISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset8的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖17:綜合四項(xiàng)指標(biāo),Seurat 3排名第一显晶,緊隨其后的是scGen和Seurat 2贷岸。

圖18.使用UMAP可視化技術(shù)對(duì)dataset9(人類(lèi)細(xì)胞圖譜)的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)

圖18:dataset9由兩個(gè)數(shù)據(jù)批次組成,每個(gè)數(shù)據(jù)批次來(lái)自不同的組織磷雇。由于缺乏細(xì)胞類(lèi)型信息偿警,只能評(píng)估批次混合能力。

除了scMerge唯笙、limma和Scanorama户敬,大多數(shù)算法都能夠均勻混合批次。

圖19.使用ASW睁本、ARI尿庐、LISI和kBET四種評(píng)估指標(biāo)對(duì)dataset9的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖19:綜合四項(xiàng)指標(biāo),LIGER呢堰、ZINB-WaVE抄瑟、MMD-ResNet是依次排名前三的算法。

因此這三種算法都被推薦用于大型的dataset枉疼。

2.5情形五:DEG評(píng)估

圖20.利用模擬dataset和差異基因表達(dá)分析評(píng)價(jià)八種批次效應(yīng)校正算法?圖20A:作者按所示的DEG分析工作流程皮假,對(duì)8個(gè)算法進(jìn)行了評(píng)估。

使用Splatter包生成6組具有預(yù)定義批次效應(yīng)效果和差異基因表達(dá)譜的模擬數(shù)據(jù)骂维。

使用Seurat包對(duì)校正后的數(shù)據(jù)進(jìn)行差異基因表達(dá)分析惹资。

批次效應(yīng)校正的矩陣中識(shí)別的差異表達(dá)基因(DEGs)與ground truth DEGs進(jìn)行比較,并計(jì)算精度航闺、Recall和F-score等指標(biāo)褪测。

圖20B:為圖20A中用到的6個(gè)模擬dataset,并對(duì)drop-out值和批次的情況作了展示潦刃。

圖20C:計(jì)算了上調(diào)和下調(diào)基因的F-score侮措。根據(jù)F-score,MNN Correct乖杠,ZINB-WaVE分扎,ComBat和scMerge是表現(xiàn)最好的方法。

簡(jiǎn)單來(lái)說(shuō)胧洒,若想獲得一個(gè)用于下游分析批次效應(yīng)校正矩陣的話畏吓,ComBat、MNN Correct卫漫、ZINB-WaVE和scMerge是作者推薦的算法菲饼。

3.整合上述分析結(jié)果

圖21.十四種批次效應(yīng)校正算法的有效性和效率

圖21A:根據(jù)ASW、ARI汛兜、LISI和kBET指標(biāo)對(duì)算法進(jìn)行評(píng)估巴粪,然后使用秩和算法對(duì)所有指標(biāo)進(jìn)行排序通今。

山脊線的高度表示不同dataset的rank和score粥谬,rank和score越低表示性能越好肛根。即出現(xiàn)在底部的Harmony、LIGER和Seurat 3是總體得分最高的前三算法漏策。

圖21B:作者舉例了對(duì)于dataset8的十四種算法的內(nèi)存使用情況派哲。

圖21C:展示了14種算法處理時(shí)需要的時(shí)間。

▼▼是否遺漏了往期精彩生信解析沒(méi)看呢掺喻?▼▼

還沒(méi)發(fā)論文芭届?2020年醫(yī)學(xué)生信分析有這些!

關(guān)注科研菌回復(fù)"1"即可獲取"28G全網(wǎng)最全科研繪圖素材"感耙、"谷歌上網(wǎng)助手"(梯子)和"科研常用軟件合集"褂乍、“腫瘤/消化內(nèi)科指南”、"考研復(fù)試大禮包"即硼;回復(fù)2020逃片,可獲得2020年生信套路合集回復(fù)“單細(xì)胞文獻(xiàn)”只酥,可獲得單細(xì)胞文獻(xiàn)合集(無(wú)需轉(zhuǎn)發(fā)/集贊)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載褥实,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。
  • 序言:七十年代末裂允,一起剝皮案震驚了整個(gè)濱河市损离,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌绝编,老刑警劉巖僻澎,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異十饥,居然都是意外死亡怎棱,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)绷跑,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拳恋,“玉大人,你說(shuō)我怎么就攤上這事砸捏∶耍” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵垦藏,是天一觀的道長(zhǎng)梆暖。 經(jīng)常有香客問(wèn)我,道長(zhǎng)掂骏,這世上最難降的妖魔是什么轰驳? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上级解,老公的妹妹穿的比我還像新娘冒黑。我一直安慰自己,他們只是感情好勤哗,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布抡爹。 她就那樣靜靜地躺著,像睡著了一般芒划。 火紅的嫁衣襯著肌膚如雪冬竟。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1 305
  • 那天民逼,我揣著相機(jī)與錄音泵殴,去河邊找鬼。 笑死拼苍,一個(gè)胖子當(dāng)著我的面吹牛袋狞,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播映屋,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼苟鸯,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了棚点?” 一聲冷哼從身側(cè)響起早处,我...
    開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎瘫析,沒(méi)想到半個(gè)月后砌梆,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡贬循,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年咸包,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片杖虾。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡烂瘫,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出奇适,到底是詐尸還是另有隱情坟比,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布嚷往,位于F島的核電站葛账,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏皮仁。R本人自食惡果不足惜籍琳,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一菲宴、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧趋急,春花似錦喝峦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)键科。三九已至闻丑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間勋颖,已是汗流浹背嗦嗡。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留饭玲,地道東北人侥祭。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像茄厘,于是被迫代替她去往敵國(guó)和親矮冬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355