14種單細(xì)胞測(cè)序去批次效應(yīng)哪家強(qiáng)

今天跟大家分享的是2020年1月發(fā)表在Genome Biol.（IF：14.028）雜志上的一篇文章A benchmark of batch-effect correction methods for single-cell RNA sequencing data.在文章中作者基于10個(gè)人和鼠的dataset，使用t-SNE和UMAP可視化技術(shù)胎食，結(jié)合kBET、LISI、ASW振坚、ARI和DEG等基準(zhǔn)度量捎废，來(lái)評(píng)估對(duì)14種去批次效應(yīng)算法的批次效應(yīng)校正結(jié)果。

A benchmark of batch-effect correction methods for single-cell RNA sequencing data

對(duì)單細(xì)胞RNA測(cè)序數(shù)據(jù)的批次效應(yīng)校正算法基準(zhǔn)

（因?yàn)橐曨l是白天錄的尔当，住所附近小孩比較活潑坞靶，視頻有些地方可能會(huì)有些許雜音憔狞，望讀者朋友們海涵(T ^ T)?）

一.研究背景

使用不同技術(shù)生成的大規(guī)模單細(xì)胞轉(zhuǎn)錄組dataset，批次效應(yīng)特殊的系統(tǒng)變化對(duì)批次效應(yīng)效果的去除和dataset成提出了挑戰(zhàn)彰阴。隨著scRNA-seq數(shù)據(jù)的持續(xù)增長(zhǎng)瘾敢，實(shí)現(xiàn)計(jì)算器資源的有效批次集成是至關(guān)重要的。在這里尿这，作者對(duì)批次效應(yīng)校正算法的基準(zhǔn)進(jìn)行了深入的研究簇抵，以確定最適合去除批次效應(yīng)的算法。

二.分析流程

三.結(jié)果解讀

1.使用五個(gè)評(píng)估指標(biāo)對(duì)十個(gè)dataset的14種方法進(jìn)行全面測(cè)試

圖1.基于10個(gè)使用5個(gè)評(píng)估指標(biāo)的dataset的14個(gè)算法進(jìn)行基準(zhǔn)測(cè)試

表1.十四種批次效應(yīng)校正算法描述

圖1A：展示了基準(zhǔn)測(cè)試的流程妻味。

評(píng)估了14種批次效應(yīng)校正算法的性能正压，評(píng)估了它們?cè)诒３旨?xì)胞亞群分離準(zhǔn)確性的同時(shí)進(jìn)行批次集成的能力。作者使用t-SNE和UMAP可視化技術(shù)责球，結(jié)合kBET焦履、LISI、ASW雏逾、ARI和DEG等基準(zhǔn)度量來(lái)評(píng)估批次效應(yīng)校正結(jié)果嘉裤。

圖2B：批次效應(yīng)校正算法測(cè)試的十個(gè)dataset。

涵蓋了不同類(lèi)型的細(xì)胞栖博，如樹(shù)突狀細(xì)胞屑宠、胰腺細(xì)胞、視網(wǎng)膜細(xì)胞和外周血單核細(xì)胞(PBMCs)仇让，dataset來(lái)自人類(lèi)和小鼠典奉。所使用的技術(shù)范圍也很廣，包括10x丧叽、SMART-seq卫玖、Drop-seq和SMARTer等。

表1：總結(jié)了14種批次效應(yīng)校正算法的關(guān)鍵特性踊淳。

2.不同情形下對(duì)矯正方法進(jìn)行評(píng)估

2.1情形一：不同的技術(shù)處理的相同細(xì)胞類(lèi)型的批次

圖2.使用UMAP可視化技術(shù)對(duì)“dataset2（鼠細(xì)胞譜）”進(jìn)行的14種批次效應(yīng)校正算法進(jìn)行定性評(píng)價(jià)

圖2：每種算法下有兩行圖假瞬，第一行是依據(jù)細(xì)胞批次來(lái)著色，在第二行中是按細(xì)胞類(lèi)型來(lái)著色迂尝。在第一行中按批次效應(yīng)著色脱茉，在第二行中按細(xì)胞類(lèi)型著色（下文后續(xù)的操作類(lèi)似）。

Seurat 2, Seurat 3, Harmony,fastMNN,等降維后亞群聚類(lèi)情況較好垄开。

圖3.使用ASW琴许、ARI、LISI和kBET等四個(gè)評(píng)估指標(biāo)對(duì)“dataset2”14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估?圖3：綜合對(duì)批次集成和細(xì)胞亞群純度的四項(xiàng)指標(biāo)評(píng)估結(jié)果中溉躲，Harmony算法的排名都比較靠前（圖中用“黑色下劃線”和“橙色方框”標(biāo)注綜合socre較高的幾個(gè)算法榜田，下文其余指標(biāo)評(píng)估的圖示除特殊說(shuō)明外寸认，也是如此）。

圖4.14種批次效應(yīng)校正算法的定性評(píng)價(jià):使用UMAP可視化技術(shù)對(duì)“dataset5”（人外周血單個(gè)核細(xì)胞）進(jìn)行校正

圖4：scGen串慰、MMD-ResNet和LIGER的降維后亞群聚類(lèi)情況較好偏塞。

圖5.使用4個(gè)評(píng)估指標(biāo)對(duì)“dataset5”的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)估

圖5.結(jié)果顯示Harmony、Seurat 3邦鲫、LIGER去批次效應(yīng)結(jié)果較好灸叼。

小結(jié)：對(duì)于這兩個(gè)dataset（人PBMCs和鼠細(xì)胞圖譜），Harmony庆捺、Seurat 3和LIGER是首選的三種算法古今。

2.2情形二:每個(gè)批次的細(xì)胞類(lèi)型不完全相同

圖6.利用UMAP可視化技術(shù)對(duì)”dataset1（人樹(shù)突狀細(xì)胞）“的14種批次效應(yīng)校正算法進(jìn)行評(píng)估

圖6：dataset1在不同的批次中存在兩個(gè)高度相似的細(xì)胞類(lèi)型。

對(duì)可視化圖的檢驗(yàn)表明滔以，大多數(shù)算法可以將兩個(gè)批次的細(xì)胞混合在一起(圖6)捉腥。不過(guò)，limma使兩個(gè)批次的細(xì)胞簇接近你画，但沒(méi)有實(shí)現(xiàn)混合抵碟，而MMD-ResNet和BBKNN無(wú)法混合常見(jiàn)類(lèi)型的細(xì)胞簇。

圖7.使用4個(gè)評(píng)估指標(biāo)對(duì)dataset1的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖7：對(duì)于dataset1坏匪，綜合四項(xiàng)指標(biāo)拟逮，fastMNN是最優(yōu)的算法，LIGER和scMerge分別排在第二位和第三位适滓。

圖8.使用UMAP可視化技術(shù)對(duì)dataset6的14種批次效應(yīng)校正算法進(jìn)行評(píng)估

圖8：dataset6只包含兩個(gè)細(xì)胞類(lèi)型敦迄。

scGen、scMerge和BBKNN的降維聚類(lèi)效果較好凭迹。

圖9.使用4個(gè)評(píng)估指標(biāo)對(duì)dataset6的14種批次效應(yīng)效果校正算法進(jìn)行定量評(píng)估

圖9：綜合4個(gè)評(píng)價(jià)指標(biāo)來(lái)看罚屋，Harmony是最優(yōu)算法，其次是Scanorama和scGen嗅绸。

圖10.利用UMAP可視化技術(shù)對(duì)dataset7（小鼠視網(wǎng)膜細(xì)胞）的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)?圖10：dataset7的不同批次中脾猛，細(xì)胞類(lèi)型很不均勻。

此次處理結(jié)果顯示朽砰，ComBat和limma處理后的降維聚類(lèi)效果較優(yōu)尖滚。

圖11.使用ASW喉刘、ARI瞧柔、LISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset7的14種批次效應(yīng)評(píng)估

圖11：LIGER是此次最優(yōu)的算法，接著是MNN Correct和scMerge睦裳。

圖12.利用UMAP可視化技術(shù)對(duì)dataset10（小鼠造血干細(xì)胞和祖細(xì)胞）的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)

圖12：Seurat 2造锅、Seurat 3、Harmony廉邑、Scanorama和LIGER處理的降維聚類(lèi)效果較優(yōu)哥蔚。

圖13.使用ASW倒谷、ARILISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset10的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)估

圖13：綜合四個(gè)指標(biāo)來(lái)看，Harmony糙箍、Scanorama和LIGER是該dataset的較優(yōu)算法渤愁。

小結(jié)：

在情形二中，作者在四個(gè)不同的dataset上評(píng)估了14種批次效應(yīng)校正算法深夯。

雖然沒(méi)有一種算法對(duì)所有dataset都是最優(yōu)的抖格，但LIGER是dataset1,7,10的較優(yōu)算法，而scMerge在dataset1,6,7中排名第三咕晋。Harmony在dataset6和10中排名第一雹拄，而Scanorama在dataset6和10中排名第二。

基于這些結(jié)果掌呜，LIGER是這個(gè)情形的較優(yōu)算法滓玖。

2.3情形三：有多個(gè)批次

這個(gè)情形測(cè)試了多個(gè)批次下的批次效應(yīng)校正能力。

圖14.使用UMAP可視化技術(shù)對(duì)dataset4（人胰腺細(xì)胞）的14種批次效應(yīng)校正算法進(jìn)行定性評(píng)價(jià)

圖14：dataset4的人胰腺細(xì)胞包括五個(gè)批次质蕉。

t-SNE和UMAP圖顯示势篡，Seurat 3、Harmony模暗、scGen和LIGER處理后的降維聚類(lèi)效果更優(yōu)殊霞。

圖15.使用ASW、ARI汰蓉、LISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset4的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖15：綜合四項(xiàng)指標(biāo)绷蹲，Seurat 3是較優(yōu)的算法，其次是scGen和scMerge顾孽。

前面情形2中分析的dataset6（也包括了兩個(gè)以上的批次）前三名分別是Harmony祝钢、Scanorama和scGen, scMerge排在第四。

所以綜合dataset4若厚、6的評(píng)估情況來(lái)看拦英，作者給出的建議是：

對(duì)于已標(biāo)記細(xì)胞類(lèi)型的dataset，建議使用scGen测秸；

對(duì)于未標(biāo)記細(xì)胞類(lèi)型的dataset疤估，推薦使用Seurat 3和Harmony。

2.4情形四：處理的數(shù)據(jù)集很大

在這個(gè)情形中霎冯，作者在兩個(gè)大dataset（8铃拇、9）上測(cè)試了這些算法。

圖16.用UMAP可視化技術(shù)對(duì)dataset8（小鼠大腦）的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)

圖16：只有LIGER在實(shí)現(xiàn)分批混合的同時(shí)沈撞，保持了較好的細(xì)胞類(lèi)型分離慷荔。

圖17.使用ASW、ARI缠俺、iLISI和kBET四個(gè)評(píng)估指標(biāo)對(duì)dataset8的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖17：綜合四項(xiàng)指標(biāo),Seurat 3排名第一显晶，緊隨其后的是scGen和Seurat 2贷岸。

圖18.使用UMAP可視化技術(shù)對(duì)dataset9（人類(lèi)細(xì)胞圖譜）的14種批次效應(yīng)校正算法進(jìn)行定量評(píng)價(jià)

圖18：dataset9由兩個(gè)數(shù)據(jù)批次組成，每個(gè)數(shù)據(jù)批次來(lái)自不同的組織磷雇。由于缺乏細(xì)胞類(lèi)型信息偿警，只能評(píng)估批次混合能力。

除了scMerge唯笙、limma和Scanorama户敬，大多數(shù)算法都能夠均勻混合批次。

圖19.使用ASW睁本、ARI尿庐、LISI和kBET四種評(píng)估指標(biāo)對(duì)dataset9的14種批次效應(yīng)效應(yīng)校正算法進(jìn)行定量評(píng)估

圖19：綜合四項(xiàng)指標(biāo)，LIGER呢堰、ZINB-WaVE抄瑟、MMD-ResNet是依次排名前三的算法。

因此這三種算法都被推薦用于大型的dataset枉疼。

2.5情形五：DEG評(píng)估

圖20.利用模擬dataset和差異基因表達(dá)分析評(píng)價(jià)八種批次效應(yīng)校正算法?圖20A：作者按所示的DEG分析工作流程皮假，對(duì)8個(gè)算法進(jìn)行了評(píng)估。

使用Splatter包生成6組具有預(yù)定義批次效應(yīng)效果和差異基因表達(dá)譜的模擬數(shù)據(jù)骂维。

使用Seurat包對(duì)校正后的數(shù)據(jù)進(jìn)行差異基因表達(dá)分析惹资。

批次效應(yīng)校正的矩陣中識(shí)別的差異表達(dá)基因(DEGs)與ground truth DEGs進(jìn)行比較，并計(jì)算精度航闺、Recall和F-score等指標(biāo)褪测。

圖20B：為圖20A中用到的6個(gè)模擬dataset，并對(duì)drop-out值和批次的情況作了展示潦刃。

圖20C：計(jì)算了上調(diào)和下調(diào)基因的F-score侮措。根據(jù)F-score，MNN Correct乖杠，ZINB-WaVE分扎，ComBat和scMerge是表現(xiàn)最好的方法。

簡(jiǎn)單來(lái)說(shuō)胧洒，若想獲得一個(gè)用于下游分析批次效應(yīng)校正矩陣的話畏吓，ComBat、MNN Correct卫漫、ZINB-WaVE和scMerge是作者推薦的算法菲饼。

3.整合上述分析結(jié)果

圖21.十四種批次效應(yīng)校正算法的有效性和效率

圖21A：根據(jù)ASW、ARI汛兜、LISI和kBET指標(biāo)對(duì)算法進(jìn)行評(píng)估巴粪，然后使用秩和算法對(duì)所有指標(biāo)進(jìn)行排序通今。

山脊線的高度表示不同dataset的rank和score粥谬，rank和score越低表示性能越好肛根。即出現(xiàn)在底部的Harmony、LIGER和Seurat 3是總體得分最高的前三算法漏策。

圖21B:作者舉例了對(duì)于dataset8的十四種算法的內(nèi)存使用情況派哲。

圖21C：展示了14種算法處理時(shí)需要的時(shí)間。

▼▼是否遺漏了往期精彩生信解析沒(méi)看呢掺喻？▼▼

還沒(méi)發(fā)論文芭届？2020年醫(yī)學(xué)生信分析有這些！

關(guān)注科研菌回復(fù)"1"即可獲取"28G全網(wǎng)最全科研繪圖素材"感耙、"谷歌上網(wǎng)助手"(梯子)和"科研常用軟件合集"褂乍、“腫瘤/消化內(nèi)科指南”、"考研復(fù)試大禮包"即硼；回復(fù)2020逃片，可獲得2020年生信套路合集；回復(fù)“單細(xì)胞文獻(xiàn)”只酥，可獲得單細(xì)胞文獻(xiàn)合集(均無(wú)需轉(zhuǎn)發(fā)/集贊)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

禁止轉(zhuǎn)載褥实，如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者。

人面猴
序言：七十年代末裂允，一起剝皮案震驚了整個(gè)濱河市损离，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌绝编，老刑警劉巖僻澎，帶你破解...
沈念sama閱讀 218,682評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異十饥，居然都是意外死亡怎棱，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,277評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)绷跑，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拳恋，“玉大人，你說(shuō)我怎么就攤上這事砸捏∶耍” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,083評(píng)論 0贊 355
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵垦藏，是天一觀的道長(zhǎng)梆暖。經(jīng)常有香客問(wèn)我，道長(zhǎng)掂骏，這世上最難降的妖魔是什么轰驳？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,763評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上级解，老公的妹妹穿的比我還像新娘冒黑。我一直安慰自己，他們只是感情好勤哗，可當(dāng)我...
茶點(diǎn)故事閱讀 67,785評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布抡爹。她就那樣靜靜地躺著，像睡著了一般芒划。火紅的嫁衣襯著肌膚如雪冬竟。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,624評(píng)論 1贊 305
城市分裂傳說(shuō)
那天民逼，我揣著相機(jī)與錄音泵殴，去河邊找鬼。笑死拼苍，一個(gè)胖子當(dāng)著我的面吹牛袋狞，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播映屋，決...
沈念sama閱讀 40,358評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼苟鸯，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了棚点？” 一聲冷哼從身側(cè)響起早处，我...
開(kāi)封第一講書(shū)人閱讀 39,261評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎瘫析，沒(méi)想到半個(gè)月后砌梆，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,722評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡贬循，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年咸包，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片杖虾。...
茶點(diǎn)故事閱讀 40,030評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡烂瘫，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出奇适，到底是詐尸還是另有隱情坟比，我是刑警寧澤，帶...
沈念sama閱讀 35,737評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布嚷往，位于F島的核電站葛账，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏皮仁。R本人自食惡果不足惜籍琳，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,360評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一菲宴、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧趋急，春花似錦喝峦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,941評(píng)論 0贊 22
一樁弒父案愈犹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)键科。三九已至闻丑，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間勋颖，已是汗流浹背嗦嗡。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,057評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留饭玲，地道東北人侥祭。一個(gè)月前我還...
沈念sama閱讀 48,237評(píng)論 3贊 371
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像茄厘，于是被迫代替她去往敵國(guó)和親矮冬。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,976評(píng)論 2贊 355