deepMNN:基于深度學(xué)習(xí)模型進(jìn)行scRNA-seq批次效應(yīng)校正的新方法

2021年8月10日,深圳華大生命科學(xué)研究院精準(zhǔn)健康研究所智能算法團(tuán)隊(duì)在知名學(xué)術(shù)雜志《遺傳學(xué)前沿》(Frontiers in Genetics)在線發(fā)表了題為“deepMNN: Deep Learning-Based Single-Cell RNA Sequencing Data Batch Correction Using Mutual Nearest Neighbors”的研究論文梧田,文章提出了一種新的基于深度學(xué)習(xí)模型進(jìn)行單細(xì)胞RNA測(cè)序數(shù)據(jù)(scRNA-seq)批次效應(yīng)校正的方法deepMNN膳汪。

高通量單細(xì)胞RNA測(cè)序技術(shù)的快速發(fā)展產(chǎn)生了海量的scRNA-seq數(shù)據(jù)框沟,充分利用并整合不同數(shù)據(jù)集進(jìn)行大規(guī)模單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)挖掘可以為細(xì)胞異質(zhì)性及其進(jìn)化動(dòng)力學(xué)提供更多新的見(jiàn)解雇毫。然而不同scRNA-seq數(shù)據(jù)可能產(chǎn)生于不同時(shí)間和測(cè)序平臺(tái)恒界,這些數(shù)據(jù)之間不可避免的存在技術(shù)或無(wú)生物學(xué)意義差異的批次效應(yīng)桨啃。雖然目前已經(jīng)提出了許多scRNA-seq數(shù)據(jù)批次效應(yīng)校正算法车胡,但大多數(shù)方法需要消耗大量?jī)?nèi)存和時(shí)間,且這種需求隨著不斷增加的scRNA-seq數(shù)據(jù)會(huì)進(jìn)一步加劇照瘾。


deepMNN是什么匈棘?

研究團(tuán)隊(duì)基于深度學(xué)習(xí)模型設(shè)計(jì)并開(kāi)發(fā)了deepMNN方法用于校正scRNA-seq數(shù)據(jù)批次效應(yīng)。deepMNN通過(guò)主成分分析降維并在其子空間中計(jì)算批次間的互近鄰對(duì)(MNN pairs)析命,然后構(gòu)建一個(gè)基于深度殘差網(wǎng)絡(luò)的深度學(xué)習(xí)模型消除批次效應(yīng)主卫。deepMNN通過(guò)自己特有的損失函數(shù)指導(dǎo)其進(jìn)行模型學(xué)習(xí)從而消除scRNA-seq數(shù)據(jù)間的批次效應(yīng)。

deepMNN框架鹃愤。(A)deepMNN工作流示意圖簇搅,(B)批次矯正網(wǎng)絡(luò)中的殘差模塊。


deepMNN的性能測(cè)試

為了評(píng)估deepMNN的批次效應(yīng)校正效能昼浦,文章使用4種不同批次場(chǎng)景的scRNA-seq數(shù)據(jù)集馍资,包括(A)兩個(gè)批次且細(xì)胞類型相同,(B)兩個(gè)批次但細(xì)胞類型不同(即batch-specific數(shù)據(jù))关噪,(C)多個(gè)批次數(shù)據(jù)集鸟蟹,(D)大規(guī)模數(shù)據(jù)集。

文章使用的4種不同批次的scRNA-seq數(shù)據(jù)


文章在4種不同場(chǎng)景下比較了deepMNN和常用的批次效應(yīng)校正算法(Harmony, Scanorama和Seurat V4)以及已發(fā)表的基于深度學(xué)習(xí)的批次效應(yīng)校正方法(MMD-ResNet和scGen)使兔。實(shí)驗(yàn)結(jié)果表明建钥,與其他校正方法相比,deepMNN不僅在定性指標(biāo)(UMAP可視化結(jié)果)和定量指標(biāo)(batch and cell entropy, ARI F1 score 和 ASW F1 score)方面達(dá)到較好或可比的性能虐沥,且處理大數(shù)據(jù)時(shí)在運(yùn)算時(shí)間方面有較大優(yōu)勢(shì)熊经。

在“兩個(gè)批次且細(xì)胞類型相同”的場(chǎng)景下,deepMNN與其他常用批次效應(yīng)校正算法的定性和定量比較結(jié)果


值得注意的是欲险,對(duì)于多批次數(shù)據(jù)镐依,目前常見(jiàn)的批次效應(yīng)校正算法如Scanorama 和 Seurat V4一次只合并兩個(gè)數(shù)據(jù)集,并通過(guò)迭代來(lái)完成多個(gè)數(shù)據(jù)集的集成天试。而deepMNN 是目前已知第一個(gè)可以一步整合多個(gè)批次 scRNA-seq 數(shù)據(jù)的方法槐壳。對(duì)于大規(guī)模數(shù)據(jù)集HCA(總計(jì)達(dá)528014個(gè)細(xì)胞)中進(jìn)行批次效應(yīng)校正,由于Seurat V4 和scGen超出了64G內(nèi)存限制使其不可運(yùn)行喜每,deepMNN使用17分鐘完成了該大規(guī)模數(shù)據(jù)集的批次效應(yīng)校正务唐,而Harmony和Scanorama則分別需要大約35分鐘和77分鐘雳攘。

在大規(guī)模數(shù)據(jù)集HCA場(chǎng)景下,deepMNN與其他常用批次效應(yīng)校正算法的定性比較


總之枫笛,文章基于深度學(xué)習(xí)模型提出新的單細(xì)胞RNA測(cè)序數(shù)據(jù)批次效應(yīng)校正方法deepMNN吨灭,準(zhǔn)確性優(yōu)于現(xiàn)有常用方法,特別是在大規(guī)模數(shù)據(jù)集的情況下刑巧,deepMNN算法的時(shí)間復(fù)雜度和空間復(fù)雜度均表現(xiàn)優(yōu)異喧兄,同時(shí)deepMNN一步即可整合多批次數(shù)據(jù)集,無(wú)需多次迭代海诲。

深圳華大生命科學(xué)研究院白勇博士繁莹、金鑫研究員為論文共同通訊作者。

deepMNN的源代碼特幔,包括研究的實(shí)驗(yàn)結(jié)果咨演,可以在以下網(wǎng)址獲取 :https://github.com/zoubin-ai/deepMNN??


首發(fā)公號(hào):國(guó)家基因庫(kù)大數(shù)據(jù)平臺(tái)??

參考文獻(xiàn)

Zou B, Zhang T, Zhou R, et al. deepMNN: Deep Learning-Based Single-Cell RNA Sequencing Data Batch Correction Using Mutual Nearest Neighbors[J]. Frontiers in Genetics, 2021: 1441.

圖片及信息來(lái)源:“華大BGI”公眾號(hào)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蚯斯,隨后出現(xiàn)的幾起案子薄风,更是在濱河造成了極大的恐慌,老刑警劉巖拍嵌,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件遭赂,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡横辆,警方通過(guò)查閱死者的電腦和手機(jī)撇他,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)狈蚤,“玉大人困肩,你說(shuō)我怎么就攤上這事〈辔辏” “怎么了锌畸?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)靖避。 經(jīng)常有香客問(wèn)我潭枣,道長(zhǎng),這世上最難降的妖魔是什么幻捏? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任盆犁,我火速辦了婚禮,結(jié)果婚禮上篡九,老公的妹妹穿的比我還像新娘蚣抗。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布翰铡。 她就那樣靜靜地躺著,像睡著了一般讽坏。 火紅的嫁衣襯著肌膚如雪锭魔。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天路呜,我揣著相機(jī)與錄音迷捧,去河邊找鬼。 笑死胀葱,一個(gè)胖子當(dāng)著我的面吹牛漠秋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播抵屿,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼庆锦,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了轧葛?” 一聲冷哼從身側(cè)響起搂抒,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎尿扯,沒(méi)想到半個(gè)月后求晶,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡衷笋,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年芳杏,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辟宗。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡爵赵,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出慢蜓,到底是詐尸還是另有隱情亚再,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布晨抡,位于F島的核電站氛悬,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏耘柱。R本人自食惡果不足惜如捅,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望调煎。 院中可真熱鬧镜遣,春花似錦、人聲如沸士袄。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至寓辱,卻和暖如春艘绍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背秫筏。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工诱鞠, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人这敬。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓航夺,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親崔涂。 傳聞我的和親對(duì)象是個(gè)殘疾皇子阳掐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容