Nat Comm | 深度清洗單細(xì)胞RNA-Seq數(shù)據(jù)的通用深度神經(jīng)網(wǎng)絡(luò)
圖靈基因?圖靈基因?2022-05-11 07:03
收錄于合集#前沿生物大數(shù)據(jù)分析
北卡羅來(lái)納大學(xué)(UNC)夏洛特分校的科學(xué)家們?cè)赪eijun Luo博士和Cory Brouwer博士的帶領(lǐng)下抒线,報(bào)告了一種人工智能算法的開發(fā)禁灼,可以“清理”嘈雜的單細(xì)胞RNA測(cè)序(scRNA-Seq)數(shù)據(jù)老厌。該團(tuán)隊(duì)的研究(“A Universal Deep Neural Network for In-Depth Cleaning of Single-Cell RNA-Seq Data”)發(fā)表在《Nature Communications》上。
從識(shí)別與鐮狀細(xì)胞性貧血和乳腺癌相關(guān)的特定基因到正在持續(xù)的COVID-19大流行中制造mRNA疫苗担巩,自20世紀(jì)90年代人類基因組計(jì)劃開始實(shí)施以來(lái)微谓,研究人員一直在深入研究基因組憨栽。技術(shù)已經(jīng)從早期的成批處理數(shù)千個(gè)細(xì)胞到解密構(gòu)成遺傳信息的數(shù)百萬(wàn)個(gè)堿基對(duì)的技術(shù)發(fā)展而來(lái)。2009年床玻,研究人員創(chuàng)建了目前廣泛用于生物醫(yī)學(xué)研究的scRNA-Seq毁涉,它只對(duì)活生物體單個(gè)細(xì)胞中的轉(zhuǎn)錄組或基因組表達(dá)部分進(jìn)行測(cè)序。
不幸的是锈死,scRNA-Seq數(shù)據(jù)比較“嘈雜”贫堰,存在大量錯(cuò)誤和質(zhì)量問(wèn)題。對(duì)單個(gè)細(xì)胞而非多個(gè)細(xì)胞進(jìn)行測(cè)序會(huì)導(dǎo)致頻繁丟失(數(shù)據(jù)中缺少基因)待牵。一個(gè)細(xì)胞其屏,就像一個(gè)人一樣,可能有自己的健康問(wèn)題缨该,或者在其生命周期中處于尷尬的階段——它可能剛剛分裂偎行,或者正在走向細(xì)胞死亡,這可能會(huì)在scRNA-Seq數(shù)據(jù)中產(chǎn)生更多錯(cuò)誤或技術(shù)變化贰拿。
除了單細(xì)胞特異性問(wèn)題外蛤袒,基因組分析通常還伴隨著測(cè)序錯(cuò)誤的“正常”問(wèn)題膨更。所有這些錯(cuò)誤都需要從數(shù)據(jù)中清除汗盘,然后才能使用或解釋,這就是新的AI算法的用武之地询一。
這種被稱為AutoClass的算法看起來(lái)是對(duì)現(xiàn)有統(tǒng)計(jì)方法的改進(jìn)隐孽。大多數(shù)現(xiàn)有方法都假設(shè)誤差(或噪聲)會(huì)遵循特定的預(yù)定義分布癌椿,或者誤差發(fā)生的可能性以及誤差的大小。現(xiàn)有方法通常無(wú)法完全清理數(shù)據(jù)以揭示生物信號(hào)菱阵,甚至可能由于對(duì)數(shù)據(jù)分布的不正確假設(shè)而增加新的錯(cuò)誤踢俄。
研究團(tuán)隊(duì)稱,與此相反晴及,AutoClass不做任何分布假設(shè)都办,因此可以有效地糾正各種噪音或技術(shù)變化。
“scRNA-Seq被廣泛用于生物醫(yī)學(xué)研究虑稼,產(chǎn)生了大量多樣性的數(shù)據(jù)琳钉。原始數(shù)據(jù)包含多種類型的噪聲和技術(shù)偽影,需要徹底清理≈刖耄現(xiàn)有的去噪和插補(bǔ)方法主要集中在單一類型的噪聲(即丟失)上歌懒,并且具有很強(qiáng)的分布假設(shè),這大大限制了它們的性能和應(yīng)用溯壶〖霸恚”研究人員寫道。
“在這里且改,我們?cè)O(shè)計(jì)并開發(fā)了AutoClass模型验烧,集成了兩個(gè)深度神經(jīng)網(wǎng)絡(luò)組件、一個(gè)自動(dòng)編碼器和一個(gè)分類器又跛,以最大限度地消除噪聲和保持信號(hào)碍拆。AutoClass不依賴于分布,因?yàn)樗粚?duì)特定的數(shù)據(jù)分布做任何假設(shè)慨蓝,因此可以有效地清除各種噪聲和偽影倔监。AutoClass在多種類型的scRNA-Seq數(shù)據(jù)分析中優(yōu)于最先進(jìn)的方法,包括數(shù)據(jù)恢復(fù)菌仁、差異表達(dá)分析浩习、聚類分析和批量效應(yīng)消除〖们穑”
“AutoClass是一種基于特殊深度神經(jīng)網(wǎng)絡(luò)的人工智能算法谱秽,旨在最大限度地去除噪音和保持信號(hào)∧∶裕”目前在Novant Health擔(dān)任數(shù)據(jù)科學(xué)和人工智能高級(jí)總監(jiān)的Luo說(shuō)疟赊,“人工智能通過(guò)查看足夠多的數(shù)據(jù)來(lái)教自己區(qū)分?jǐn)?shù)據(jù)中的信號(hào)與噪聲。通常峡碉,它看到的數(shù)據(jù)越多近哟,性能就越好■昙模”
在這項(xiàng)研究中吉执,Luo指出疯淫,他和他的團(tuán)隊(duì)證明了AutoClass可以重建高質(zhì)量的scRNA-Seq數(shù)據(jù),并在多個(gè)方面增強(qiáng)下游分析戳玫。此外熙掺,AutoClass非常強(qiáng)大,在各種scRNA-Seq數(shù)據(jù)類型和條件下表現(xiàn)良好咕宿,他補(bǔ)充道币绩。
科學(xué)家們說(shuō),AutoClass效率高府阀、可擴(kuò)展性強(qiáng)缆镣,可以很好地處理各種樣本大小和特征大小的數(shù)據(jù),即使在普通PC或筆記本電腦上也能平穩(wěn)運(yùn)行试浙。AutoClass是在線開源的董瞻。
Brouwer是北卡羅來(lái)納大學(xué)夏洛特分校生物信息學(xué)和基因組學(xué)教授兼生物信息學(xué)服務(wù)主任。