作為細(xì)胞異質(zhì)性研究的重要工具几迄,單細(xì)胞轉(zhuǎn)錄組測序技術(shù)近年來蓬勃發(fā)展社露,積累了大量研究數(shù)據(jù)。類似于功能基因研究衅枫,對于一個(gè)未知的只知道序列的基因,我們就想通過序列比對的方法去預(yù)測其功能朗伶。那么對于已知表達(dá)值的cell弦撩,是個(gè)什么類型的cell,就需要通過比對去預(yù)測其類型(只不過基因的屬性是序列论皆,而cell的屬性是表達(dá)值而已)益楼。Cell BLAST是一個(gè)自帶高質(zhì)量參考數(shù)據(jù)庫的scRNA-seq數(shù)據(jù)檢索/注釋工具。這個(gè)網(wǎng)站由北京大學(xué)的研究團(tuán)隊(duì)研發(fā)点晴,論文發(fā)表在在《Nature Communications》:基于深度學(xué)習(xí)模型的scRNA-seq數(shù)據(jù)檢索和注釋的新方法Cell BLAST感凤,以及具備高質(zhì)量注釋的scRNA-seq參考數(shù)據(jù)庫ACA。這一數(shù)據(jù)庫為有效利用現(xiàn)有數(shù)據(jù)進(jìn)行細(xì)胞注釋和跨數(shù)據(jù)集研究提供了新的工具和資源粒督。
===高質(zhì)量注釋參考庫:ACA======
?
Animal Cell Atlas (ACA) 是一個(gè)涵蓋2,989,582個(gè)單細(xì)胞陪竿、8個(gè)物種、27個(gè)不同的組織器官的數(shù)據(jù)庫對ACA中的細(xì)胞注釋進(jìn)行了詳細(xì)的整理屠橄,并使用Cell Ontology構(gòu)建了一套結(jié)構(gòu)化的細(xì)胞類型標(biāo)注族跛,用于統(tǒng)一不同數(shù)據(jù)集中的標(biāo)注以及支持細(xì)胞類型的推斷。
我自己把他們的庫下載之后锐墙,現(xiàn)在應(yīng)該有9個(gè)物種礁哄、31個(gè)組織、3,563,615個(gè)cell溪北,來自99個(gè)study桐绒。
========克服批次效應(yīng)==========
?
Cell BLAST使用對抗自編碼器進(jìn)行轉(zhuǎn)錄組數(shù)據(jù)降維夺脾,利用對抗學(xué)習(xí)策略來消除數(shù)據(jù)集間的批次效應(yīng)。
對抗自編碼器(AAE)是一種可以將自動(dòng)編碼器轉(zhuǎn)換為生成模型的通用方法掏膏。自動(dòng)編碼器訓(xùn)練有雙重目標(biāo) - 傳統(tǒng)的重建誤差標(biāo)準(zhǔn)和對抗訓(xùn)練標(biāo)準(zhǔn)劳翰,它將自動(dòng)編碼器潛在表示的聚合后驗(yàn)分布與任意先驗(yàn)分布相匹配。AAE的體系結(jié)構(gòu)如下圖所示馒疹,頂行是標(biāo)準(zhǔn)自動(dòng)編碼器佳簸,其從潛在代碼z重建圖像x。底行圖表示第二個(gè)網(wǎng)絡(luò)經(jīng)過訓(xùn)練颖变,可以有區(qū)別地預(yù)測樣本是來自自動(dòng)編碼器的隱藏代碼還是來自用戶指定的采樣分布生均。
從數(shù)學(xué)角度來講,令x為輸入腥刹,z為具有深編碼器和解碼器的自動(dòng)編碼器的潛碼矢量(隱藏單元)马胧。設(shè)p(z)是我們想要對代碼施加的先驗(yàn)分布,q(z | x)是編碼分布衔峰,p(x | z)是解碼分布佩脊。讓p_d(x)為數(shù)據(jù)分布,p(x)為模型分布垫卤。自動(dòng)編碼器q(z | x)的編碼函數(shù)定義了自動(dòng)編碼器的隱藏代碼矢量上的q(z)的聚合后驗(yàn)分布威彰。
因?yàn)楫吘共谎芯繖C(jī)器學(xué)習(xí)領(lǐng)域,說實(shí)話怎么把對抗學(xué)習(xí)應(yīng)用的批次效應(yīng)的消除的穴肘,看了2遍paper都沒怎么看懂細(xì)節(jié)歇盼。
===cell blast的功能========
cell blast目前可以進(jìn)行細(xì)胞類型鑒定、發(fā)現(xiàn)新細(xì)胞類型评抚、注釋連續(xù)細(xì)胞狀態(tài)等豹缀。
比如,可以輸入表達(dá)值矩陣(不過目前只支持最多20000個(gè)cell的查詢慨代,并且不支持跨物種的查詢)邢笙。
然后會(huì)給返回查詢cell的預(yù)測功能等信息。
?
同時(shí)網(wǎng)站還給高級玩家侍匙,提供了Python軟件包Cell BLAST(https://github.com/gao-lab/Cell_ BLAST)氮惯。用戶可以使用軟件包在自定義的參考數(shù)據(jù)集上進(jìn)行模型訓(xùn)練、檢索和定制化分析丈积。目前筐骇,我們下載安裝好了债鸡,正在測試江滨。
本文使用 文章同步助手 同步