2023年6月7日,來自北京科技大學(xué)捐下,清華大學(xué)與中山大學(xué)的研究者在biorxiv上發(fā)布了一篇題為“OmicVerse: A single pipeline for exploring the entire transcriptome universe” 的研究工作款熬。該框架的提出,解決了單細(xì)胞轉(zhuǎn)錄組學(xué)與bulk轉(zhuǎn)錄組學(xué)分析中不同算法的格式不一致,運(yùn)算過慢以及可視化問題庇忌。除此之外,該框架還提出了一種名為“BulkTrajBlend”的單細(xì)胞插補(bǔ)算法舰褪,用于解決單細(xì)胞測(cè)序中由于技術(shù)限制(如通量皆疹,細(xì)胞類型)導(dǎo)致的細(xì)胞分化的中斷問題。我是論文的第一作者占拍。
代碼倉庫:https://github.com/Starlitnightly/omicverse/
框架教程:https://omicverse.readthedocs.io/en/latest/
論文地址:OmicVerse: A single pipeline for exploring the entire transcriptome universe
引言
omicverse是在我大三保研做Bulk RNA-seq時(shí)提出的略就,當(dāng)時(shí)為了自己的方便,就把差異表達(dá)分析(DEG)晃酒,加權(quán)基因共表達(dá)分析(WGCNA)残制,通路富集分析(GSEA)等整合進(jìn)了一個(gè)叫Pyomic的包中方便自己調(diào)用,當(dāng)時(shí)的野心很大掖疮,想把整個(gè)組學(xué)分析都用Python來完成(笑)〕醪瑁現(xiàn)在博士一年級(jí),也做了快兩年的單細(xì)胞分析浊闪,中途用了很多包恼布,但不同的包之間,對(duì)于格式的需求往往是不一樣的搁宾,而且有的包本身并沒有好好利用GPU的計(jì)算優(yōu)勢(shì)折汞,并且大部分的包所作的圖與CNS上的圖差別還是比較大的。所以我就把當(dāng)時(shí)的Pyomic給撿了起來盖腿,把我做分析用到的所有包都塞進(jìn)了omicverse里面爽待,統(tǒng)一了它們的輸入輸出,并對(duì)部分可以優(yōu)化的算法進(jìn)行了優(yōu)化翩腐,以及給出了一些新的可視化函數(shù)來幫助研究人員呈現(xiàn)結(jié)果鸟款。可能你會(huì)想茂卦,這不就是一個(gè)整合的包嗎何什?但其實(shí)不是。
我通過大量的基準(zhǔn)測(cè)試等龙,以及相關(guān)的paper处渣,整理出了一套最適的Python單細(xì)胞分析流程伶贰,Bulk RNA-seq分析流程與可視化。
我提出了一種新的生物學(xué)算法“BulkTrajBlend”罐栈,解決了單細(xì)胞測(cè)序中由于通量限制導(dǎo)致的細(xì)胞不連續(xù)現(xiàn)象黍衙。
Bulk RNA-seq
整個(gè)框架由三部分構(gòu)成,分別是Bulk RNA-seq荠诬,singel cell RNA-seq以及Bulk2Single部分琅翻。omicverse提出了一套完整的Bulk RNA-seq分析流程,包括基因ID比對(duì)
浅妆,差異表達(dá)分析(ttest望迎,wliconx,DESeq2)
凌外,通路富集分析
辩尊,基因共表達(dá)模塊分析
。在Supplementary Note里面康辑,我們通過阿爾茨海默癥的RNA-seq數(shù)據(jù)演示了整個(gè)分析
Bulk RNA-seq分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-bulk/t_deseq2/
single cell RNA-seq
對(duì)于單細(xì)胞分析摄欲,omicverse也提供了一套完整的分析框架,包括單細(xì)胞質(zhì)控與預(yù)處理
,細(xì)胞類型自動(dòng)注釋
疮薇,細(xì)胞分化軌跡推斷
胸墙,亞群差異表達(dá)分析
,細(xì)胞通路打分AUCell
按咒,藥物反應(yīng)預(yù)測(cè)
迟隅,細(xì)胞通訊分析
。我們應(yīng)用結(jié)直腸癌的單細(xì)胞數(shù)據(jù)來完成了分析的實(shí)驗(yàn)励七。
單細(xì)胞RNA-seq分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-single/t_cellanno/
scRNA-seq與scATAC-seq聯(lián)合分析
在去年智袭,來自北京大學(xué)的高歌課題組提出了一種名為GLUE的算法,將兩個(gè)不同的組學(xué)層嵌入到一個(gè)低維空間中掠抬,文章發(fā)表在Nature Biotechnology吼野。在2018年,多組學(xué)算法MOFA的提出解決了斑馬魚內(nèi)胚層命運(yùn)的分化問題两波,文章發(fā)表在Nature上瞳步。但MOFA受限于一個(gè)樣本多個(gè)組學(xué)層,GLUE恰好可以解決不同組學(xué)層的整合問題腰奋,故我們將GLUE與MOFA的聯(lián)合分析整合進(jìn)了omicverse中单起。我們?cè)赟upplementary中應(yīng)用阿爾茲海默癥證明分析的可靠性。
多組學(xué)分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-single/t_mofa_glue/
從Bulk RNA-seq生成Single RNA-seq
2022年氛堕,浙江大學(xué)范曉輝課題組提出了BulkSpace算法馏臭,該算法利用解卷積與深度隨機(jī)森林模型解決了從Bulk RNA-seq生成空間轉(zhuǎn)錄組數(shù)據(jù)的問題。我們將該算法拆解成兩個(gè)部分:bulk2single與single2spatial讼稚,并且我們改進(jìn)了single2spatial部分括儒,因?yàn)樵髡呤窍胗蒙疃入S機(jī)森林完成分類問題,我們改成了神經(jīng)網(wǎng)絡(luò)完成分類問題锐想,充分利用了GPU加速帮寻。我們對(duì)比了優(yōu)化前后的算法,分類與生成效果一致赠摇,同時(shí)速度大幅提升固逗。我們?cè)诎柎暮DY和PDAC數(shù)據(jù)上給出了算法的分析框架。
Bulk2single分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-bulk2single/t_bulk2single/
結(jié)語
我個(gè)人很喜歡這項(xiàng)工作藕帜,它減少了我很多的代碼量烫罩。在論文的最后部分我是這么寫的。我希望構(gòu)建一個(gè)基于Python的轉(zhuǎn)錄組學(xué)分析框架與生態(tài)洽故,但僅憑我一人之力可能還有很多問題沒有發(fā)現(xiàn)贝攒,歡迎對(duì)omicverse感興趣的研究人員在github上面提相關(guān)的issue或者pr,幫助omicverse變得更好时甚。
github地址:https://github.com/Starlitnightly/omicverse/
||| 我們的目標(biāo)是在Python環(huán)境中創(chuàng)建一個(gè)適用于bulk/singel RNA-seq分析和優(yōu)美可視化的生態(tài)系統(tǒng)隘弊。用戶可以利用Python社區(qū)的機(jī)器學(xué)習(xí)模型和專業(yè)知識(shí),使用單一編程語言進(jìn)行全面的轉(zhuǎn)錄組分析荒适。隨著OmicVerse不斷發(fā)展梨熙,我們預(yù)計(jì)會(huì)進(jìn)行持續(xù)更新,引入新的算法刀诬、功能和模型咽扇。OmicVerse預(yù)計(jì)將受益于bulk/singel RNA-seq社區(qū),促進(jìn)新模型的原型開發(fā)陕壹,建立跨組學(xué)分析的標(biāo)準(zhǔn)质欲,以及加強(qiáng)科學(xué)發(fā)現(xiàn)的流程。
參考文獻(xiàn):
[1] Zeng Z, Ma Y, Hu L, Xiong Y, Du H. OmicVerse: A single pipeline for exploring the entire transcriptome universe. Cold Spring Harbor Laboratory; 2023.