OmicVerse: 解決整個(gè)轉(zhuǎn)錄組學(xué)分析的Python框架

2023年6月7日,來自北京科技大學(xué)捐下,清華大學(xué)與中山大學(xué)的研究者在biorxiv上發(fā)布了一篇題為“OmicVerse: A single pipeline for exploring the entire transcriptome universe” 的研究工作款熬。該框架的提出,解決了單細(xì)胞轉(zhuǎn)錄組學(xué)與bulk轉(zhuǎn)錄組學(xué)分析中不同算法的格式不一致,運(yùn)算過慢以及可視化問題庇忌。除此之外,該框架還提出了一種名為“BulkTrajBlend”的單細(xì)胞插補(bǔ)算法舰褪,用于解決單細(xì)胞測(cè)序中由于技術(shù)限制(如通量皆疹,細(xì)胞類型)導(dǎo)致的細(xì)胞分化的中斷問題。我是論文的第一作者占拍。

代碼倉庫:https://github.com/Starlitnightly/omicverse/

框架教程:https://omicverse.readthedocs.io/en/latest/

論文地址:OmicVerse: A single pipeline for exploring the entire transcriptome universe

引言

omicverse是在我大三保研做Bulk RNA-seq時(shí)提出的略就,當(dāng)時(shí)為了自己的方便,就把差異表達(dá)分析(DEG)晃酒,加權(quán)基因共表達(dá)分析(WGCNA)残制,通路富集分析(GSEA)等整合進(jìn)了一個(gè)叫Pyomic的包中方便自己調(diào)用,當(dāng)時(shí)的野心很大掖疮,想把整個(gè)組學(xué)分析都用Python來完成(笑)〕醪瑁現(xiàn)在博士一年級(jí),也做了快兩年的單細(xì)胞分析浊闪,中途用了很多包恼布,但不同的包之間,對(duì)于格式的需求往往是不一樣的搁宾,而且有的包本身并沒有好好利用GPU的計(jì)算優(yōu)勢(shì)折汞,并且大部分的包所作的圖與CNS上的圖差別還是比較大的。所以我就把當(dāng)時(shí)的Pyomic給撿了起來盖腿,把我做分析用到的所有包都塞進(jìn)了omicverse里面爽待,統(tǒng)一了它們的輸入輸出,并對(duì)部分可以優(yōu)化的算法進(jìn)行了優(yōu)化翩腐,以及給出了一些新的可視化函數(shù)來幫助研究人員呈現(xiàn)結(jié)果鸟款。可能你會(huì)想茂卦,這不就是一個(gè)整合的包嗎何什?但其實(shí)不是。

  • 我通過大量的基準(zhǔn)測(cè)試等龙,以及相關(guān)的paper处渣,整理出了一套最適的Python單細(xì)胞分析流程伶贰,Bulk RNA-seq分析流程與可視化。

  • 我提出了一種新的生物學(xué)算法“BulkTrajBlend”罐栈,解決了單細(xì)胞測(cè)序中由于通量限制導(dǎo)致的細(xì)胞不連續(xù)現(xiàn)象黍衙。

圖1|omicverse的概述

Bulk RNA-seq

整個(gè)框架由三部分構(gòu)成,分別是Bulk RNA-seq荠诬,singel cell RNA-seq以及Bulk2Single部分琅翻。omicverse提出了一套完整的Bulk RNA-seq分析流程,包括基因ID比對(duì)浅妆,差異表達(dá)分析(ttest望迎,wliconx,DESeq2)凌外,通路富集分析辩尊,基因共表達(dá)模塊分析。在Supplementary Note里面康辑,我們通過阿爾茨海默癥的RNA-seq數(shù)據(jù)演示了整個(gè)分析

Bulk RNA-seq分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-bulk/t_deseq2/

圖2|Bulk RNA-seq的分析效果

single cell RNA-seq

對(duì)于單細(xì)胞分析摄欲,omicverse也提供了一套完整的分析框架,包括單細(xì)胞質(zhì)控與預(yù)處理,細(xì)胞類型自動(dòng)注釋疮薇,細(xì)胞分化軌跡推斷胸墙,亞群差異表達(dá)分析細(xì)胞通路打分AUCell按咒,藥物反應(yīng)預(yù)測(cè)迟隅,細(xì)胞通訊分析。我們應(yīng)用結(jié)直腸癌的單細(xì)胞數(shù)據(jù)來完成了分析的實(shí)驗(yàn)励七。

單細(xì)胞RNA-seq分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-single/t_cellanno/

圖3|單細(xì)胞RNA-seq的分析效果
圖4|單細(xì)胞RNA-seq的分析效果

scRNA-seq與scATAC-seq聯(lián)合分析

在去年智袭,來自北京大學(xué)的高歌課題組提出了一種名為GLUE的算法,將兩個(gè)不同的組學(xué)層嵌入到一個(gè)低維空間中掠抬,文章發(fā)表在Nature Biotechnology吼野。在2018年,多組學(xué)算法MOFA的提出解決了斑馬魚內(nèi)胚層命運(yùn)的分化問題两波,文章發(fā)表在Nature上瞳步。但MOFA受限于一個(gè)樣本多個(gè)組學(xué)層,GLUE恰好可以解決不同組學(xué)層的整合問題腰奋,故我們將GLUE與MOFA的聯(lián)合分析整合進(jìn)了omicverse中单起。我們?cè)赟upplementary中應(yīng)用阿爾茲海默癥證明分析的可靠性。

多組學(xué)分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-single/t_mofa_glue/

圖5|多組學(xué)整合效果

從Bulk RNA-seq生成Single RNA-seq

2022年氛堕,浙江大學(xué)范曉輝課題組提出了BulkSpace算法馏臭,該算法利用解卷積與深度隨機(jī)森林模型解決了從Bulk RNA-seq生成空間轉(zhuǎn)錄組數(shù)據(jù)的問題。我們將該算法拆解成兩個(gè)部分:bulk2single與single2spatial讼稚,并且我們改進(jìn)了single2spatial部分括儒,因?yàn)樵髡呤窍胗蒙疃入S機(jī)森林完成分類問題,我們改成了神經(jīng)網(wǎng)絡(luò)完成分類問題锐想,充分利用了GPU加速帮寻。我們對(duì)比了優(yōu)化前后的算法,分類與生成效果一致赠摇,同時(shí)速度大幅提升固逗。我們?cè)诎柎暮DY和PDAC數(shù)據(jù)上給出了算法的分析框架。

Bulk2single分析教程:https://omicverse.readthedocs.io/en/latest/Tutorials-bulk2single/t_bulk2single/

圖6|Bulk2single分析效果

結(jié)語

我個(gè)人很喜歡這項(xiàng)工作藕帜,它減少了我很多的代碼量烫罩。在論文的最后部分我是這么寫的。我希望構(gòu)建一個(gè)基于Python的轉(zhuǎn)錄組學(xué)分析框架與生態(tài)洽故,但僅憑我一人之力可能還有很多問題沒有發(fā)現(xiàn)贝攒,歡迎對(duì)omicverse感興趣的研究人員在github上面提相關(guān)的issue或者pr,幫助omicverse變得更好时甚。

github地址:https://github.com/Starlitnightly/omicverse/

||| 我們的目標(biāo)是在Python環(huán)境中創(chuàng)建一個(gè)適用于bulk/singel RNA-seq分析和優(yōu)美可視化的生態(tài)系統(tǒng)隘弊。用戶可以利用Python社區(qū)的機(jī)器學(xué)習(xí)模型和專業(yè)知識(shí),使用單一編程語言進(jìn)行全面的轉(zhuǎn)錄組分析荒适。隨著OmicVerse不斷發(fā)展梨熙,我們預(yù)計(jì)會(huì)進(jìn)行持續(xù)更新,引入新的算法刀诬、功能和模型咽扇。OmicVerse預(yù)計(jì)將受益于bulk/singel RNA-seq社區(qū),促進(jìn)新模型的原型開發(fā)陕壹,建立跨組學(xué)分析的標(biāo)準(zhǔn)质欲,以及加強(qiáng)科學(xué)發(fā)現(xiàn)的流程。

參考文獻(xiàn):

[1] Zeng Z, Ma Y, Hu L, Xiong Y, Du H. OmicVerse: A single pipeline for exploring the entire transcriptome universe. Cold Spring Harbor Laboratory; 2023.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末帐要,一起剝皮案震驚了整個(gè)濱河市把敞,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌榨惠,老刑警劉巖奋早,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異赠橙,居然都是意外死亡耽装,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門期揪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來掉奄,“玉大人,你說我怎么就攤上這事⌒战ǎ” “怎么了诞仓?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長速兔。 經(jīng)常有香客問我墅拭,道長,這世上最難降的妖魔是什么涣狗? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任谍婉,我火速辦了婚禮,結(jié)果婚禮上镀钓,老公的妹妹穿的比我還像新娘穗熬。我一直安慰自己,他們只是感情好丁溅,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布唤蔗。 她就那樣靜靜地躺著,像睡著了一般唧瘾。 火紅的嫁衣襯著肌膚如雪措译。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天饰序,我揣著相機(jī)與錄音领虹,去河邊找鬼。 笑死求豫,一個(gè)胖子當(dāng)著我的面吹牛塌衰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蝠嘉,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼最疆,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了蚤告?” 一聲冷哼從身側(cè)響起努酸,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎杜恰,沒想到半個(gè)月后获诈,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡心褐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年舔涎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逗爹。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡亡嫌,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情挟冠,我是刑警寧澤于购,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站圃郊,受9級(jí)特大地震影響价涝,放射性物質(zhì)發(fā)生泄漏女蜈。R本人自食惡果不足惜持舆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望伪窖。 院中可真熱鬧逸寓,春花似錦、人聲如沸覆山。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽簇宽。三九已至勋篓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間魏割,已是汗流浹背譬嚣。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钞它,地道東北人拜银。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像遭垛,于是被迫代替她去往敵國和親尼桶。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容