前情回顧
Seurat 4.0 ||單細胞數(shù)據(jù)分析工具箱有更新
Seurat 4.0 ||單細胞多模態(tài)數(shù)據(jù)整合算法WNN
Seurat 4.0 || 分析scRNA和表面抗體數(shù)據(jù)
Seurat 4.0 || WNN整合scRNA和scATAC數(shù)據(jù)
Seurat 4.0 || 單細胞PBMC多模態(tài)參考數(shù)據(jù)集
Seurat 4.0 || 單細胞BMNC多模態(tài)參考數(shù)據(jù)集
Seurat教程上新||Mixscape : 用多模態(tài)單細胞數(shù)據(jù)篩選免疫檢查點
2020年10月蟀淮,紐約基因組所( New York Genome Center )的 Satija Lab團隊開發(fā)的單細胞分析工具Seurat升級到了4.0,其特性之一是開發(fā)了加權鄰近(weighted-nearest neighbor鸦概,WNN)算法來分析多模態(tài)數(shù)據(jù)阀蒂。所謂多模態(tài)(multimodal )是指同時在一個細胞內(nèi)測量分屬于(廣義暖释?)中心法則不同過程的特征(如坏瞄,RNA蚂会,ATAC,膜蛋白等)作岖。直觀地說唆垃,這可以從多個側(cè)面反映細胞的真實狀態(tài)五芝,也會進一步細化我們對細胞行為與狀態(tài)的理解痘儡,這對我們研究生命發(fā)育、疾病形成的重要作用是不言而喻的枢步。我們知道沉删,如果是單一模態(tài)的數(shù)據(jù),如RNA醉途,只是一個側(cè)面矾瑰;如果只是獨立研究,如分別研究RNA和膜蛋白隘擎,許多時候不能很好的相互解釋殴穴。在單細胞面前我們都是貪玩的孩子,不能只摸到象牙就說這是根筷子货葬。
Seurat 4.0 提出WNN是在這樣的考慮之下的采幌,重要的是目前的技術已經(jīng)允許我們同時測量多模態(tài)數(shù)據(jù)了,如CITE-seq可以同時測得RNA和表面蛋白震桶,2020年10X公司也推出了同時測RNA和ATAC的商業(yè)解決方案休傍,空轉(zhuǎn)(ST)2019年也已經(jīng)面市。數(shù)據(jù)產(chǎn)生需要新的數(shù)學框架來整合他們蹲姐。
WNN算法細節(jié)以及應用實例可以在Satija Lab團隊的(預印本)文章Integrated analysis of multimodal single-cell data中查看閱讀磨取。本文是在學習Seurat 4.0 教程之后的體會,以饗關心單細胞技術發(fā)展的華語同行柴墩。謬誤在所難免忙厌,承蒙斧正,不勝感激江咳。
不變
Seurat的框架基本是沒變的慰毅。這對單細胞數(shù)據(jù)分析來說是一件好事,因為我們遇到過糟糕的情況:除了R包名字沒變之外扎阶,一切都變了的情況汹胃。如monocle的2和3,與其說是不同版本不如說是不同的R包了东臀。熟悉Seurat v3的同行應該能夠平穩(wěn)地過渡到Seurat v4着饥。雖然引入了大量的新功能,但v3的工作流程惰赋、函數(shù)和語法宰掉,可視化方案在這次更新中基本沒有變化呵哨。此外,以前在Seurat v3中生成的Seurat對象可以無縫地裝載到Seurat v4中以進行進一步分析轨奄。
有一點提示下孟害,這幾乎是語義上的:“整合”。Seurat V3 一度被認為是整合(Integrate挪拟,CCA+MNN)不同RNA數(shù)據(jù)集的標桿工具挨务,在其文章Comprehensive Integration of Single-Cell Data中提到:Seurat v3引入了集成多個單細胞數(shù)據(jù)集的新方法。這些方法的目的是識別存在于不同數(shù)據(jù)集的共享的細胞狀態(tài)玉组,即使它們是從不同的個體谎柄、實驗條件、技術平臺甚至物種惯雳,用到的函數(shù)是FindIntegrationAnchors
朝巫。業(yè)內(nèi)有不少拿它和去批次的工具在一起做benchmark,其實這不是一回事石景。強調(diào)劈猿,整合與批次不是一回事。在V4 中整合不同的RNA數(shù)據(jù)集你依然可以用‘FindIntegrationAnchors’潮孽。在V4的WNN中也有一個“整合”揪荣,這里的整合多為多模態(tài)數(shù)據(jù)之間的整合,用到的函數(shù)FindMultiModalNeighbors
恩商”涮樱可見,這個函數(shù)在v3中對應的位置應該是FindNeighbors
怠堪,即構建細胞間的圖結(jié)構用的部分揽乱。
我們可以用pacman
包來看看新舊版本有哪些函數(shù)的變化。
packageVersion("Seurat")
[1] '3.9.9.9005'
library(pacman)
v4fun<-p_functions("Seurat")
setdiff(v4fun,v3fun) # 我存的v3的所有函數(shù)
[1] ".__C__IntegrationAnchorSet" ".__C__ModalityWeights" ".__C__TransferAnchorSet" "CalcPerturbSig"
[5] "DEenrichRPlot" "FindMultiModalNeighbors" "FindSubCluster" "FoldChange"
[9] "Graphs" "IntegrateEmbeddings" "MappingScore" "MapQuery"
[13] "MixscapeHeatmap" "MixscapeLDA" "NNPlot" "PlotPerturbScore"
[17] "PredictAssay" "PrepLDA" "ProjectUMAP" "RunLDA"
[21] "RunMixscape" "RunSPCA"
幾多
看了預印本的文章Integrated analysis of multimodal single-cell data之后覺得WNN簡直就是單細胞界的統(tǒng)一場論:可以把單細胞內(nèi)的隱藏表達矩陣都可以整合到一個Seurat對象中粟矿,偉大凰棉。但是在重現(xiàn)了V4的教程之后,特別是看到教程RNA+膜蛋白和教程RNA+ATAC是分開的之后陌粹,覺得V4沒有那么激進:不是一個教程同時整合RNA+ 膜蛋白+ ATAC+空轉(zhuǎn)撒犀。這也許不是算法上的,而是技術上的:目前還沒有技術可以這么測√椭龋現(xiàn)階段WNN的定位應該是為【scRNA+】提供解決方案或舞。
幾才算多呢?
在WNN中所謂的加權主要是給不同模態(tài)的數(shù)據(jù)以不同的權重蒙幻,比如RNA和膜蛋白中映凳,膜蛋白的權重要高一些,因為它更接近真實狀態(tài)(RNA不容易看到邮破?)诈豌。在算法中仆救,多模態(tài)數(shù)據(jù)可以看作是一個多分類的過程,如果把每一個模態(tài)看作我們對細胞的一層感知機矫渔,多模態(tài)就是多層感知機(機器學習的同行看過來)彤蔽。隨著模態(tài)的增加,就像我們提示過的:要以數(shù)據(jù)庫的思維來理解單細胞數(shù)據(jù)庙洼。
又如本文的封面所述顿痪,在單細胞技術的早期,數(shù)據(jù)分析像一本精裝書(Hardcover)很精美很細致送膳,每個技術的進步都帶來驚喜员魏。隨著數(shù)據(jù)的積累丑蛤,成本的降低叠聋,技術普及,特別是多模態(tài)技術的發(fā)展受裹,要把多模態(tài)的數(shù)據(jù)解釋清楚也就愈發(fā)需要生物學的知識碌补,此時的單細胞數(shù)據(jù)分析就像一本簡裝書(Paperback):可能需要一個團隊來讀。這也是我們一直主張的:建立自己的單細胞數(shù)據(jù)分析團隊棉饶。
啟示錄
單細胞技術本身是在NGS技術基本成熟條件下發(fā)展出來的厦章,所以數(shù)據(jù)可以超指數(shù)增長;NGS的測序和生信大部分可以擴展到單細胞水平上照藻,所以獲得數(shù)據(jù)和分析工具并不難袜啃。單細胞數(shù)據(jù)分析可以快速入門,一如某上聯(lián)所述:降維聚類必知必會幸缕。但是群发,當我們把單細胞數(shù)據(jù)分析的物理要素(數(shù)據(jù),服務器发乔,軟件)配齊后熟妓,我們依然面臨:數(shù)據(jù)如何挖,故事如何講的科學問題栏尚。多模態(tài)技術的發(fā)展起愈,對生物學背景提出了進一步的要求。之前的scRNA數(shù)據(jù)译仗,就是表達量咯抬虽,不管是均一化,標準化纵菌,表達量高的還是高的阐污,低的還是低的,一聚類产艾,高的和高的在一起疤剑。如果你是一個數(shù)據(jù)科學家滑绒,翻開自己工具箱,很容易去分析單細胞數(shù):一個矩陣而已隘膘。但是疑故,RNA和ATAC可不是直接比較表達量就可以的呀,這時候弯菊,打開工具箱纵势,還需要另一個裝滿生物學問題的急救包。
一如前蘇聯(lián)百科全書式的教授柳比歇夫所比喻的:蠕蟲那么長管钳,人生啊可是那么短钦铁!在這里,我驚嘆:單細胞那么大才漆,宇宙可是那么小呀牛曹!
亞歷山大·亞歷山德羅維奇·柳比歇夫(1890年4月5日--1972年8月31日),前蘇聯(lián)的昆蟲學家醇滥、哲學家黎比、數(shù)學家。畢業(yè)于圣彼得堡國立大學鸳玩,一生發(fā)布了70余部學術著作阅虫,從分散分析、生物分類學到昆蟲學等不跟。業(yè)余時間研究地蚤的分類颓帝,還寫過不少科學回憶錄。 各種各樣的論文和專著窝革,他一共寫了五百多印張购城。五百印張,等于一萬二千五百張打字稿聊闯。即使以專業(yè)作家而論工猜,這也是個龐大的數(shù)字。他不顧政治迫害菱蔬,做了大量工作來反對和批評當時屬于蘇聯(lián)生物遺傳學主流的李森科主義篷帅。還應用數(shù)學方法來研究生物分類學。感興趣可以讀一本小書:《奇特的一生》拴泌。
https://www.njtierney.com/post/2017/10/27/change-pkg-name/
https://r-pkgs.org/namespace.html