“harmony”整合不同平臺(tái)的單細(xì)胞數(shù)據(jù)之旅

其實(shí)在Seurat v3官方網(wǎng)站的Vignettes中就曾見(jiàn)過(guò)該算法韧衣，但并沒(méi)有太多關(guān)注喇勋，直到看了北大張澤民團(tuán)隊(duì)在2019年10月31日發(fā)表于Cell的《Landscap and Dynamics of Single Immune Cells in Hepatocellular Carcinoma》纵竖，為了同時(shí)整合兩類數(shù)據(jù)（包括SMART-seq2和10X）（Hemberg-lab單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析（七）- 導(dǎo)入10X和SmartSeq2數(shù)據(jù)Tabula Muris）葱她，使不同平臺(tái)的數(shù)據(jù)可以整合一起進(jìn)行非監(jiān)督聚類（基因共表達(dá)聚類分析和可視化）涵亏，作者使用了harmony算法晰韵。

其實(shí)該算法于2018年就已經(jīng)發(fā)表于bioRxiv(https://www.biorxiv.org/content/early/2018/11/04/461954) 链瓦，其算法邏輯如下圖所示：

image

圖1. Harmony算法概述

harmony算法與其他整合算法相比的優(yōu)勢(shì)：

（1）整合數(shù)據(jù)的同時(shí)對(duì)稀有細(xì)胞的敏感性依然很好拆魏；
（2）省內(nèi)存；
（3）適合于更復(fù)雜的單細(xì)胞分析實(shí)驗(yàn)設(shè)計(jì)慈俯，可以比較來(lái)自不同供體渤刃，組織和技術(shù)平臺(tái)的細(xì)胞。

基本原理：我們用不同顏色表示不同數(shù)據(jù)集贴膘，用形狀表示不同的細(xì)胞類型卖子。首先，Harmony應(yīng)用主成分分析（一文看懂PCA主成分分析）將轉(zhuǎn)錄組表達(dá)譜嵌入到低維空間中刑峡，然后應(yīng)用迭代過(guò)程去除數(shù)據(jù)集特有的影響洋闽。

（A）Harmony概率性地將細(xì)胞分配給cluster玄柠，從而使每個(gè)cluster內(nèi)數(shù)據(jù)集的多樣性最大化。
（B）Harmony計(jì)算每個(gè)cluster的所有數(shù)據(jù)集的全局中心诫舅，以及特定數(shù)據(jù)集的中心羽利。
（C）在每個(gè)cluster中，Harmony基于中心為每個(gè)數(shù)據(jù)集計(jì)算校正因子刊懈。
（D）最后这弧，Harmony使用基于C的特定于細(xì)胞的因子校正每個(gè)細(xì)胞。由于Harmony使用軟聚類虚汛，因此可以通過(guò)多個(gè)因子的線性組合對(duì)其A中進(jìn)行的軟聚類分配進(jìn)行線性校正匾浪，來(lái)修正每個(gè)單細(xì)胞。
重復(fù)步驟A到D卷哩，直到收斂為止蛋辈。聚類分配和數(shù)據(jù)集之間的依賴性隨著每一輪的減少而減小。

安裝

library(devtools)
install_github("immunogenomics/harmony")

流程

我們以Seurat v3為例将谊，使用harmony進(jìn)行數(shù)據(jù)整合：

library(Seurat)
library(cowplot)
library(harmony)

首先梯浪，下載稀疏矩陣示例(https://www.dropbox.com/s/t06tptwbyn7arb6/pbmc_stim.RData?dl=1)并將其移動(dòng)到文件夾下（例如data/）。

load('data/pbmc_stim.RData') #加載矩陣數(shù)據(jù)

Initialize Seurat Object

在運(yùn)行Harmony之前瓢娜，創(chuàng)建一個(gè)Seurat對(duì)象并按照標(biāo)準(zhǔn)PCA（用了這么多年的PCA可視化竟然是錯(cuò)的９衣濉！眠砾！）進(jìn)行分析虏劲。

pbmc <- CreateSeuratObject(counts = cbind(stim.sparse, ctrl.sparse), project = "PBMC", min.cells = 5) %>%
    Seurat::NormalizeData(verbose = FALSE) %>%
    FindVariableFeatures(selection.method = "vst", nfeatures = 2000) %>%
    ScaleData(verbose = FALSE) %>%
    RunPCA(pc.genes = pbmc@var.genes, npcs = 20, verbose = FALSE)

R語(yǔ)言中%>%的含義是什么呢，管道函數(shù)啦褒颈，就是把左件的值發(fā)送給右件的表達(dá)式柒巫，并作為右件表達(dá)式函數(shù)的第一個(gè)參數(shù)。

pbmc@meta.data$stim <- c(rep("STIM", ncol(stim.sparse)), rep("CTRL", ncol(ctrl.sparse)))#賦值條件變量

未經(jīng)校正的PC中的數(shù)據(jù)集之間存在明顯差異：

options(repr.plot.height = 5, repr.plot.width = 12)
p1 <- DimPlot(object = pbmc, reduction = "pca", pt.size = .1, group.by = "stim", do.return = TRUE)
p2 <- VlnPlot(object = pbmc, features = "PC_1", group.by = "stim", do.return = TRUE, pt.size = .1)
plot_grid(p1,p2)

image

Run Harmony

運(yùn)行Harmony的最簡(jiǎn)單方法是傳遞Seurat對(duì)象并指定要集成的變量谷丸。RunHarmony返回Seurat對(duì)象堡掏，并使用更正后的Harmony坐標(biāo)。讓我們將plot_convergence設(shè)置為TRUE刨疼，這樣我們就可以確保Harmony目標(biāo)函數(shù)在每一輪中都變得更好泉唁。

options(repr.plot.height = 2.5, repr.plot.width = 6)
pbmc <- pbmc %>%
RunHarmony("stim", plot_convergence = TRUE)
Harmony 1/10
Harmony 2/10
Harmony 3/10
Harmony 4/10
Harmony 5/10
Harmony 6/10
Harmony 7/10
Harmony 8/10
Harmony converged after 8 iterations

image

要直接訪問(wèn)新的Harmony embeddings，請(qǐng)使用Embeddings命令揩慕。

harmony_embeddings <- Embeddings(pbmc, 'harmony')
harmony_embeddings[1:5, 1:5]

image

讓我們查看確認(rèn)數(shù)據(jù)集在Harmony運(yùn)行之后的前兩個(gè)維度中得到很好的整合亭畜。

options(repr.plot.height = 5, repr.plot.width = 12)
p1 <- DimPlot(object = pbmc, reduction = "harmony", pt.size = .1, group.by = "stim", do.return = TRUE)
p2 <- VlnPlot(object = pbmc, features = "harmony_1", group.by = "stim", do.return = TRUE, pt.size = .1)
plot_grid(p1,p2)

image

Downstream analysis

許多下游分析是在低維嵌入而不是基因表達(dá)上進(jìn)行的。要使用校正后的Harmony embeddings而不是PC（還在用PCA降維迎卤？快學(xué)學(xué)大牛最愛(ài)的t-SNE算法吧, 附Python/R代碼）拴鸵，請(qǐng)?jiān)O(shè)置reduction ='harmony'。例如，讓我們使用Harmony降維后的數(shù)據(jù)執(zhí)行UMAP和Nearest Neighbor分析劲藐。

pbmc <- pbmc %>%
    RunUMAP(reduction = "harmony", dims = 1:20) %>%
    FindNeighbors(reduction = "harmony", dims = 1:20) %>%
    FindClusters(resolution = 0.5) %>%
    identity()

image

在UMAP embedding中八堡，我們可以看到更復(fù)雜的結(jié)構(gòu)。由于我們使用harmony embeddings聘芜，因此UMAP embeddings混合得很好魏颓。

options(repr.plot.height = 4, repr.plot.width = 10)
DimPlot(pbmc, reduction = "umap", group.by = "stim", pt.size = .1, split.by = 'stim')

image

在這種充分混合的嵌入中浴韭，我們可以開(kāi)始使用聚類分析來(lái)識(shí)別細(xì)胞類型（Celaref | 單細(xì)胞測(cè)序細(xì)胞類型注釋工具）。

options(repr.plot.height = 4, repr.plot.width = 6)
DimPlot(pbmc, reduction = "umap", label = TRUE, pt.size = .1)

image

快來(lái)試一試：https://github.com/immunogenomics/harmony

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市衣形，隨后出現(xiàn)的幾起案子湖蜕，更是在濱河造成了極大的恐慌混蔼，老刑警劉巖杈绸，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異企软，居然都是意外死亡庐扫，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門仗哨，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)形庭，“玉大人，你說(shuō)我怎么就攤上這事厌漂∪眩” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵苇倡，是天一觀的道長(zhǎng)富纸。經(jīng)常有香客問(wèn)我，道長(zhǎng)旨椒，這世上最難降的妖魔是什么晓褪？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮综慎，結(jié)果婚禮上涣仿，老公的妹妹穿的比我還像新娘。我一直安慰自己示惊，他們只是感情好好港，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著涝涤，像睡著了一般媚狰。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上阔拳，一...
開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼糊肠。笑死辨宠，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的货裹。我是一名探鬼主播嗤形，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼弧圆！你這毒婦竟也來(lái)了赋兵？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤搔预，失蹤者是張志新（化名）和其女友劉穎霹期，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體拯田，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡历造，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了船庇。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吭产。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖鸭轮，靈堂內(nèi)的尸體忽然破棺而出臣淤，到底是詐尸還是另有隱情，我是刑警寧澤窃爷，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布荒典，位于F島的核電站，受9級(jí)特大地震影響吞鸭，放射性物質(zhì)發(fā)生泄漏寺董。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一刻剥、第九天我趴在偏房一處隱蔽的房頂上張望遮咖。院中可真熱鬧，春花似錦造虏、人聲如沸御吞。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案漓藕，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)陶珠。三九已至，卻和暖如春享钞，著一層夾襖步出監(jiān)牢的瞬間揍诽，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留暑脆，地道東北人渠啤。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像添吗，于是被迫代替她去往敵國(guó)和親沥曹。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

“harmony”整合不同平臺(tái)的單細(xì)胞數(shù)據(jù)之旅

安裝

流程

Initialize Seurat Object

Run Harmony

Downstream analysis

推薦閱讀更多精彩內(nèi)容