大家好抄邀,新的一年開(kāi)始了耘眨,我們又要投入到緊張的工作中去了,作為一名10X空間和10X單細(xì)胞分析的生信人員境肾,也要開(kāi)始新一年的工作了剔难,但是胆屿,正可謂磨刀不誤砍柴功,總結(jié)也是一種進(jìn)步偶宫,今天跟大家分享的就是10X空間轉(zhuǎn)錄組和10X單細(xì)胞數(shù)據(jù)聯(lián)合分析方法的匯總非迹。
在之前的分享中,也分享過(guò)一些聯(lián)合分析的方法纯趋,比如MIA憎兽,cell2location等,但是不成體系吵冒,今天我們來(lái)詳細(xì)分享一下目前10X空間轉(zhuǎn)錄組和10X單細(xì)胞聯(lián)合分析的方法纯命。
(1)AddModuleScore
這是Seurat包的一個(gè)函數(shù),具體的用法我之前分享過(guò)痹栖,文章在這里Seurat包的打分函數(shù)AddModuleScore,大家可以看一下亿汞,運(yùn)用這種方法進(jìn)行單細(xì)胞和空間聯(lián)合分析的文章是發(fā)表于cell的文章Multimodal Analysis of Composition and Spatial Architecture in Human Squamous Cell Carcinoma,這篇文章我詳細(xì)解讀過(guò),文章在人鱗狀細(xì)胞癌成分和空間結(jié)構(gòu)的多峰分析(空間轉(zhuǎn)錄組與單細(xì)胞文章,我們稍微總結(jié)一下文獻(xiàn)聯(lián)合的思路
1揪阿、空間聚類(lèi)
對(duì)空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行聚類(lèi)疗我,表達(dá)相似的spot將聚成一類(lèi)。
2图甜、AddModuleScore的運(yùn)用
具體來(lái)講,就是從單細(xì)胞數(shù)據(jù)分析中得到感興趣的細(xì)胞群鳖眼,以其中的部分基因作為特征黑毅,對(duì)空間聚類(lèi)的結(jié)果進(jìn)行AddModuleScore分析,得分越高钦讳,說(shuō)明感興趣的細(xì)胞群越處于相應(yīng)cluster的位置矿瘦。
這個(gè)方法同樣可對(duì)spot進(jìn)行”打分“分析,得到感興趣細(xì)胞類(lèi)型特征的具體分析愿卒。如下圖:
文章很經(jīng)典缚去,有很多其他值得借鑒的地方,大家不妨多關(guān)注一下
(2)Seurat本身自帶的聯(lián)合分析方法FindTransferAnchors and TransferData
運(yùn)用這個(gè)方法在文獻(xiàn)Spatiotemporal analysis of human intestinal development at single-cell resolution琼开,發(fā)表與cell易结,文章主要研究的是腸道發(fā)育,運(yùn)用這個(gè)聯(lián)合分析分析的方法柜候,主要看看細(xì)胞類(lèi)型在腸道發(fā)育過(guò)程中的變化
(3)MIA的聯(lián)合分析方法
這個(gè)方法被發(fā)表在Nature Biotechnology 上的文章
1辅髓、區(qū)域劃分
這個(gè)就需要比較強(qiáng)的背景泣崩,尤其對(duì)于不規(guī)則樣本,更需要強(qiáng)有力的生物學(xué)背景作為支撐才可以劃分出來(lái)洛口,第一步就很難矫付。
2、MIA第焰,多模態(tài)數(shù)據(jù)取交集方法买优,是針對(duì)Spot Cluster 水平上利用單細(xì)胞注釋信息來(lái)對(duì)ST-Spot聚類(lèi)結(jié)果進(jìn)行細(xì)胞類(lèi)型注釋。
算法我就不在這里多說(shuō)了挺举,大家可以看我以前分享的文章杀赢,這個(gè)方法運(yùn)用的地方會(huì)比較少。
(4)cell2location的聯(lián)合分析方法
這個(gè)方法我之前分享過(guò)湘纵,文章在10X單細(xì)胞和空間聯(lián)合分析的方法---cell2location,這個(gè)方法類(lèi)似于之前普通轉(zhuǎn)錄組解卷積的方法脂崔,文章在Comprehensive mapping of tissue cell architecture via integrated single cell and spatial transcriptomics,簡(jiǎn)單看一下過(guò)程:
(1)Cell2location: a Bayesian model for spatial mapping of cell types
Cell2location maps the spatial distribution of cell types by integrating single-cell RNAseq (scRNA-seq) and multi-cell spatial transcriptomic data from a given tissue梧喷。
從原理圖上來(lái)看砌左,單細(xì)胞作為參考,匹配細(xì)胞類(lèi)型的空間位置铺敌,這個(gè)方向無(wú)可改變绊困。
首先第一步:利用模型估計(jì)單細(xì)胞數(shù)據(jù)的細(xì)胞類(lèi)型的表達(dá)特征。例如适刀,通過(guò)使用常規(guī)聚類(lèi)來(lái)識(shí)別細(xì)胞類(lèi)型和亞群秤朗,然后估算平均聚類(lèi)基因表達(dá)譜而獲得的結(jié)果(如下圖)
,我們需要逐步分析笔喉。Cell2location基于負(fù)二項(xiàng)式回歸實(shí)現(xiàn)此估算步驟取视,從而可以跨技術(shù)和批次可靠地組合數(shù)據(jù)硝皂。(又是數(shù)學(xué))。
第二步:cell2location decomposes mRNA counts in spatial transcriptomic data using these reference signatures, thereby estimating the relative and absolute abundance of each cell type at each spatial location作谭。(分解數(shù)據(jù))稽物。
Cell2location被實(shí)現(xiàn)為可解釋的分層貝葉斯模型,thereby (1) providing principled means to account for model uncertainty, (2) accounting for linear dependencies in cell type abundances, (3) modelling differences in measurement sensitivity across technologies, and (4) accounting for unexplained/residual variation by employing a flexible count-based error model. Finally, (5) cell2location is computationally efficient, owing to variational approximate inference and GPU acceleration折欠。(這些方法我們下一篇分享解析)贝或。
To validate cell2location, we initially used simulated data that reflects diverse cell abundance and spatial patterns。(作者模擬了空間轉(zhuǎn)錄組數(shù)據(jù))锐秦。
這里我們需要注意的是Jensen–Shannon divergence咪奖,也就是J-S散度,數(shù)學(xué)的內(nèi)容我們下面講解酱床。
Briefly, we simulated a spatial transcriptomics dataset with 2,000 locations, based on reference cell-type annotations obtained from a mouse brain snRNA-seq reference dataset including 46 cell types羊赵,Multi-cell gene expression profiles at each location were derived by combining cells drawn from different reference cell types, using one of four cell abundance patterns with variable density and sparsity distribution that mimics the patterns observed in real data。然后運(yùn)用cell2location進(jìn)行分析扇谣,得到圖中的結(jié)果昧捷。基本上有很高的相關(guān)性罐寨,但是這里有一個(gè)問(wèn)題靡挥,那就是模擬的空間轉(zhuǎn)錄組數(shù)據(jù)是依據(jù)單細(xì)胞數(shù)據(jù)合并而來(lái),一旦真正的空間轉(zhuǎn)錄組數(shù)據(jù)含有某些單細(xì)胞不存在的細(xì)胞類(lèi)型(比如說(shuō)技術(shù)壁壘鸯绿,10X單細(xì)胞捕獲中性粒細(xì)胞結(jié)果很差)跋破,那么預(yù)測(cè)的結(jié)果很可能出現(xiàn)錯(cuò)誤,我們往后看看楞慈,是否作者提到這個(gè)問(wèn)題幔烛。
Next, we compared cell2location to recently proposed alternative methods for the inference of relative cell-type abundance from spatial transcriptomics啃擦。一樣的文獻(xiàn)結(jié)果囊蓝,自己的軟件表現(xiàn)最好。并且該模型還產(chǎn)生了相對(duì)細(xì)胞類(lèi)型豐度的更準(zhǔn)確估計(jì)令蛉。
這里我們需要注意的是聚霜,PR曲線,這些數(shù)學(xué)上的問(wèn)題我們下面講解珠叔。
cell2location not only provides estimates of relative cell type fractions but additionally estimates absolute cell type abundance, which can be interpreted as the number of cells that express a reference cell type signature at a given location, which again were highly concordant with the simulated ground truth(估計(jì)細(xì)胞數(shù)量蝎宇,這個(gè)也很重要)。
總之祷安,these results support that cell2location can accurately estimate cell abundance across diverse cell types.
然后文章用了兩個(gè)例子姥芥,運(yùn)用該軟見(jiàn)解決我們的聯(lián)合分析問(wèn)題。具體案例我們這里就不多說(shuō)了汇鞭,我們需要更多的是算法的原理凉唐。
我們首先解決一下J-S散度和PR曲線庸追。
Jensen-Shannon divergence(J-S散度) is a method of measuring the similarity between two probability distributions。這個(gè)我們需要先知道一下KL散度台囱。
KL散度又稱(chēng)為相對(duì)熵淡溯,信息散度,信息增益簿训。KL散度是是兩個(gè)概率分布P和Q 差別的非對(duì)稱(chēng)性的度量咱娶。 KL
散度是用來(lái) 度量使用基于Q的編碼來(lái)編碼來(lái)自P的樣本平均所需的額外的位元數(shù)。 典型情況下强品,P表示數(shù)據(jù)的真實(shí)分布膘侮,Q表示數(shù)據(jù)的理論分布,模型分布择懂,或P的近似分布喻喳。
定義如下:
因?yàn)閷?duì)數(shù)函數(shù)是凸函數(shù),所以 KL散度的值為非負(fù)數(shù)困曙。
-
JS散度(Jensen-Shannon)
JS散度度量了兩個(gè)概率分布的相似度表伦,基于KL散度的變體,解決了KL散度非對(duì)稱(chēng)的問(wèn)題慷丽。一般地蹦哼,JS散度是對(duì)稱(chēng)的,其取值是0到1之間要糊。定義如下:也就是圖B 的結(jié)果纲熏。
PR曲線
相對(duì)于PR曲線,ROC曲線了解的更多一些锄俄,大家可以參考我關(guān)于ROC曲線的講解深入理解R包AUcell對(duì)于分析單細(xì)胞的作用.
而PR曲線
PR曲線實(shí)則是以precision(精準(zhǔn)率)和recall(召回率)這兩個(gè)為變量而做出的曲線局劲,其中recall為橫坐標(biāo),precision為縱坐標(biāo)奶赠。
那么問(wèn)題來(lái)了鱼填,什么是精準(zhǔn)率?什么是召回率毅戈?這里先做一個(gè)解釋苹丸。
在二分類(lèi)問(wèn)題中,分類(lèi)器將一個(gè)實(shí)例的分類(lèi)標(biāo)記為是或否苇经,可以用一個(gè)混淆矩陣來(lái)表示赘理,如下圖所示。注:把正例正確地分類(lèi)為正例扇单,表示為T(mén)P(true positive)商模,把正例錯(cuò)誤地分類(lèi)為負(fù)例,表示為FN(false negative)。
把負(fù)例正確地分類(lèi)為負(fù)例施流,表示為T(mén)N(true negative)凉倚, 把負(fù)例錯(cuò)誤地分類(lèi)為正例,表示為FP(false positive)嫂沉。
【舉個(gè)栗子:A是只貓(正例)稽寒,B是只倉(cāng)鼠(負(fù)例),A在二分類(lèi)中被劃分為貓則為T(mén)P趟章,被劃分為倉(cāng)鼠則為FN杏糙。B在二分類(lèi)中被劃分為倉(cāng)鼠則為T(mén)N,被劃分為貓則為蚓土『晔蹋】
從混淆矩陣可以得出精準(zhǔn)率與召回率:precision = TP/(TP + FP), recall = TP/(TP +FN)(注意:分子相同。)接下來(lái)補(bǔ)充一個(gè)重點(diǎn):
一條PR曲線要對(duì)應(yīng)一個(gè)閾值蜀漆。通過(guò)選擇合適的閾值谅河,比如50%,對(duì)樣本進(jìn)行劃分确丢,概率大于50%的就認(rèn)為是正例绷耍,小于50%的就是負(fù)例,從而計(jì)算相應(yīng)的精準(zhǔn)率和召回率。舉個(gè)例子如下:(true這列表示正例或者負(fù)例鲜侥,hyp這列表示閾值0.5的情況下褂始,概率是否大于0.5)
那么根據(jù)這個(gè)表格我們可以計(jì)算:TP=6,F(xiàn)N=0描函,F(xiàn)P=2崎苗,TN=2。故recall=6/(6+0)=1,precison=6/(6+2)=0.75舀寓,那么得出坐標(biāo)(1胆数,0.75)。同理得到不同閾下的坐標(biāo)互墓,即可繪制出曲線必尼。
PR曲線如下:如果一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)學(xué)習(xí)器的P-R曲線完全包住,則可斷言后者的性能優(yōu)于前者轰豆,例如上面的A和B優(yōu)于學(xué)習(xí)器C胰伍。但是A和B的性能無(wú)法直接判斷齿诞,我們可以根據(jù)曲線下方的面積大小來(lái)進(jìn)行比較酸休,但更常用的是平衡點(diǎn)或者是F1值。平衡點(diǎn)(BEP)是P=R時(shí)的取值祷杈,如果這個(gè)值較大斑司,則說(shuō)明學(xué)習(xí)器的性能較好。而F1 = 2 * P * R /( P + R ),同樣宿刮,F(xiàn)1值越大互站,我們可以認(rèn)為該學(xué)習(xí)器的性能較好。
部分資料參考:二戰(zhàn)周志華《機(jī)器學(xué)習(xí)》-PR曲線和ROC曲線
P-R曲線深入理解
兩種曲線我們都需要了解一下僵缺,以免以后遇到不知道就尷尬了~~~
接下來(lái)我們來(lái)看cell2location的模型胡桃。
模型的簡(jiǎn)單介紹
For a complete derivation of the cell2location model, please see supplementary computational methods. Briefly, cell2location is a Bayesian model, which estimates absolute cell density of cell types by decomposing mRNA counts ??s,g of each gene ?? = {1, . . , ??} at locations ?? = {1, . . , ??} into a set of predefined reference signatures of cell types gf g.For 10X Visium data, this matrix can be directly obtained from the 10X SpaceRanger software and imported into data format used in a popular python package Scanpy(利用scanpy來(lái)讀取10X分析數(shù)據(jù),也可以聯(lián)合Suerat進(jìn)行分析)磕潮。ds,g should be fltered to a set of genes expressed in the single cell reference g f g.這個(gè)地方的處理在于單細(xì)胞與空間轉(zhuǎn)錄組映射的時(shí)候翠胰,表達(dá)基因的相同。cell2location的圖表模型如下圖:
Let G = {gf,g}, denote an F X G matrix of reference cell type signatures, which consist of F = {1,..., F} gene expression profiles Gf,: for g = {1,...,G} genes, representing average expression of each gene in each cell type in linear mRNA counts space (not log-space).This matrix needs to be provided to cell2location and can be estimated from scRNA-seq profles.這個(gè)地方我們可以看到自脯,對(duì)各個(gè)細(xì)胞類(lèi)型的基因表達(dá)求平均值來(lái)代表這個(gè)細(xì)胞類(lèi)型之景。Cell2location models the elements of D as Negative Binomial distributed,這個(gè)地方稍微說(shuō)一下負(fù)二項(xiàng)分布,
負(fù)二項(xiàng)分布是統(tǒng)計(jì)學(xué)上一種離散概率分布膏潮。滿足以下條件的稱(chēng)為負(fù)二項(xiàng)分布:實(shí)驗(yàn)包含一系列獨(dú)立的實(shí)驗(yàn)锻狗, 每個(gè)實(shí)驗(yàn)都有成功、失敗兩種結(jié)果焕参,成功的概率是恒定的轻纪,實(shí)驗(yàn)持續(xù)到r次不成功,r為[正整數(shù)]叠纷⊥┐牛可以參考百度百科負(fù)二項(xiàng)分布,不過(guò)從這里開(kāi)始,開(kāi)始涉及到很深的數(shù)學(xué)只是背景讲岁,本人數(shù)學(xué)不會(huì)我擂,但沒(méi)有因此而驕傲過(guò),所以希望有數(shù)學(xué)的大牛來(lái)分享一下內(nèi)容缓艳。
最后展示一下分析的結(jié)果校摩,
這個(gè)方法目前處于前發(fā),仍需要更多的驗(yàn)證阶淘。
(5)spotlight 分析方法
這個(gè)方法也是非負(fù)卷積分解的方法衙吩,是一個(gè)R包,目前高分文章也沒(méi)有引用溪窒,不過(guò)方法還不錯(cuò)坤塞,關(guān)于spotlight的算法,大家可以看spotlight和spotlight_github澈蚌,算法在這里不過(guò)多介紹了摹芙,如圖:
方法還不錯(cuò),不過(guò)用的不多宛瞄。
(6)當(dāng)然還有一些其他的方法:
比如scanpy的聯(lián)合分析方法浮禾,我們不再過(guò)多介紹,希望對(duì)大家有幫助。
最后送給大家一首詩(shī)盈电,祝大家新的一年會(huì)有好的運(yùn)勢(shì)蝴簇。
New York is three hours ahead of California, but that does not make California slow
Cameroon is six hours ahead of New York but it does not make New York slow.
Someone graduated from college at 22 but waited five years before securing a job.
Someone became a CEO at 25 but died at 50.
Someone became a CEO at 50 but lived to 90 years.
Someone is still single,
While another is married with children
Absolutely, everyone in this world works based on their own time zone.
People around you might seem to be ahead of you.
That's total fine. Some are behind you.
Everyone is running their own race in their own time zone.
Don't envy or mock them.
They are in their own time zone and you are in yours.
Life is about waiting for the right moment to react.
So RELAX.
You're not late
You're not early
You're very much on time, and in your time zone.
Everyone have a different exams paper meaning different questions.
Everyone have a different assignment meaning different purpose in life.
So focus on your own exam paper, your assignment and purpose.
Don't copy and paste or steal answer else you will fail big time.
Your dreams and visions are all valid. Just take your time and do the best you can.
Be like the hummingbird. Even when mighty lions and tigers underestimated him, he continued to do what he could, where he was, just as he was, with the little he had.
You're ok just the way you are. The little work you are doing today might seem insignificant but I bet someday you will see the big picture.
You're Not late! You're Not early.