hello奄毡,大家好商蕴,今天我們來初步總結(jié)一下所有單細(xì)胞分析用到的NMF。
我們先來簡(jiǎn)單回顧一下批次矯正的方法liger皆的。LIGER 是 19年發(fā)在 Cell 上的覆履,算是連著自己的 resource 發(fā)了自己的計(jì)算方法。 在我分享的文章中10X單細(xì)胞(空間轉(zhuǎn)錄組)數(shù)據(jù)整合分析批次矯正之liger中詳細(xì)分享了liger费薄,其中用到了iNMF硝全,我們這次也要詳細(xì)的講解。
其實(shí)liger批次矯正的核心思想是非負(fù)矩陣分解楞抡,希望兩個(gè) batch 的數(shù)據(jù)在分解中滿足一定性質(zhì)伟众,共享盡可能多的信息,并且認(rèn)為這部分共享的信息就是生物信息召廷。
兩個(gè) batch 的數(shù)據(jù)可以寫成如下形式凳厢,表達(dá)譜可分為 biological 信息和 technical 信息的加和账胧。
MNN 假設(shè)(關(guān)于MNN就不再贅述,網(wǎng)上說了很多了)
關(guān)于 MNN 在這個(gè)框架下的假設(shè)
先紫、正交治泥,也就是 Biology variance 和 batch effect 所代表的的方向相互正交。
| - | >> |α - ζ|遮精, 即 不同 Cell 之間的生物差異遠(yuǎn)大于 Batch 之間的差異時(shí)居夹。
根據(jù)這兩個(gè)假設(shè),可以從上述的 = + 中推導(dǎo)出 MNN 的目標(biāo)函數(shù)本冲。(不包括校正那一步)
LIGER
接下來我們看 LIGER 的關(guān)鍵部分准脂,也就是兩個(gè)非負(fù)矩陣分解,但是在分解過程中不同 batch 之間共享一組 W (可以看成代表生物 module )檬洞,另外還有一部分代表 data specific 的technical module 來 model batch effect狸膏。
寫成數(shù)學(xué)表達(dá)式也就是
首先在這篇文章中 gene cell 的維度和之前說的是反過來的,如果順過來也就是
對(duì)比上文 MNN 中的式子
可以發(fā)現(xiàn)添怔,其實(shí) LIGER 中也就是 = 湾戳、 = 、 = = 澎灸,然后這些矩陣均非負(fù)院塞。
此時(shí)再觀察 LIGER 的優(yōu)化目標(biāo)
可以看到還有一項(xiàng)是關(guān)于的懲罰,而其實(shí)是性昭,這表示希望學(xué)到的盡可能小拦止,反之即希望學(xué)到的盡可能大,也就是保留盡量多的共享生物信息糜颠。
所以總結(jié)一下 LIGER 在之前模型上的假設(shè)
1汹族、 = 、 = 其兴、 = = 顶瞒,說明給定 biological module 和technical module 之后,這個(gè) loading 應(yīng)該是大家共享的元旬,也即說明兩者有一定的關(guān)系榴徐,可以由同一個(gè) factor loading 控制。
- 盡可能小匀归,也就是說明希望這個(gè) embedding 能夠捕捉到的生物信息盡可能多坑资。
- 、穆端、均非負(fù)袱贮,這部分其實(shí)是體現(xiàn) module 的味道,非負(fù)意味著完全由 加法得到体啰,也就是每個(gè)表達(dá)譜是由這些 module 的 activity 疊加得到的攒巍。
Summary
這些模型其實(shí)都是下述模型在不同假設(shè)情況下的特列
其實(shí)liger最核心的思想就是integrative non-negative matrix factorization (iNMF)嗽仪。
接下來我們就來分享各種NMF,其實(shí)關(guān)于NMF的分享柒莉,我已經(jīng)寫了很多闻坚,文章在10X單細(xì)胞(10X空間轉(zhuǎn)錄組)之NMF的實(shí)際運(yùn)用示例(探索腫瘤特征)、10X單細(xì)胞(10X空間轉(zhuǎn)錄組)數(shù)據(jù)分析之約束非負(fù)矩陣分解(cNMF)等兢孝,供大家參考鲤氢。
首先是iNMF
我們來看 iNMF 中的目標(biāo)函數(shù)為:
其實(shí) LIGER 就是從 iNMF 中來的(上面講了),一模一樣西潘。 但是值得說明的是, iNMF 原文目的是為了多組學(xué)的數(shù)據(jù)哨颂,也就是同一個(gè) sample 測(cè)了多種組學(xué)喷市,但是 LIGER 將整合多組學(xué)的方法順延到了整合不同 batch 上(當(dāng)然其實(shí)也非常明顯,不同組學(xué)的區(qū)別就是 technology 不同威恼, single cell中的 batch effect 當(dāng)然也可以看做是這個(gè))品姓。
JNMF
而 iNMF 其實(shí)是建立在張老師 2009年這篇 JNMF 的基礎(chǔ)上的一個(gè)延伸,文章在A novel computational framework for simultaneous integration of multiple types of genomic data to identify microRNA-gene regulatory modules箫措,
我們來看兩者的目標(biāo)函數(shù)就可以非常清楚的看出這個(gè)延伸在哪腹备。
相比之下 JNMF 只考慮兩個(gè)數(shù)據(jù)集之間共享的部分信息,對(duì)于各自特有的沒有考慮斤蔓,而 iNMF 考慮了這部分異質(zhì)性的信息植酥,但在優(yōu)化的時(shí)候又對(duì)其做了約束,希望這個(gè)異質(zhì)性的信息盡可能的小弦牡,也就是共享的信息盡可能大友驮。(共享的信息其實(shí)是說在這個(gè) W 張成的 common space 能盡可能的重構(gòu)原來的表達(dá)譜)。
CSMF
Common and Specific patterns via Matrix Factorization 驾锰,顧名思義就同時(shí)考慮了共享的和異質(zhì)性兩部分卸留。 但是和 iNMF 最大的區(qū)別是,iNMF 假設(shè)了在 bio space(W張成)椭豫,以及 tech space(V 張成的空間)坐標(biāo)是相同的耻瑟,或者兩者是共享一套 factor loading 的。 CSMF 去掉了這個(gè)限制赏酥。但是同時(shí)也去掉了對(duì)于 specific 部分的懲罰喳整。 話不多說直接看目標(biāo)函數(shù)!
可以看到區(qū)別就是
也就是上文中說到的 iNMF 假設(shè)了在 bio space (張成的空間)今缚,以及 tech space( 張成的空間)坐標(biāo)是相同的算柳,或者兩者是共享一套 factor loading 的。 而 CSMF 去掉了這個(gè)限制姓言。且同時(shí)在目標(biāo)函數(shù)中也去掉了對(duì)于 specific 部分的懲罰瞬项。(這個(gè)我感覺不是很合理其實(shí)蔗蹋,但是不知道是不是處于優(yōu)化的考慮)。
cFIT,關(guān)于cFIT囱淋,文獻(xiàn)在Integration and transfer learning of single-cell transcriptomes via cFIT,
cFIT 的核心如下圖
可以看到關(guān)鍵就是在于 cFIT 認(rèn)為
這是什么意思呢猪杭,其實(shí)就是認(rèn)為最后的 都是由這個(gè)代表生物真實(shí)表達(dá)量通過一個(gè)線性變化得到的。其中代表線性變換的 scale,表示一個(gè) offset妥衣。一句話總結(jié)皂吮, cFIT 認(rèn)為batch effect 的影響是一個(gè) gene specific 的 線性變換。為 noise 乍一看 cFIT 和之前所述的分解為兩部分的 model 并沒有什么關(guān)系税手。 但是只要稍作變換就可以看出其實(shí)還是原始模型的變種蜂筹。
也就是說認(rèn)為 batch effect 帶來的表達(dá)譜是線性于 的。
summary
從上面幾個(gè)式子可以看出來最關(guān)鍵的部分就是怎么處理這個(gè)芦倒。
生活很好艺挪,有你更好