hello爪瓜,大家好,今天再給大家分享一個NMF挑選感興趣的bases(factors)的方法虫溜,PNMF,文章在scPNMF: sparse gene encoding of single cells to facilitate gene selection for targeted gene profiling霞捡,是另外一個經(jīng)典的利用NMF挑選基因集的方法蚀狰,關(guān)于NMF的運用愉昆,之前分享了很多了,我列舉在這里麻蹋,供大家參考跛溉,這里我很希望有能力的道友多多學(xué)習(xí)數(shù)學(xué)方面的知識。
10X單細胞(10X空間轉(zhuǎn)錄組)數(shù)據(jù)分析之NMF尋找轉(zhuǎn)錄programs
10X單細胞(10X空間轉(zhuǎn)錄組)數(shù)據(jù)分析之主成分分析(PCA)與因子分析(NMF)
10X單細胞(10X空間轉(zhuǎn)錄組)數(shù)據(jù)分析總結(jié)之各種NMF
10X單細胞(10X空間轉(zhuǎn)錄組)之NMF的實際運用示例(探索腫瘤特征)
10X單細胞(10X空間轉(zhuǎn)錄組)數(shù)據(jù)分析之約束非負矩陣分解(cNMF)
10X單細胞(10X空間轉(zhuǎn)錄組)數(shù)據(jù)分析之NMF(非負矩陣分解)
好了扮授,看看我們今天分享的PNMF芳室,又有哪些值得我們借鑒的地方。
Abstract
單細胞 RNA 測序 (scRNA-seq) 捕獲單個細胞的整個轉(zhuǎn)錄組信息刹勃。盡管 scRNA-seq 測量數(shù)千個基因堪侯,但研究人員通常只對數(shù)十到數(shù)百個基因感興趣以進行更深入的研究。那么一個問題是如何從 scRNA-seq 數(shù)據(jù)中選擇那些信息豐富的基因荔仁。此外伍宦,單細胞靶向基因分析技術(shù)因其低成本、高靈敏度和額外(例如空間)信息而越來越受歡迎乏梁;然而次洼,它們通常最多只能測量幾百個基因。然后另一個具有挑戰(zhàn)性的問題是如何根據(jù)現(xiàn)有的 scRNA-seq 數(shù)據(jù)選擇用于靶向基因分析的基因遇骑。在這里卖毁,作者開發(fā)了單細胞投影非負矩陣分解 (scPNMF) 方法,以無監(jiān)督的方式從 scRNA-seq 數(shù)據(jù)中選擇信息基因质蕉。與現(xiàn)有的基因選擇方法相比势篡,scPNMF 有兩個優(yōu)點。首先模暗,它選擇的信息基因可以更好地區(qū)分細胞類型。其次念祭,它可以將新的靶向基因分析數(shù)據(jù)與低維空間中的參考數(shù)據(jù)進行比對兑宇,以促進新數(shù)據(jù)中細胞類型的預(yù)測。從技術(shù)上講粱坤,scPNMF 通過更改初始化和添加基礎(chǔ)選擇步驟來修改用于基因選擇的 PNMF 算法隶糕,該步驟選擇信息基礎(chǔ)以區(qū)分細胞類型。實際運用中證明了 scPNMF 在不同的 scRNA-seq 數(shù)據(jù)集上優(yōu)于目前的基因選擇方法站玄。此外枚驻,也表明 scPNMF 可以指導(dǎo)靶向基因分析實驗的設(shè)計和靶向基因分析數(shù)據(jù)的細胞類型注釋。
Introduction
單細胞RNA測序(scRNA-seq)技術(shù)的最新發(fā)展為破譯單個細胞間的轉(zhuǎn)錄組異質(zhì)性提供了前所未有的機會株旷。典型的scRNA-seq數(shù)據(jù)集包含數(shù)千到數(shù)萬個基因再登;然而尔邓,可以稱之為信息基因的基因子集通常足以代表數(shù)據(jù)集中細胞的潛在生物學(xué)變異,原因有兩個(這就是我們通常分析用到的高變基因)锉矢。首先梯嗽,許多基因的變異與感興趣的生物變異無關(guān)。例如沽损,管家基因表達水平的波動與細胞類型無關(guān)灯节。其次,許多基因的表達水平具有很強的相關(guān)性绵估,這表明一個基因可能代表一組基因而不會丟失太多信息炎疆。因此,對于 scRNA-seq 數(shù)據(jù)分析国裳,信息基因選擇具有三個優(yōu)勢:(1)通過去除不需要的技術(shù)變異來增強生物信號磷雇,(2)通過關(guān)注信息基因提高分析結(jié)果的可解釋性,以及(3)減少數(shù)量基因以節(jié)省計算資源躏救。
除了 scRNA-seq 數(shù)據(jù)分析唯笙,信息性基因選擇對于設(shè)計單細胞靶向基因分析實驗也至關(guān)重要,可以將其定義為包括僅測量單個細胞中特定基因表達水平的所有技術(shù)盒使。與 scRNA-seq 不同崩掘,靶向基因分析需要在測序前指定數(shù)量有限(通常不超過數(shù)百個)的基因。靶向基因分析的示例包括空間技術(shù)(例如 smFISH 和 MERFISH)和非空間技術(shù)(例如 BART-Seq少办、HyPRseq 和 10x-Genomics 靶向基因表達)苞慢。與 scRNA-seq 相比,靶向基因分析技術(shù)具有捕獲空間信息(通過 smFISH 和 MERFISH)英妓、每個細胞成本更低(通過 BART-Seq)以及對檢測低表達基因表現(xiàn)出更高的靈敏度(通過 HyPR)等優(yōu)勢-seq)挽放。然而,在基因數(shù)量限制下優(yōu)化靶向基因分析的基因選擇仍然是一個開放且具有挑戰(zhàn)性的問題蔓纠。
鑒于信息性基因選擇的重要性辑畦,研究人員已經(jīng)開發(fā)了許多用于 scRNA-seq 數(shù)據(jù)的基因選擇方法。大多數(shù)現(xiàn)有方法基于每個基因表達平均值和每個基因表達方差之間的關(guān)系來選擇基因(跨細胞計算每個基因的平均值和方差)腿倚。流行的示例方法包括 R 包 Seurat 中的方差穩(wěn)定變換 (vst) 和均值方差圖 (mvp)纯出,以及 R 包 scran 中的 modelGeneVar。這些方法選擇高度可變的基因敷燎,這些基因在其表達方式方面具有大的表達差異暂筝。其他方法使用基因重要性的各種度量而不是每個基因的表達方差。例如硬贯,M3Drop 選擇在許多細胞中表達水平為零的基因焕襟; GiniClust 選擇表達水平基尼指數(shù)大的基因; SCMarker 選擇表達水平呈雙/多模態(tài)分布并與其他一些基因共表達或互斥表達的基因饭豹。這些現(xiàn)有方法的一個共同限制是鸵赖,它們都是為了選擇相對大量的基因而設(shè)計的务漩。因此,它們在選擇少數(shù)基因方面的表現(xiàn)仍不清楚卫漫。例如菲饼,在Seurat 中,默認的選擇的基因是2000列赎; SCMarker 在其示例應(yīng)用中選擇了 700-900 個基因宏悦。所有這些基因數(shù)量都遠大于 200,這是多種靶向基因分析技術(shù)允許的最大基因數(shù)量包吝。因此饼煞,現(xiàn)有的基因選擇方法可能不適合選擇用于靶向基因分析的基因。這些方法的另一個缺點是它們選擇的基因缺乏功能可解釋性诗越。也就是說砖瞧,他們選擇的基因不被歸類為功能基因組。
除了這些基因選擇方法嚷狞,線性降維方法块促,如主成分分析(PCA)和非負矩陣分解(NMF),也可以用于基因選擇床未。 具體來說竭翠,可以根據(jù)基因?qū)?PCA 或 NMF 發(fā)現(xiàn)的預(yù)測低維的貢獻來選擇基因。 盡管已經(jīng)為 scRNA-seq 數(shù)據(jù)分析開發(fā)了許多 PCA 和 NMF 算法的variants薇搁,但它們并不是為基因選擇而設(shè)計的斋扰。
在這里,作者提出了一種無監(jiān)督方法 scPNMF啃洋,以同時選擇信息基因并將 scRNA-seq 數(shù)據(jù)投影到可解釋的低維空間上传货。利用投影非負矩陣分解 (PNMF) 算法,scPNMF 通過輸出非負稀疏權(quán)重矩陣結(jié)合了 PCA 和 NMF 的優(yōu)點宏娄,該矩陣可以將高維 scRNA-seq 數(shù)據(jù)集中的細胞投影到低-維空間问裕。與 PCA 發(fā)現(xiàn)的權(quán)重矩陣(又名加載矩陣)不同,scPNMF 輸出的非負稀疏權(quán)重矩陣對應(yīng)于每個對應(yīng)于一組共表達基因集绝编。與原始 PNMF 相比僻澎,scPNMF 的一個獨特功能是基礎(chǔ)選擇:scPNMF uses correlation screening and multimodality testing to remove the bases that cannot reveal potential cell clusters in the input scRNA-seq dataset.scPNMF 有兩個功能:(1)給定預(yù)先指定的基因編號和 scRNA-seq 數(shù)據(jù)集,scPNMF 根據(jù)其權(quán)重矩陣選擇信息基因十饥; (2) 給定包含信息基因的目標基因分析數(shù)據(jù)集,scPNMF 將此數(shù)據(jù)集投影到包含細胞類型標簽的參考 scRNA-seq 數(shù)據(jù)集的相同低維空間祖乳,從而在目標基因分析數(shù)據(jù)集上啟用細胞類型注釋逗堵。綜合基準表明,scPNMF 在兩個方面優(yōu)于現(xiàn)有的基因選擇方法眷昆。首先蜒秤,scPNMF 選擇的信息基因?qū)е伦顪蚀_的細胞聚類汁咏。其次,scPNMF 的信息基因和權(quán)重矩陣導(dǎo)致靶向基因分析數(shù)據(jù)的最佳細胞類型預(yù)測準確性作媚。因此攘滩,scPNMF 是一種強大的基因選擇方法,可以指導(dǎo)單細胞靶向基因分析的實驗設(shè)計和數(shù)據(jù)分析纸泡。
Methods
scPNMF 的核心是學(xué)習(xí)細胞的低維嵌入漂问,使低維空間的基對應(yīng)稀疏且互斥的基因組,并且每個組中的基因共表達并因此在功能上相關(guān)女揭。
- 注:workflow of scPNMF
scPNMF 的輸入是通過 scRNA-seq 測量的對數(shù)轉(zhuǎn)換的逐細胞基因計數(shù)矩陣(均一化的矩陣)蚤假。 scPNMF主要有兩個步驟:(I)通過PNMF學(xué)習(xí)一個低維稀疏權(quán)重矩陣; (II) it selects bases in the weight matrix based on functional annotations (optional), correlation screening, and multimodality testing to remove uninformative bases that cannot distinguish cell types吧兔。scPNMF 的輸出包括 (1) 選擇的權(quán)重矩陣磷仰,將基因作為新的低維的稀疏且互斥的編碼,以及 (2) 包含輸入cell在低維中的嵌入的分數(shù)矩陣境蔼。 選定的權(quán)重矩陣有兩個主要應(yīng)用:提取用于下游分析的信息基因灶平,例如細胞聚類和新標記基因識別,以及投影新的目標基因分析數(shù)據(jù)用于數(shù)據(jù)集成和細胞類型注釋箍土。
scPNMF step I: PNMF
在部分介紹scPNMF 基礎(chǔ)的 PNMF 算法逢享。 首先將 PNMF 的公式與主成分分析 (PCA) 和非負矩陣分解 (NMF) 的公式進行比較,表明 PNMF 具有 PCA 和 NMF 的優(yōu)點涮帘,因此它可以成為 scRNA-seq 數(shù)據(jù)的有用工具 分析拼苍。 接下來,scPNMF 實現(xiàn)方法调缨。
給定一個對數(shù)變換的計數(shù)矩陣 X∈Rp x n>=0疮鲫,其 p 行對應(yīng)基因,n 列代表細胞弦叶,以及一個正整數(shù) K <= p俊犯,PNMF 旨在找到一個 K 維空間,PNMF 旨在找到一個 K 維空間伤哺,其維度對應(yīng)于 p 基因的非負燕侠、稀疏和互斥的線性組合,這樣將 n 個細胞投影到 K 維空間上不會造成太多信息丟失(即立莉, 將 n 個細胞的 K 維嵌入投影回原始 p 維空間可以在很大程度上恢復(fù)原始 n 個細胞)绢彤。 PNMF 通過解決優(yōu)化問題來解決這個任務(wù):
其中|| * ||表示 Frobenius 矩陣范數(shù)。 The solution W 稱為權(quán)重矩陣蜓耻。 W 的每一列都是一個basis茫舶,它的 p 個條目是 p 個基因的權(quán)重。 PNMF 要求所有權(quán)重都為非負刹淌,從而導(dǎo)致大多數(shù)權(quán)重為零的稀疏W饶氏。
PCA is similar to PNMF but does not require all weights to be non-negative. We can write the optimization problem of PCA as
whose solution W is also a weight matrix but not sparse, and W is often referred to as the loading matrix.(PCA不要求權(quán)重矩陣矩陣非負)
PNMF 和 PCA 的一個共同特性是它們的權(quán)重矩陣 WT∈RKxp 的轉(zhuǎn)置可用于將具有 p 基因測量值, x∈Rp 的新細胞投影到 K 維空間作為WTx讥耗。
與 PMNF 和 PCA 相比,NMF 找到兩個非負矩陣 W 和 H疹启,使它們的乘積近似于原始矩陣 X古程。 NMF 解決了優(yōu)化問題:
其解 W 仍有 K 列表示bases,H 有 n 列作為 n 個細胞的 K 維嵌入喊崖。 由于 W 和 H 的非負約束挣磨,W 是一個稀疏矩陣.但是,轉(zhuǎn)置WT不能用作從原始p維空間到K維空間的投影矩陣贷祈。 原因是趋急,如果 WT 是一個投影矩陣,那么根據(jù) H 的定義势誊,我們有 WTX = H呜达,這會將 NMF 的目標函數(shù)轉(zhuǎn)換為 PNMF 的目標函數(shù)。 換句話說粟耻,PNMF 是 NMF 的約束版本查近,因為它要求 WT 是一個投影矩陣。 因此挤忙,PNMF 繼承了 NMF 的特性霜威,具有非負的、稀疏的bases册烈,這些bases大多是互斥的(即不同的bases對應(yīng)于不同的基因組)戈泼。 此外,基于 PNMF 和 PCA 的目標函數(shù)的相似性赏僧,我們可以看到 PNMF 也類似于 PCA大猛,通過找到一個權(quán)重矩陣,其轉(zhuǎn)置可以用作投影矩陣淀零,并且其bases在很大程度上相互正交挽绩。 下表總結(jié)了 PNMF、PCA 和 NMF 的特性驾中。
在 scRNA-seq 數(shù)據(jù)分析的背景下唉堪,PNMF 的上述優(yōu)勢導(dǎo)致了一個可解釋且有用的權(quán)重矩陣 W。 定義為 NMF 的meta基因肩民。 其次唠亚,W 的互斥性使得不同的bases對應(yīng)不同的基因集,便于將bases解釋為meta基因或功能單元持痰。 第三趾撵,投影矩陣 WT 允許將新數(shù)據(jù)與參考數(shù)據(jù)對齊,從而促進新數(shù)據(jù)上的細胞類型注釋共啃。
算法 1 (下圖)總結(jié)了 scPNMF 中 PNMF 實現(xiàn)的關(guān)鍵步驟占调。 算法的實現(xiàn)主要遵循提出PNMF算法的兩篇論文(Projective nonnegative matrix factorization: Sparseness, orthogonality, and clustering、Linear and nonlinear projective nonnegative matrix factorization)移剪,將W的初始化更改為PCA究珊,WPCA找到的權(quán)重矩陣,對每個條目取絕對值纵苛。 方法的初始化是由所需的bases(即 W 列)的正交性驅(qū)動的剿涮。
用PNMF學(xué)習(xí)的權(quán)重矩陣W∈Rp x K>=0,可以得到得分矩陣S = WTX∈RK x n>=0攻人,其K行對應(yīng)于bases取试,n列代表細胞。 具體來說怀吻,S的第j列是第j個cell的K維embedding瞬浓; S 的第 k 行,用 sTk 表示蓬坡,包含第 k 個bases中所有 n 個細胞的分數(shù)(即坐標):
where wk is the k-th column of W, k = 1; : : : ;K.
低秩 K 需要在 PNMF 中預(yù)先指定猿棉,與 PCA 和 NMF 中相同,較大的 K 在 X 中保留更多信息但也去除較少的噪聲(不具有生物學(xué)意義的細胞的技術(shù)變異)屑咳,阻礙了對 W 的解釋 (更多的bases更難以解釋)萨赁,并增加了計算負擔(dān)。 為了以數(shù)據(jù)驅(qū)動的方式選擇 K兆龙,我們提出了正交性度量杖爽,這表明 K = 20 是多個 scRNA-seq 數(shù)據(jù)集的合理選擇。(這就是為什么我們在分析單細胞數(shù)據(jù)的時候紫皇,PCA一般采用20的原因)慰安。
scPNMF step II: basis selection
scPNMF 的第二個關(guān)鍵步驟是在 PNMF 發(fā)現(xiàn)的 K 個bases中選擇信息性bases(即 W 的列和 S 的行)以去除不需要的細胞變異(例如,與細胞類型無關(guān)的變異)坝橡。 W的列具有高稀疏性和互斥性泻帮; 也就是說,每一列都包含對應(yīng)于一個獨特的一小組基因的正權(quán)重计寇,因此它有望反映某種生物功能锣杂。 然而,一些生物學(xué)功能可能與感興趣的細胞異質(zhì)性無關(guān)番宁,例如元莫,細胞類型組成。 受此啟發(fā)蝶押,作者提出了三種選擇信息基礎(chǔ)(S 的 W 列和行)的策略:功能注釋(可選)踱蠢、與細胞庫大小的相關(guān)性以及多模態(tài)測試。
Strategy 1: examine bases by functional annotations (optional)
第一個可選策略是在權(quán)重矩陣中注釋每個bases的生物學(xué)功能。 例如茎截,scPNMF 可以將基因本體 (GO) 分析應(yīng)用于每個基礎(chǔ)(W 列)中權(quán)重最高的前 10% 基因苇侵,并將豐富的 GO 術(shù)語記錄為基礎(chǔ)的功能注釋。 然后企锌,具有先驗知識的用戶可以在每個基礎(chǔ)上解釋功能注釋并決定是否去除基礎(chǔ)榆浓。 例如,如果目標是在 scRNA-seq 數(shù)據(jù)中描繪細胞類型撕攒,則應(yīng)刪除與細胞周期基因相對應(yīng)的基礎(chǔ)陡鹃,因為它們會掩蓋細胞類型的區(qū)別。 (這部分還是很重要的)抖坪。
然而萍鲸,值得注意的是,在 scPNMF 中擦俐,通過生物注釋過濾bases是可選的脊阴。 保守用戶可以保留 PNMF 輸出的所有 K 個bases,直接使用數(shù)據(jù)驅(qū)動的bases選擇捌肴。 對于文章中的結(jié)果蹬叭,scPNMF 刪除了與眾所周知的看家基因相對應(yīng)的bases。
Data-driven strategies
Strategy 2: examine bases by correlations with cell library sizes
notice状知,為了方便秽五,scPNMF 的輸入是對數(shù)轉(zhuǎn)換的非標準化計數(shù)矩陣。 因此饥悴,在步驟 I 中計算 W 和 S 時坦喘,scPNMF 不會針對cell library大小進行調(diào)整。 鑒于cell library大小的方差會導(dǎo)致細胞的非生物學(xué)變化西设,有必要去除 S 中對應(yīng)行與細胞library大小密切相關(guān)bases瓣铣。
我們使用總對數(shù)轉(zhuǎn)換計數(shù)來近似每個細胞的library大小,并計算每個 sk 與 n 個cell的library大小之間的 Pearson 相關(guān)性贷揽。 策略是保留其 Pearson 相關(guān)性低于預(yù)定義閾值的bases棠笑,根據(jù)經(jīng)驗觀察將其設(shè)置為 0.7.
Strategy 3: examine bases by multimodality tests
另一種數(shù)據(jù)驅(qū)動的策略是保留對應(yīng)分數(shù)呈多模態(tài)分布的bases。 如果一個bases的分數(shù)向量(S 中的行)包含 n 個具有多模態(tài)模式的分數(shù)禽绪,那么它很可能區(qū)分細胞類型蓖救,應(yīng)該保留。 為了實現(xiàn)這個策略印屁,使用 ACR 測試來檢查每個bases的得分向量的多峰性循捺。 原假設(shè)是得分向量包含從單峰分布中采樣的 n 個得分,備擇假設(shè)是該分布具有不止一種模式雄人。 在執(zhí)行多個多模態(tài)測試后从橘,每個測試一個,使用 Benjamini-Hochberg 程序通過將錯誤發(fā)現(xiàn)率控制在 1% 以下來設(shè)置 p 值閾值。 將保留 p 值低于此閾值的bases恰力。
總之叉谜,scPNMF 步驟 II 允許使用策略 1 根據(jù)可用的功能注釋過濾掉無信息基礎(chǔ); 然后它實施數(shù)據(jù)驅(qū)動策略 2 和 3牺勾,以進一步去除與cell library大小具有強相關(guān)性并表現(xiàn)出單峰模式的bases正罢。 保留的bases將在 W 中選擇其對應(yīng)的列并堆疊到選定的權(quán)重矩陣Ws∈Rp x K0>=0中,其中 K0 是選定bases的數(shù)量驻民。
Applications of scPNMF output: informative gene selection and new data projection
scPNMF 輸出的選定權(quán)重矩陣 WS 有兩個主要應(yīng)用:選擇所需數(shù)量的信息基因和將新的目標基因分析數(shù)據(jù)投影到由 WS 定義的低維空間。 給定基因數(shù) M(例如 200)履怯,scPNMF 使用 M 截斷回还,這是在WS中選擇 M 行的步驟,從而產(chǎn)生 M 個信息基因和一個截斷的叹洲、選定的權(quán)重矩陣 WS,M∈RM x K0>=0 用于新數(shù)據(jù)投影柠硕。
M-truncation and informative gene selection
We denote the desired number of informative genes by M ∈ N, with M 《= # of non-zero rows in WS. M-truncation has three steps.
1、For each gene , calculate its largest weight across bases in WS:
2运提、Order genes by their maximum weights w(1) >= w(2) >=...>= w(p)and set the truncation threshold as (M). Identify the first M genes as informative genes.
3蝗柔、Construct the truncated, selected weight matrix WS;(M):
- (1) Truncate the selected weight matrix WS by setting all (WS)ik < (M) to be 0;
- (2) Keep the rows with non-zero entries; stack them by row into WS;(M) based on the order of the informative genes.
簡而言之,scPNMF 根據(jù)它們在所選bases中的最大權(quán)重來選擇信息基因民泵。 其基本原理是基因的最大權(quán)重反映了該基因?qū)?K0 維空間的貢獻癣丧,該空間保留了 n 個細胞的感興趣的生物變異。 因此栈妆,在編碼細胞生物變異的意義上胁编,具有更大最大權(quán)重的基因具有更多信息。 信息基因選擇的一個重要應(yīng)用是指導(dǎo)目標基因分析實驗的設(shè)計鳞尔。
New data projection
給定選定的 個信息基因嬉橙,一旦通過對這些基因的靶向基因分析測量新細胞,WS;(M) 可用于將新細胞投影到 K0 維空間寥假,其中輸入 scRNA-seq 數(shù)據(jù)中的細胞是嵌入市框。如果輸入數(shù)據(jù)有細胞類型注釋,我們將輸入數(shù)據(jù)稱為參考數(shù)據(jù)糕韧,然后可以根據(jù)參考數(shù)據(jù)中的細胞類型預(yù)測新的細胞類型枫振。 具體來說,新數(shù)據(jù)投影有以下幾個步驟:
1兔沃、將帶有 截斷的 scPNMF 應(yīng)用于輸入蒋得、具有 n 個細胞的參考數(shù)據(jù) X∈Rp x n >=0 以獲得截斷的、選定的權(quán)重矩陣 WS;(M)乒疏。Construct X∈Rp x n >=0 as a submatrix of X额衙,行對應(yīng)于 WS;(M) 的行,即 個信息基因。 因此窍侧,參考數(shù)據(jù)中 n 個細胞的 K0 維嵌入是
2县踢、Denote the targeted gene profiling data of n0 new cells with M informative genes measured by XNew(M)∈RM x n'. Note that XNew(M) contains log-transformed counts and has rows (genes) corresponding to the rows of X(M). Project the n' cells to the K0-dimensional space by:
3、(可選)使用 Harmony 等單細胞集成方法對 XNew(M) 和 Xref(M)進行歸一化以消除批次效應(yīng)(如果存在)伟件。
現(xiàn)在 n 個參考細胞和 n' 個新細胞在同一個 K0 維空間中硼啤,保留了生物變異。 然后可以在 n 個參考細胞類型和 Xref(M)上訓(xùn)練分類器進行細胞類型預(yù)測斧账,它可以用于從 XNew(M)預(yù)測 n' 個細胞類型谴返。
Results
scPNMF 輸出 scRNA-seq 數(shù)據(jù)的稀疏且功能可解釋的表示
首先證明 scPNMF 步驟 I,PNMF咧织,輸出細胞的稀疏且功能可解釋的基因編碼嗓袱。這里使用由三種細胞類型(三種人肺腺癌細胞系)組成的 FregGold 數(shù)據(jù)集,并設(shè)置基數(shù) K = 5 用于演示目的习绢。 PCA 和 PNMF 都學(xué)習(xí)了一個權(quán)重矩陣渠抹,可以將原始 scRNA-seq 數(shù)據(jù)投影到 5 維空間。與沒有零項的 PCA 權(quán)重矩陣不同闪萄,PNMF 的權(quán)重矩陣是非負的梧却、高度稀疏的,包含 42.6% 的項為零败去,并且基數(shù)在很大程度上是互斥的(即不同的非零項)放航。列對應(yīng)于不同的行/基因)
GO富集分析表明,每個PNMF基礎(chǔ)中的高權(quán)重基因富集了概念相似的GO通路为迈,而不同PNMF基礎(chǔ)中的高權(quán)重基因富集了概念不同的GO通路
該結(jié)果表明 PNMF bases對應(yīng)于具有不同功能的基因組三椿。相反,PCA bases沒有很好的功能解釋:每個 PCA 基礎(chǔ)中的高權(quán)重基因沒有富集概念上相似的 GO 通路葫辐,不同的 PCA bases共享許多高權(quán)重基因搜锰。
為了進一步分析 PNMF bases,我們列出了每個bases中的前 10 個高權(quán)重基因耿战,從中我們確定了許多具有重要功能的顯著基因蛋叼。 例如,base 1 包含經(jīng)典的管家基因剂陡,如 GAPDH 和核糖體蛋白基因 (RPS-)狈涮; base 3 包含眾所周知的腫瘤相關(guān)基因,包括 EGFR 和 CDK4鸭栖。 特別是歌馍,HCC827 細胞系(三種細胞類型之一)的細胞在base 3 中總體得分較高,這是一個合理的結(jié)果晕鹊,因為 HCC827 細胞系含有 EGFR 激活突變松却。 總之暴浦,scPNMF 步驟 I 輸出代表稀疏和功能可解釋基因集的bases。
Basis selection is an essential step in scPNMF
在這里晓锻,我們解釋了為什么bases選擇是 scPNMF 中必不可少的步驟歌焦。上述最后的分析中展示了 FregGold 數(shù)據(jù)集的每個 PNMF 基礎(chǔ)大約代表一個功能基因組。 眾所周知砚哆,管家基因(base 1)和細胞周期基因(base 4)通常與細胞類型的區(qū)別無關(guān)独撇。 然而,這種生物學(xué)知識并不總是可用或確定的躁锁。 因此纷铣,scPNMF 主要依賴于兩種數(shù)據(jù)驅(qū)動策略:與cell library大小的相關(guān)性和用于選擇信息基礎(chǔ)的多模態(tài)測試。
下圖顯示了兩種策略
:base 1 和 4 中的細胞分數(shù)與cell library大小高度相關(guān)(Pearson 相關(guān)性 > 0:9)灿里; base 2 和 3 中的細胞分數(shù)顯示出多模態(tài)分布的有力證據(jù)(調(diào)整后的 p 值 < 0:05)关炼。 因此,策略 1 不會保留base 1 和 4匣吊,策略 2 不會保留base 1、4 和 5寸潦; 放在一起色鸳,將刪除base 1 和 4,并選擇base 2见转、3 和 5命雀。 為了驗證bases選擇的有效性,我們使用 UMAP 來可視化基于未選擇bases 1 和 4 中的前 50 個高權(quán)重基因與所選bases 2斩箫、3 和 5 中的細胞
觀察到未選擇bases中的top基因完全無法分離三種細胞類型吏砂,而所選bases中的top基因則完美地區(qū)分了三種細胞類型。 該結(jié)果強烈支持bases選擇是 scPNMF 的必要步驟乘客。
scPNMF outperforms state-of-the-art gene-selection methods on
diverse scRNA-seq datasets
這個部分狐血,展示了 scPNMF 信息基因選擇的能力。 這里使用三種聚類方法(Louvain 聚類易核、K-means 聚類和層次聚類)在七個 scRNA-seq 數(shù)據(jù)集上針對 11 種其他單細胞信息選擇方法對 scPNMF 進行全面基準測試匈织。 為了公平基準,七個 scRNA-seq 數(shù)據(jù)集涵蓋了唯一分子標識符 (UMI) 和非 UMI protocols牡直,并包括各種生物樣本缀匕。 使用調(diào)整后的秩指數(shù) (ARI) 作為聚類精度的度量,我們使用每種基因選擇方法選擇的 100 個信息基因計算每個數(shù)據(jù)集上三種聚類方法的 ARI 值碰逸,因為 100 個基因通常用于目標基因分析乡小。
下圖顯示 scPNMF 總體上在數(shù)據(jù)集和聚類方法中具有最高的 ARI 值。
特別是饵史,scPNMF 具有每種聚類方法的最高平均 ARI 值(Louvain:0.83满钟;K-means:0.74胜榔;層次聚類:0.69)和跨數(shù)據(jù)集和聚類方法的最高總體平均 ARI (0.75)。 notice零远,除 scPNMF 外苗分,所有方法的總體平均 ARI 值的平均值僅為 0.66。
我們根據(jù) 12 種基因選擇方法中的每一種選擇的信息基因牵辣,進一步顯示了 Zheng4 數(shù)據(jù)集中細胞的 UMAP 可視化(下圖)
只有 scPNMF 導(dǎo)致幼稚細胞毒性 T 細胞和調(diào)節(jié)性 T 細胞的明確分離摔癣,而通過除 corFS 和 irlbaPcaFS 之外的其他方法選擇的信息基因根本無法區(qū)分這兩種細胞類型。
還比較了不同數(shù)量的信息基因下的 12 種方法:20纬向、50择浊、200 和 500,這是靶向基因分析中常用的基因數(shù)逾条。 我們觀察到琢岩,在所有信息基因數(shù)中,scPNMF 的總體平均 ARI 值始終高于其他方法的平均 ARI 值(下圖)师脂。
此外担孔,與其他方法相比,scPNMF 在不同數(shù)量的信息基因下導(dǎo)致更穩(wěn)定的整體平均 ARI 值吃警,表明其對靶向基因分析的基因數(shù)量約束具有更強的魯棒性糕篇。 這些結(jié)果有力地支持了 scPNMF 作為信息基因選擇方法的優(yōu)越性能。
scPNMF guides targeted gene profiling experimental design and cell-type prediction
這部分酌心,展示了 scPNMF 如何指導(dǎo)目標基因分析實驗中要測量的基因的選擇拌消,以及 scPNMF 如何在目標基因分析數(shù)據(jù)上啟用后續(xù)細胞類型注釋。 這里設(shè)計了兩個具有配對 scRNA-seq 參考數(shù)據(jù)和“偽”靶向基因分析數(shù)據(jù)的案例研究安券,其每細胞測序深度高于相應(yīng)的 scRNA-seq 數(shù)據(jù)墩崩。
In the first case study, we use the Zheng8 dataset (measured by the 10x protocol) as the reference dataset. To generate the pseudo targeted gene profiling data, we use a new single-cell gene expression simulator that captures gene correlations, scDesign2, to generate data with a 100 time higher per-cell sequencing depth. In the second case study, we use the PBMC10x dataset (measured by 10x protocol) as the reference dataset, and we use PBMCSmartseq (measured by Smart-Seq2) as the pseudo targeted gene profiling data because Smart-Seq2 has a higher pergene sequencing depth than 10x does. In both case studies, for each gene selection method, the corresponding pseudo targeted gene profiling datasets only contain the M informative genes selected by the method.
在偽靶向基因分析數(shù)據(jù)的細胞類型預(yù)測方面針對 11 種基因選擇方法對 scPNMF 進行了基準測試。為了避免特定分類算法的偏差侯勉,應(yīng)用了三種流行的細胞類型預(yù)測算法:隨機森林 (RF)鹦筹、k-最近鄰 (KNN) 和支持向量機 (SVM)。在每個案例研究中壳鹤,我們首先在參考細胞 SRef 的低維嵌入上訓(xùn)練每個分類算法Sref(M) 給定 M = 100 個由每種基因選擇方法選擇的信息基因盛龄。然后將訓(xùn)練好的分類器應(yīng)用于偽目標基因中細胞的低維嵌入分析數(shù)據(jù) SNew(M)。下表顯示 scPNMF 在六種組合(兩個案例研究三個分類算法)中導(dǎo)致最高的平均預(yù)測準確度 (0.81)
此外芳誓,scPNMF 在每個組合中都達到了最高的準確率余舶,除了 Zheng8 + 隨機森林是第二好的。這些結(jié)果證實锹淌,scPNMF 有效地指導(dǎo)了靶向基因分析實驗中要測量的基因的選擇匿值,并且可以在新生成的靶向基因分析數(shù)據(jù)集上實現(xiàn)準確的細胞類型注釋。
Discussion
提出了方法scPNMF赂摆,一種用于 scRNA-seq 數(shù)據(jù)的無監(jiān)督基因選擇和數(shù)據(jù)投影方法挟憔。 scPNMF 的主要目標是選擇固定數(shù)量的信息基因來區(qū)分細胞類型并指導(dǎo)基因選擇以進行靶向基因分析實驗钟些。 此外,scPNMF 可以將帶有選定基因的新目標基因分析數(shù)據(jù)集投影到嵌入?yún)⒖?scRNA-seq 數(shù)據(jù)集的低維空間绊谭。 可以根據(jù)最前沿的基因選擇方法在信息基因選擇方面執(zhí)行綜合基準來評估 scPNMF政恍。 最終的結(jié)果表明,scPNMF 在不同 scRNA-seq 數(shù)據(jù)集上的各種信息基因數(shù)(從 20 到 500)方面始終優(yōu)于現(xiàn)有方法达传。 還證明篙耗,scPNMF 選擇的信息基因可以有效指導(dǎo)靶向基因分析的基因選擇,并基于參考 scRNA-seq 數(shù)據(jù)對靶向基因分析數(shù)據(jù)進行準確的細胞類型注釋宪赶。
除了基因選擇和數(shù)據(jù)投影宗弯,scPNMF 還可以作為一種具有良好解釋性的降維方法。 scPNMF 發(fā)現(xiàn)的低維空間中的每個維度都可以被視為一個新的功能“特征”(作為相關(guān)基因的線性組合搂妻,因此功能相關(guān)基因)蒙保。此外,互斥性使得 scPNMF 中使用的 PNMF 堿基在消除混雜效應(yīng)方面優(yōu)于 PCA bases欲主。例如邓厕,細胞周期基因掩蓋了細胞類型的識別,應(yīng)該從細胞的低維嵌入中去除扁瓢。對于 PCA邑狸,細胞周期基因會影響許多 PCA bases,因此流行的 scRNA-seq 管道 Seurat 實施了一種復(fù)雜的方法涤妒,首先計算“細胞周期分數(shù)”,然后對這些分數(shù)的每個基礎(chǔ)(主成分)進行回歸赚哗,以消除細胞-序列的影響她紫。循環(huán)基因。相比之下屿储,細胞周期基因僅集中在一個 PNMF 基礎(chǔ)上贿讹,因此很容易去除該基礎(chǔ)以清除細胞周期基因的影響。因此够掠,scPNMF 作為一種可解釋的降維方法民褂,在破譯單細胞數(shù)據(jù)中的細胞異質(zhì)性方面具有巨大的潛力。
scPNMF 的當前實施側(cè)重于單細胞基因表達數(shù)據(jù)疯潭。 考慮到單細胞多組學(xué)技術(shù)的快速發(fā)展赊堪,計劃擴展 scPNMF 以適應(yīng)其他測量其他基因組學(xué)特征的技術(shù),例如通過單細胞 ATAC-seq 測量的染色質(zhì)可及性景觀竖哩,甚至整合跨多組學(xué)數(shù)據(jù)集的數(shù)據(jù) . 另一個注意事項是哭廉,scPNMF 中基礎(chǔ)選擇的多模態(tài)測試只考慮了離散的細胞類型,而不是連續(xù)的細胞軌跡相叁。 因此遵绰,需要其他測試或策略來選擇信息基礎(chǔ)來捕捉沿連續(xù)細胞軌跡的生物變異辽幌。
基因選擇的一個重要問題是:應(yīng)該選擇多少基因作為信息基因來充分捕捉感興趣的生物變異耕捞? 在我們的研究中左痢,我們觀察到蘸际,在信息基因數(shù)達到 200 后吭从,基于所選信息基因的聚類準確度對于包括 scPNMF 在內(nèi)的大多數(shù)基因選擇方法都保持平穩(wěn)冕末。 因此憋肖,200 個基因可能足以捕獲 scRNA-seq 數(shù)據(jù)中的生物變異气笙。 然而得哆,考慮到潛在的細胞亞群結(jié)構(gòu)是數(shù)據(jù)特異性的并且可能很復(fù)雜梁剔,決定信息基因的最小數(shù)量仍然具有挑戰(zhàn)性虽画。 我們計劃在未來可能使用信息論來探索這個問題。
示例代碼在scPNMF
生活很好荣病,有你更好