有效降維對于scRNA-seq分析至關(guān)重要夸浅。主成分分析(PCA)被廣泛使用仑最,但需要連續(xù)的、正態(tài)分布的數(shù)據(jù)帆喇;因此警医,它經(jīng)常與scRNA-seq應(yīng)用中的對數(shù)變換相結(jié)合,這可能會扭曲數(shù)據(jù)并掩蓋有意義的變化坯钦。近日《Scientific Reports》發(fā)表了一種基于計數(shù)的PCA替代方案:對應(yīng)分析(correspondence analysis预皇,CA),其基于卡方殘差矩陣的分解婉刀,避免了失真的對數(shù)變換吟温。
將CA應(yīng)用于scRNA-seq
標(biāo)準(zhǔn)對應(yīng)分析(CA)在列聯(lián)表分析框架中投射scRNA-seq讀取計數(shù),其規(guī)范形式可以被概念化為兩步程序(下圖中以圖形方式概述)突颊。計數(shù)矩陣首先被變換為Pearson卡方殘差鲁豪,然后用奇異值分解(SVD)對所得殘差矩陣進行分解潘悼。
CA的adaptations及其性能測試
為了解決scRNAseq數(shù)據(jù)中的過度分散和高稀疏性,研究團隊提出了五種CA的adaptations爬橡,其可擴展且性能優(yōu)于標(biāo)準(zhǔn)CA 和glmPCA治唤,在9個數(shù)據(jù)集中的8個里以更高的性能或可比的聚類精度計算細(xì)胞嵌入。特別是CA with Freeman–Tukey residuals (CA-FT) 在不同數(shù)據(jù)集上表現(xiàn)特別好糙申。
CA 框架的其他優(yōu)勢包括在““CA biplot中”可視化基因和細(xì)胞群之間的關(guān)聯(lián)宾添,以及擴展到多表分析。
研究團隊還在 corral 中為 scRNA-seq 數(shù)據(jù)實現(xiàn)CA:這是一個 R/Bioconductor 包郭宝,它直接與 Bioconductor 中的單細(xì)胞類接口辞槐。從 PCA 到 CA 的切換是通過簡單的流程替換實現(xiàn)的,并改進了 scRNA-seq 數(shù)據(jù)集的降維粘室。
特別是當(dāng)位于更廣泛的二元圖框架內(nèi)時榄檬,CA可以作為進一步方法開發(fā)的平臺和豐富的來源。通過同時可視化細(xì)胞和基因嵌入衔统,CA biplot強調(diào)了這些數(shù)據(jù)中固有的行列二元性鹿榜,促進了基因和細(xì)胞的聯(lián)合分析〗蹙簦基因和細(xì)胞嵌入分析的統(tǒng)一方法提供了一個自然框架來擴展和/或與其他方法集成舱殿,包括基因集富集分析、監(jiān)督分解和將補充數(shù)據(jù)投影到共享潛在空間险掀。嵌入可以用作矩陣運算符沪袭,將補充數(shù)據(jù)投射到共享潛在空間中,從而實現(xiàn)多模態(tài)和多批次集成樟氢,以及快速逼近方法冈绊。通過乘法進行矩陣投影是快速且可擴展的,即使對于非常大的數(shù)據(jù)集也是如此埠啃,并且在未來的擴展中死宣,可以作為基于分解數(shù)據(jù)的代表性子集然后將整個矩陣投影到空間中的快速近似降維方法的基礎(chǔ)。
Codeavailability
?? 本研究中corral R/Bioconductor軟件包中提供了代碼和文件:
https://bioconductor.org/packages/release/bioc/html/corral.html.?
?? 在Github上可以找到重現(xiàn)本文中功能和分析的R代碼:
https://github.com/laurenhsu1/corral_manuscript.?
?? 描述PCA和 CA(包括 corral的不同實現(xiàn)的教程可在以下網(wǎng)址獲得:
https://aedin.github.io/PCAworkshop.?
首發(fā)公號國家基因庫大數(shù)據(jù)平臺
參考文獻
Hsu, L.L., Culhane, A.C. Correspondence analysis for dimension reduction, batch integration, and visualization of single-cell RNA-seq data.?Sci Rep?13, 1197 (2023).