在Seurat中梗逮,FindAllMarkers
函數是用來尋找不同群體(通常是細胞群體)之間顯著差異表達的基因侨糟。這個函數對于解析細胞類型和理解細胞狀態(tài)變化非常有用型豁。FindAllMarkers
函數可以使用多種統計方法來測試表達差異同波,這些方法通過test.use
參數來指定剃诅。以下是一些常用的test.use
選項及其說明:
Wilcoxon Rank Sum test (
wilcox
): 默認的測試方法。這是一種非參數測試纺讲,用于比較兩個獨立樣本的差異。Wilcoxon測試不要求數據符合正態(tài)分布囤屹,適用于連續(xù)或有序的數據熬甚。在尋找差異表達基因時,它比較的是兩個細胞群體中每個基因的表達水平肋坚。Likelihood-Ratio Test for Single Cell Gene Expression (
LR
): 這種方法基于似然比測試乡括,適用于計數數據肃廓。它通過比較兩個模型(一個假設基因表達與細胞類型有關,另一個不假設)的擬合度來評估基因表達是否與細胞類型相關诲泌。t-test (
t
): 另一種比較兩個群體之間差異的方法盲赊,假設數據服從正態(tài)分布。t-test適用于比較樣本量較小的兩組數據敷扫。在單細胞數據分析中哀蘑,盡管數據可能不完全滿足正態(tài)分布的假設,但t-test仍然被廣泛使用葵第。MAST (
MAST
): 專為單細胞RNA序列數據設計的框架绘迁,考慮了零膨脹(許多基因在許多細胞中不被表達的特點)和連續(xù)性(基因表達的變異性)的特點。MAST方法結合了線性混合模型來評估基因表達與細胞狀態(tài)之間的關聯卒密。DESeq2 (
DESeq2
): 通常用于RNA序列數據的差異表達分析缀台,通過使用負二項分布模型來處理計數數據,適合處理有大小差異的樣本哮奇。在Seurat中膛腐,雖然DESeq2主要設計用于批量RNA-Seq數據,但也可以用于單細胞數據的差異表達分析鼎俘。negbinom (
negbinom
): 負二項回歸測試哲身,適用于計數數據,特別是當數據顯示出超離散性(變異數大于均值)時而芥。這種方法通過對每個基因的表達量進行建模律罢,來考察不同條件下的表達差異。
使用說明:
使用FindAllMarkers
函數時棍丐,可以通過設置test.use
參數來選擇上述任一方法误辑。選擇哪種方法取決于數據的特性和研究問題。一般而言歌逢,非參數方法(如Wilcoxon測試)更加通用巾钉,而模型基礎的方法(如DESeq2或MAST)可能在特定情況下提供更準確的結果。
示例:
markers <- FindAllMarkers(object = seurat_object, test.use = 'wilcox')
markers_LR <- FindAllMarkers(object = seurat_object, test.use = 'LR')
選擇方法的依據:
- 如果數據分布未知或者偏離正態(tài)分布秘案,優(yōu)先考慮使用非參數測試(如
wilcox
)砰苍。 - 如果數據為計數數據,并且希望考慮零膨脹或其他計數數據特有的分布特征阱高,可以選擇
MAST
或DESeq2
赚导。 - 對于想要利用似然比來評估基因表達差異性的場景,可以選擇
LR
赤惊。 - 當數據表現出超離散性時吼旧,
negbinom
測試可能是一個好的選擇。
在實際應用中未舟,不同的測試方法可能會得到略有不同的結果圈暗。研究者可以根據具體的研究背景和數據特性掂为,選擇最合適的方法,并可能需要對比多種方法的結果來做出最終決定员串。