Seurat對象中的Assay:
######################################################################
在-RNA槽:
@counts:未作任何處理的原始RNA表達矩陣。
@data:原表達矩陣通過NormalizeData()歸一化消除測序文庫差異(對于每個細胞,將每個基因的表達量除以該細胞的所有基因表達量之和,然后乘以一個scale.factor, 之后以自然對數(shù)進行轉換),得到非高斯分布的矩陣藐唠。主要用于基因表達量可視化
@scale.data: 通過對log轉換后的@data矩陣進行ScaleData()標準化,得到接近于高斯分布的矩陣。在分類蜘澜、聚類、PCA算法中响疚,要求使用z-score鄙信。
在-SCT槽:
@counts:該矩陣是UMI counts矯正后的counts,是由ScaleData(皮爾遜殘差)倒推出來的忿晕,它是一個回歸装诡,運算之后的殘差。
@data:矯正后的UMI counts的log-normalized變換践盼,可用于基因表達量可視化鸦采。
@scale.data:基因組真實表達量與擬合后的表達預期值的差值(皮爾遜殘差:“正則化負二項式回歸”的殘差)。用于差異表達分析咕幻,整合分析渔伯,差異基因分析。
######################################################################
SCTransform對測序深度的校正效果要好于log標準化肄程,也可用于矯正線粒體等因素的影響锣吼,但不能用于批次矯正选浑。基于概率方法對UMI counts進行建模吐限。在進行了SCTransform操作后鲜侥,矩陣默認會變成SCT矩陣,如果不加設置诸典,后續(xù)的PCA等操作都是基于SCT矩陣描函。由于SCTransform 更好地估計了方差,并且較高的 PC 維度通常不包括技術變化的影響狐粱,所以選擇用于聚類的 PC 越多舀寓,意味著生物學變化越多。(不同于以往的全局scale歸一化方法肌蜻,需要認真選擇用于聚類的PC以避免技術誤差建立的PC維度被用于聚類)互墓。
scRNA <- SCTransform(scRNA, vars.to.regress = "percent.mt", verbose = FALSE)
#在標準化過程中屏蔽線粒體引起的變異。
簇的Marker基因鑒定最好使用RNA矩陣($RNA@counts)蒋搜。
sct的到的count并不是真實的基因表達值篡撵,而是通過scaledata倒推出來的,它是一個回歸豆挽,運算之后的殘差育谬。
標準化的意義: 消除技術效應對潛在分子計數(shù)的影響,同時保留真正的生物學變異帮哈。
在單細胞 (scRNA-seq) 數(shù)據(jù)的分析中膛檀,進行有效的預處理和標準化非常關鍵。原始UMI計數(shù)不能直接用于比較細胞之間的基因表達娘侍,因為它們會被技術和“無意義”的生物變異所混淆咖刃。 特別是,觀察到的 測序深度 (每個細胞檢測到的基因或分子的數(shù)量)在細胞之間可能存在顯著差異憾筏,即使在同一細胞類型內(nèi)嚎杨,分子計數(shù)的變化可能跨越一個數(shù)量級。 雖然現(xiàn)在在scRNA-seq中廣泛使用唯一分子標識符 (UMI) 消除了 PCR 擴增偏差氧腰,但仍需要通過標準化以消除其他技術變化的影響磕潮,如測序深度、細胞裂解和逆轉錄效率等帶來的變異容贝。其實在bulk RNA-seq分析中同樣存在自脯,但由于scRNA-seq數(shù)據(jù)的極度稀疏性,這類問題會更嚴重
一般來說斤富,有效歸一化分析流程處理后的數(shù)據(jù)集膏潮,基因的標準化表達水平與細胞的總測序深度不相關。下游分析流程(降維满力、差異表達)也不受測序深度變化的影響焕参∏峒停跨細胞歸一化基因的方差主要反映生物學異質(zhì)性,與基因豐度或測序深度無關叠纷。例如刻帚,標準化后具有高方差的基因應在不同細胞類型之間差異表達,而管家基因應表現(xiàn)出低方差涩嚣。
兩種主流的標準化方法
方法1:全局scale歸一化方法(global scaling normalization):即基于縮放因子的歸一化方法崇众。確定單個細胞的“大小因素”(size factors),通過對每個細胞進行統(tǒng)一縮放航厚,這些方法假設數(shù)據(jù)集中所有細胞的潛在 RNA 含量是恒定的顷歌,并且可以對所有基因應用單個縮放因子,以便將技術噪音與生物細胞間的變異性區(qū)分開來幔睬。lognormalize標準化屬于此類眯漩。
方法2:使用概率方法對分子計數(shù)進行建模,sctransform屬于此類型麻顶。他們認為不同的基因組別(gene group)不能被相同的常數(shù)因子歸一化赦抖,質(zhì)疑基于縮放因子的歸一化方法,(縮放因子是如何計算的?)辅肾。sctransform的“正則化負二項式回歸”的殘差代表了有效歸一化的數(shù)據(jù)值(有正有負队萤。正值表示:考慮到細胞群體中基因的平均表達量和細胞測序深度,某個細胞的某個基因所包含的UMIs比預測值要高)宛瞄,該結果剔除技術噪音模型浮禾,保留下由不同生物狀態(tài)驅(qū)動的異質(zhì)性交胚。這些歸一化值能夠進行下游分析份汗,例如降維和差異表達測試,結果不會被細胞測序深度混淆蝴簇。