參考:Seurat官網(wǎng):https://satijalab.org/seurat/v3.2/pbmc3k_tutorial.html
來(lái)自生信星球劉小澤的個(gè)人博客:https://www.jieandze1314.com/
僅用于個(gè)人參考學(xué)習(xí)
高變異基因:highly variable features(HVGs)昼伴,就是在細(xì)胞與細(xì)胞間進(jìn)行比較序厉,選擇表達(dá)量差別最大的
Seurat中利用FindVariableFeatures函數(shù)恰起,會(huì)計(jì)算一個(gè)mean-variance結(jié)果,也就是給出表達(dá)量均值和方差的關(guān)系并且得到top variable features
計(jì)算方法主要有三種:
vst(默認(rèn)):
首先利用loess對(duì)log(variance)和log(mean)擬合一條直線授账,然后利用觀測(cè)均值和期望方差對(duì)基因表達(dá)量進(jìn)行標(biāo)準(zhǔn)化采够,最后根據(jù)保留最大的標(biāo)準(zhǔn)化的表達(dá)量計(jì)算方差
mean.var.plot:
首先利用mean.function和dispersion.function分別計(jì)算每個(gè)基因的平均表達(dá)量和離散情況,然后根據(jù)平均表達(dá)量將基因們分散到一定數(shù)量(默認(rèn)是20個(gè))的小區(qū)間(bin)中疤剑,并且計(jì)算每個(gè)bin中z-score
dispersion(最直接):
挑選最高離差值的基因
例如:使用Seurat 版本3
# V3 代碼來(lái)自官方教程
pbmc<-FindVariableFeatures(pbmc, selection.method="vst", nfeatures=2000)
top10<-head(VariableFeatures(pbmc),10)
# 分別繪制帶基因名和不帶基因名的
plot1<-VariableFeaturePlot(pbmc)
plot2<-LabelPoints(plot=plot1, points=top10, repel=TRUE)
CombinePlots(plots=list(plot1, plot2))
使用Seurat版本2
# V2pbmc<-FindVariableGenes(object=pbmc,
mean.function=ExpMean,
dispersion.function=LogVMR )
length( pbmc@var.genes)
#默認(rèn)值是:x.low.cutoff = 0.1, x.high.cutoff = 8, y.cutoff = 1,
#就是說(shuō)取log后的平均表達(dá)量(x軸)介于0.1-8之間的闷堡;分散程度(y軸隘膘,即標(biāo)準(zhǔn)差)至少為1的
V3計(jì)算mean.function和FastLogVMR均采用了加速的FastExpMean、FastLogVMR模式
V3橫坐標(biāo)范圍設(shè)定參數(shù)改成:mean.cutoff杠览,整合了原來(lái)V2的x.low.cutoff + x.high.cutoff弯菊;
縱坐標(biāo)改成:dispersion.cutoff ,替代了原來(lái)V2的y.cutoff
V3默認(rèn)選擇2000個(gè)差異基因倦零,檢查方法也不同
(V3用VariableFeatures(sce)檢查误续,V2用sce@var.genes檢查)