PCA
- 概念
主成分分析:Principle Component Analysis - 主成分分析就是降維,本來應(yīng)該有n個(gè)變量旋膳,通過PCA變成了n個(gè)主成分,而一般前面的幾個(gè)主成分就能解釋所有的數(shù)據(jù)了。
理解
- 得到PC
每個(gè)sample研究10000gene(read counts)
考慮1個(gè)cell(sample)淮捆,單軸直線,1-D
考慮2個(gè)cell(sample)本股,x-y軸攀痊,2-D
考慮3個(gè)cell(sample),x-y-z拄显,3-D
...
200個(gè)cell苟径,200-D plot
這些維度中,有些維度的差異更大躬审,即對整體數(shù)據(jù)更具代表性棘街,更重要。每個(gè)維度提取差異方向承边,然后根據(jù)variation排序遭殉,得到200個(gè)PC。
PC1:差異最大的方向
PC2:差異第二大的方向
...
PC200:差異最小的方向
理解:PC1炒刁,2其實(shí)就是在sample中提出最具代表性(基因間差異最大)的兩個(gè)恩沽,并用來給gene加權(quán)重。
- 得到loading:每個(gè)gene 對某個(gè)PC的influence score
gene1 PC1:gene1在PC1方向上的偏差(絕對值越大翔始,偏離中心越遠(yuǎn))
gene | influence on PC1 | Score |
---|---|---|
a | high | 10 |
b | low | 0.5 |
c | high | -14 |
... | ... | ... |
實(shí)際表格:eigen vector
++ | PC1 | PC2 | PC3 | PC4 | PC5 | ... |
---|---|---|---|---|---|---|
Gene a | .. | .. | .. | .. | .. | .. |
Gene b | .. | .. | .. | .. | .. | .. |
Gene c | .. | .. | .. | .. | .. | .. |
... | ... | ... | .. | .. | .. | .. |
- PC plot:每個(gè)cell在各個(gè)PC的score
- 針對每一個(gè)cell(sample)罗心,需要這個(gè)cell在PC1和PC2上的related 程度衡量的分?jǐn)?shù)。即其與PC1和PC2的pattern相近程度城瞎。從而從這兩個(gè)差異最大的方向來將所有sample進(jìn)行分類渤闷。
- Cell 1 PC 1 Score = (read count * influence score on PC1)所有基因加和 = cell1中基因a的read count基因a在PC1 的loading score + cell1中基因b的read count基因b在PC1的loading score+基因c+基因d...
procomp
用于分析sample如何互相related
1.
pca<-procomp(t(data.matrix),scale=TRUE)
procomp需要行為sample是row,列為gene
2.結(jié)果
返回三個(gè)結(jié)果:
x
sdev
rotation
x返回PCs(priciple components)脖镀。前兩列是PC1和PC2飒箭,10個(gè)sample,因此有10 PCs。
x是10行10列弦蹂,10個(gè)sample肩碟,10個(gè)PC。每個(gè)數(shù)字表示某個(gè)sample的所有g(shù)ene的某個(gè)PC score加和凸椿。-
sdev:標(biāo)準(zhǔn)偏差來計(jì)算每個(gè)PC代表的variation削祈。
計(jì)算每個(gè)PC的var的百分比。
從百分比可以知道PC1和PC2的重要性有多少脑漫。另外因?yàn)镻C1比PC2重要髓抑,因此如果圖中兩個(gè)點(diǎn)的橫向距離和縱向距離一樣,那么它們也在PC1上的差異更大优幸。也就是橫向分類更顯著吨拍。 -
rotation:即loading scores(每個(gè)基因?qū)Σ煌琍C的influence score)
100genes,10PC
參考
- statquest-PCA
- link