PCA繪圖模仿筆記
? ? ? ? ?PCA(Principal Component Analysis)是一種常用的數(shù)據(jù)分析方法。PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示晚碾,可用于提取數(shù)據(jù)的主要特征分量窄赋,常用于高維數(shù)據(jù)的降維题诵。在生物信息分析中懂酱,PCA常用于分析不同樣本之間的相互關(guān)系各墨,可以基于表達(dá)量或者SNP突變類型進(jìn)行分析。R語言中內(nèi)置了PCA分析函數(shù)procomp瘩绒,直接調(diào)用該函數(shù)可快速對一組數(shù)據(jù)進(jìn)行PCA分析猴抹,結(jié)果可配合ggplot2等包可視化。
1锁荔、數(shù)據(jù)讀取格式可為csv文件(逗號分隔符)蟀给,第一列基因名,第二列····n列為樣品名:
a阳堕、rawdata = read.csv('E:/桌面/caiyeB.csv',header = T) ?#讀取存儲數(shù)據(jù)
b跋理、選擇性運(yùn)輸下列代碼(數(shù)據(jù)進(jìn)一步整理):
row.names(rawdata) <- rawdata$test_id #將第一列數(shù)據(jù)設(shè)置為行名保存
tmp <- t(rawdata[,c(-1)]) #刪除第一列位置信息,并進(jìn)行行列轉(zhuǎn)置
cleandata <- tmp[,colSums(tmp !=0) >0] #刪除樣本中表達(dá)量均為0的基因
c恬总、直接調(diào)用prcomp函數(shù)進(jìn)行PCA分析前普,代碼如下:
data.pca <- prcomp(cleandata, center = T, scale. = F)?
prcomp?函數(shù)的返回值是一個特殊的對像,可以利用summary函數(shù)來查看分析的結(jié)果壹堰。
d拭卿、library('ggplot2'), 運(yùn)行g(shù)gplot(as.data.frame(data.pca$x),aes(x=PC1,y=PC2)) + geom_point()