主成分分析(PCA)
矩陣A中有100個(gè)樣本數(shù)據(jù)圃伶,每個(gè)數(shù)據(jù)是二維平面上的一個(gè)點(diǎn)泻拦。如下圖所示毙芜。求出矩陣A的特征值λ1,λ2争拐,可以看出A矩陣其實(shí)是特征值方向上的拉伸成都腋粥,λ1>λ2,說(shuō)明λ1方向上的延展要多一下架曹,如果要壓縮A矩陣隘冲,則最能體現(xiàn)A特征的特征是讓?duì)?。V1绑雄,V2分別是特征λ1展辞,λ2對(duì)應(yīng)的特征向量。
因?yàn)?strong>λ1>λ2万牺,所以選擇v1進(jìn)行降維纵竖,
A'--------->V1'A'---------->1x100(二維向量變成了一維樣本)
2X100 ——>1X2X2X100
V1'A'則為被壓縮的樣本,如果要恢復(fù)成原來(lái)的矩陣:
V1V1'A'---------->A
(因?yàn)镾=[V1,V2]是標(biāo)準(zhǔn)正交的杏愤,之間點(diǎn)乘為0,和自己點(diǎn)乘為1)
在對(duì)A做PCA之前還有一個(gè)步奏已脓,需要將A矩陣化為均值為0的矩陣珊楼。
這樣做的原因是為了讓?duì)?,λ2的方向經(jīng)過(guò)原點(diǎn)度液,因?yàn)椴唤?jīng)過(guò)原點(diǎn)的直線是不能用一個(gè)二維向量表示的厕宗,如下圖所示:
要表示直線AB上的點(diǎn)A,B的方向必須用
OA=0A'+A'A
OB=OB'+B'B
其中,A'A=B'B=[0,b]'堕担,OA'與OB'為過(guò)原點(diǎn)的方向向量已慢。
所以不過(guò)原點(diǎn)的直線上的點(diǎn),必須用一個(gè)固定截距向量和一個(gè)過(guò)原點(diǎn)的方向向量表示霹购,所以需要將A矩陣化為均值為0的矩陣佑惠。
編寫一個(gè)對(duì)100X2的數(shù)據(jù)進(jìn)行PCA的程序,主要部分如下:
def PCA(dataMat,topNfeat=5):
#topNfeat=5 默認(rèn)選擇前五個(gè)最大的特征值
#減去均值
meanVals = np.mean(dataMat,axis = 0)
dataMean = dataMat - meanVals
#求協(xié)方差方陣
conMat = dataMean.T.dot(dataMean)
#求特征值和特征向量
eigVals,eigVects = np.linalg.eig(conMat)
#對(duì)特征值進(jìn)行排序
eigValInd = np.argsort(eigVals)
#得到的eigValInd是從小到大的排列,對(duì)應(yīng)的原數(shù)據(jù)中該元素的索引
#x = np.array([3, 1, 2])
#np.argsort(x)
#array([1, 2, 0])
#從小到大依次是1,2,3,1對(duì)應(yīng)的索引是1,2對(duì)應(yīng)的索引是2,3對(duì)應(yīng)的索引是0
eigValInd = eigValInd[:-(topNfeat+1):-1]
#逆序膜楷,從最大到最小的前topNfeat個(gè)
#除去不需要的特征向量
redeigVects=eigVects[:,eigValInd]
#求新的數(shù)據(jù)矩陣
lowdataMat = dataMean.dot(redeigVects)
#求從低維還原回來(lái)的數(shù)據(jù)
condata = (lowdataMat.dot(redeigVects.T)) + meanVals
#輸出降完維德數(shù)據(jù)加均值
#因?yàn)榻稻S后的數(shù)據(jù)是一維的了旭咽,所以只能加上dataMat整體的平均數(shù)進(jìn)行恢復(fù)了
reducedata=lowdataMat+np.mean(dataMat)
return reducedata,condata
結(jié)果:
藍(lán)色點(diǎn)是原始數(shù)據(jù)
黑色點(diǎn)是被降維后的數(shù)據(jù)
紅色點(diǎn)是由被降維的數(shù)據(jù)恢復(fù)的數(shù)據(jù)
綠色直線是理想的直線
將結(jié)果放大,如下圖
我們可以看到每一個(gè)紅色點(diǎn)都可以找到一個(gè)藍(lán)色的原始數(shù)據(jù)與它對(duì)應(yīng)赌厅。
常用的主元素分析法穷绵,除了PCA還有SVD,SVD一般用在矩陣的協(xié)方差矩陣不可逆時(shí)特愿。
完整代碼下載:
http://pan.baidu.com/s/1boU0rG7
提取碼:va4v
補(bǔ)充:
python自帶PCA函數(shù)介紹:
from sklearn.decomposition import PCA#從sklearn中導(dǎo)入PCA
pca = PCA(n_components=0.8,whiten=True)#設(shè)置PCA參數(shù)#n_components:
#設(shè)為大于零的整數(shù)仲墨,會(huì)自動(dòng)的選取n個(gè)主成分,
#設(shè)為分?jǐn)?shù)時(shí),選擇特征值占總特征值大于n的揍障,作為主成分
#whiten:
#True表示做白化處理目养,白化處理主要是為了使處理后的數(shù)據(jù)方差都一致
pca.fit_transform(data)
pca.transform(data)
#對(duì)數(shù)據(jù)data進(jìn)行主成分分析
sklearn PCA 官方文檔
http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html