機(jī)器學(xué)習(xí)----主成分分析PCA

本文內(nèi)容是機(jī)器學(xué)習(xí)算法原理介紹系列的最后一篇串述，承接之前文章的思路，主要是介紹PCA算法的詳細(xì)原理及sklearn的官方demo

一、為什么要使用PCA

先來(lái)看一下下面幾個(gè)例子

1脯倚、比如拿到一個(gè)汽車的樣本，里面既有以“千米/每小時(shí)”度量的最大速度特征嵌屎，也有“英里/小時(shí)”的最大速度特征推正，顯然這兩個(gè)特征有一個(gè)多余。------特征的含義相同
2宝惰、拿到一個(gè)數(shù)學(xué)系的本科生期末考試成績(jī)單植榕，里面有三列，一列是對(duì)數(shù)學(xué)的興趣程度尼夺，一列是復(fù)習(xí)時(shí)間尊残，還有一列是考試成績(jī)。我們知道要學(xué)好數(shù)學(xué)淤堵，需要有濃厚的興趣寝衫，所以第二項(xiàng)與第一項(xiàng)強(qiáng)相關(guān)，第三項(xiàng)和第二項(xiàng)也是強(qiáng)相關(guān)拐邪。那是不是可以合并第一項(xiàng)和第二項(xiàng)呢慰毅？|"learn"與"study"----強(qiáng)關(guān)聯(lián)項(xiàng)|語(yǔ)義相同
3、拿到一個(gè)樣本扎阶，特征非常多汹胃，而樣例特別少，這樣用回歸去直接擬合非常困難乘陪，容易過(guò)度擬合。比如北京的房?jī)r(jià)：假設(shè)房子的特征是（大小啡邑、位置贱勃、朝向、是否學(xué)區(qū)房、建造年代贵扰、是否二手仇穗、層數(shù)、所在層數(shù)）戚绕，搞了這么多特征纹坐，結(jié)果只有不到十個(gè)房子的樣例。要擬合房子特征->房?jī)r(jià)的這么多特征舞丛，就會(huì)造成過(guò)度擬合耘子。-----------特征的數(shù)量偏多

二、預(yù)備知識(shí)---協(xié)方差的介紹

協(xié)方差：簡(jiǎn)單來(lái)講是用于評(píng)測(cè)或者衡量?jī)蓚€(gè)隨機(jī)變量（維度）之間的關(guān)聯(lián)程度球切，協(xié)方差的絕對(duì)值越大谷誓，則表明兩者之間的協(xié)同關(guān)聯(lián)度越高，為0的時(shí)候則表示兩個(gè)維度之間相互獨(dú)立

方差公式

協(xié)方差公式

從協(xié)方差的定義上我們也可以看出一些顯而易見(jiàn)的性質(zhì)吨凑，如：

舉一個(gè)簡(jiǎn)單的三維例子

協(xié)方差

由上述可以看出捍歪，協(xié)方差矩陣是一個(gè)對(duì)稱矩陣，且對(duì)角線存放每一維度的方差

三鸵钝、PCA 原理剖析（原文鏈接：http://blog.codinglabs.org/articles/pca-tutorial.html）

下面先來(lái)看一個(gè)高中就學(xué)過(guò)的向量運(yùn)算：
內(nèi)積
兩個(gè)維數(shù)相同的向量的內(nèi)積被定義為：

(a1,a2,?,an)T?(b1,b2,?,bn)T=a1b1+a2b2+?+anbn
內(nèi)積運(yùn)算將兩個(gè)向量映射為一個(gè)實(shí)數(shù)糙臼。其計(jì)算方式非常容易理解，但是其意義并不明顯恩商。下面我們分析內(nèi)積的幾何意義变逃。假設(shè)A和B是兩個(gè)n維向量，我們知道n維向量可以等價(jià)表示為n維空間中的一條從原點(diǎn)發(fā)射的有向線段痕届，為了簡(jiǎn)單起見(jiàn)我們假設(shè)A和B均為二維向量韧献，則A=(x1,y1)末患，B=(x2,y2)研叫。則在二維平面上A和B可以用兩條發(fā)自原點(diǎn)的有向線段表示，見(jiàn)下圖：

好璧针，現(xiàn)在我們從A點(diǎn)向B所在直線引一條垂線嚷炉。我們知道垂線與B的交點(diǎn)叫做A在B上的投影，再設(shè)A與B的夾角是a探橱，則投影的矢量長(zhǎng)度為|A|cos(a)申屹，其中|A|=x21+y21??????√是向量A的模，也就是A線段的標(biāo)量長(zhǎng)度隧膏。

注意這里我們專門(mén)區(qū)分了矢量長(zhǎng)度和標(biāo)量長(zhǎng)度哗讥，標(biāo)量長(zhǎng)度總是大于等于0，值就是線段的長(zhǎng)度胞枕；而矢量長(zhǎng)度可能為負(fù)杆煞，其絕對(duì)值是線段長(zhǎng)度，而符號(hào)取決于其方向與標(biāo)準(zhǔn)方向相同或相反。

到這里還是看不出內(nèi)積和這東西有什么關(guān)系决乎，不過(guò)如果我們將內(nèi)積表示為另一種我們熟悉的形式：

A?B=|A||B|cos(a)
現(xiàn)在事情似乎是有點(diǎn)眉目了：A與B的內(nèi)積等于A到B的投影長(zhǎng)度乘以B的模队询。再進(jìn)一步，如果我們假設(shè)B的模為1构诚，即讓|B|=1蚌斩，那么就變成了：

A?B=|A|cos(a)
也就是說(shuō)，設(shè)向量B的模為1范嘱，則A與B的內(nèi)積值等于A向B所在直線投影的矢量長(zhǎng)度送膳！這就是內(nèi)積的一種幾何解釋，也是我們得到的第一個(gè)重要結(jié)論丑蛤。在后面的推導(dǎo)中肠缨，將反復(fù)使用這個(gè)結(jié)論。

基
下面我們繼續(xù)在二維空間內(nèi)討論向量盏阶。上文說(shuō)過(guò)晒奕，一個(gè)二維向量可以對(duì)應(yīng)二維笛卡爾直角坐標(biāo)系中從原點(diǎn)出發(fā)的一個(gè)有向線段。例如下面這個(gè)向量：

在代數(shù)表示方面，我們經(jīng)常用線段終點(diǎn)的點(diǎn)坐標(biāo)表示向量痹届，例如上面的向量可以表示為(3,2)阳藻，這是我們?cè)偈煜げ贿^(guò)的向量表示。

不過(guò)我們常常忽略闷袒，只有一個(gè)(3,2)本身是不能夠精確表示一個(gè)向量的。我們仔細(xì)看一下岩梳，這里的3實(shí)際表示的是向量在x軸上的投影值是3囊骤，在y軸上的投影值是2。也就是說(shuō)我們其實(shí)隱式引入了一個(gè)定義：以x軸和y軸上正方向長(zhǎng)度為1的向量為標(biāo)準(zhǔn)冀值。那么一個(gè)向量(3,2)實(shí)際是說(shuō)在x軸投影為3而y軸的投影為2也物。注意投影是一個(gè)矢量，所以可以為負(fù)列疗。

更正式的說(shuō)滑蚯，向量(x,y)實(shí)際上表示線性組合：

x(1,0)T+y(0,1)T
不難證明所有二維向量都可以表示為這樣的線性組合。此處(1,0)和(0,1)叫做二維空間中的一組基抵栈。
再例如告材，(1,1)和(-1,1)也可以成為一組基。一般來(lái)說(shuō)古劲，我們希望基的模是1斥赋，因?yàn)閺膬?nèi)積的意義可以看到，如果基的模是1产艾，那么就可以方便的用向量點(diǎn)乘基而直接獲得其在新基上的坐標(biāo)了疤剑！實(shí)際上洛波，對(duì)應(yīng)任何一個(gè)向量我們總可以找到其同方向上模為1的向量，只要讓兩個(gè)分量分別除以模就好了骚露。

現(xiàn)在蹬挤，我們想獲得(3,2)在新基上的坐標(biāo)，即在兩個(gè)方向上的投影矢量值棘幸，那么根據(jù)內(nèi)積的幾何意義焰扳，我們只要分別計(jì)算(3,2)和兩個(gè)基的內(nèi)積

基變換的矩陣展示
下面我們找一種簡(jiǎn)便的方式來(lái)表示基變換。還是拿上面的例子误续，想一下吨悍，將(3,2)變換為新基上的坐標(biāo)，就是用(3,2)與第一個(gè)基做內(nèi)積運(yùn)算蹋嵌，作為第一個(gè)新的坐標(biāo)分量育瓜，然后用(3,2)與第二個(gè)基做內(nèi)積運(yùn)算，作為第二個(gè)新坐標(biāo)的分量栽烂。實(shí)際上躏仇，我們可以用矩陣相乘的形式簡(jiǎn)潔的表示這個(gè)變換

為了避免過(guò)于抽象的討論，我們?nèi)砸砸粋€(gè)具體的例子展開(kāi)腺办。假設(shè)我們的數(shù)據(jù)由五條記錄組成焰手，將它們表示成矩陣形式：

其中每一列為一條數(shù)據(jù)記錄，而一行為一個(gè)字段怀喉。為了后續(xù)處理方便书妻，我們首先將每個(gè)字段內(nèi)所有值都減去字段均值，其結(jié)果是將每個(gè)字段都變?yōu)榫禐?（這樣做的道理和好處后面會(huì)看到）躬拢。

我們看上面的數(shù)據(jù)躲履，第一個(gè)字段均值為2，第二個(gè)字段均值為3聊闯，所以變換后：

我們可以看下五條數(shù)據(jù)在平面直角坐標(biāo)系內(nèi)的樣子：

現(xiàn)在問(wèn)題來(lái)了：如果我們必須使用一維來(lái)表示這些數(shù)據(jù)工猜，又希望盡量保留原始的信息，你要如何選擇馅袁？

通過(guò)上一節(jié)對(duì)基變換的討論我們知道域慷，這個(gè)問(wèn)題實(shí)際上是要在二維平面中選擇一個(gè)方向荒辕，將所有數(shù)據(jù)都投影到這個(gè)方向所在直線上汗销，用投影值表示原始記錄。這是一個(gè)實(shí)際的二維降到一維的問(wèn)題抵窒。

那么如何選擇這個(gè)方向（或者說(shuō)基）才能盡量保留最多的原始信息呢弛针？一種直觀的看法是：希望投影后的投影值盡可能分散。

以上圖為例李皇，可以看出如果向x軸投影削茁，那么最左邊的兩個(gè)點(diǎn)會(huì)重疊在一起宙枷，中間的兩個(gè)點(diǎn)也會(huì)重疊在一起，于是本身四個(gè)各不相同的二維點(diǎn)投影后只剩下兩個(gè)不同的值了茧跋，這是一種嚴(yán)重的信息丟失慰丛，同理，如果向y軸投影最上面的兩個(gè)點(diǎn)和分布在x軸上的兩個(gè)點(diǎn)也會(huì)重疊瘾杭。所以看來(lái)x和y軸都不是最好的投影選擇诅病。我們直觀目測(cè)，如果向通過(guò)第一象限和第三象限的斜線投影粥烁，則五個(gè)點(diǎn)在投影后還是可以區(qū)分的贤笆。

下面，我們用數(shù)學(xué)方法表述這個(gè)問(wèn)題讨阻。

方差---表征離散程度芥永，投影盡可能分散，也就是方差值變大

方差

由于上面我們已經(jīng)將每個(gè)字段的均值都化為0了钝吮，因此方差可以直接用每個(gè)元素的平方和除以元素個(gè)數(shù)表示：

方差變化

image.png

協(xié)方差----目標(biāo)是使得各特征之間相互獨(dú)立埋涧，沒(méi)有線性關(guān)系，從而避免特征之間的信息重復(fù)

協(xié)方差

至此奇瘦，我們得到了降維問(wèn)題的優(yōu)化目標(biāo)：將一組N維向量降為K維（K大于0飞袋，小于N），其目標(biāo)是選擇K個(gè)單位（模為1）正交基链患，使得原始數(shù)據(jù)變換到這組基上后巧鸭，各字段兩兩間協(xié)方差為0，而字段的方差則盡可能大（在正交的約束下麻捻，取最大的K個(gè)方差）纲仍。

假設(shè)我們只有a和b兩個(gè)字段，那么我們將它們按行組成矩陣X：

然后我們用X乘以X的轉(zhuǎn)置贸毕，并乘上系數(shù)1/m：

設(shè)我們有m個(gè)n維數(shù)據(jù)記錄郑叠，將其按列排成n乘m的矩陣X，設(shè)C=1/m*XXT明棍，則C是一個(gè)對(duì)稱矩陣乡革，其對(duì)角線分別個(gè)各個(gè)字段的方差，而第i行j列和j行i列元素相同摊腋，表示i和j兩個(gè)字段的協(xié)方差沸版。

PCA算法總結(jié)
設(shè)有m條n維數(shù)據(jù)。
1）將原始數(shù)據(jù)按列組成n行m列矩陣X
2）將X的每一行（代表一個(gè)屬性字段）進(jìn)行零均值化兴蒸，即減去這一行的均值
3）求出協(xié)方差矩陣C=1/m*XXT
4）求出協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量
5）將特征向量按對(duì)應(yīng)特征值大小從上到下按行排列成矩陣视粮，取前k行組成矩陣P
6）Y=PX即為降維到k維后的數(shù)據(jù)

四、PCA步驟中特征值和特征向量的求解

1.常用的數(shù)學(xué)方法---針對(duì)方形矩陣
2.SVD奇異求解----任何形式的矩陣

1.特征值和特征向量
　我們首先回顧下特征值和特征向量的定義如下：

[圖片上傳中...(image.png-5ae866-1550134434773-0)]

2.SVD奇異值求解
　　　　SVD也是對(duì)矩陣進(jìn)行分解橙凳，但是和特征分解不同蕾殴，SVD并不要求要分解的矩陣為方陣笑撞。假設(shè)我們的矩陣A是一個(gè)m×n的矩陣，那么我們定義矩陣A的SVD為：

　　如果我們將A的轉(zhuǎn)置和A做矩陣乘法钓觉，那么會(huì)得到n×n的一個(gè)方陣ATA茴肥。既然ATA是方陣，那么我們就可以進(jìn)行特征分解荡灾，得到的特征值和特征向量滿足下式：
(ATA)vi=λivi
　　　　這樣我們就可以得到矩陣ATA的n個(gè)特征值和對(duì)應(yīng)的n個(gè)特征向量v了炉爆。將ATA的所有特征向量張成一個(gè)n×n的矩陣V，就是我們SVD公式里面的V矩陣了卧晓。一般我們將V中的每個(gè)特征向量叫做A的右奇異向量芬首。
　　如果我們將A和A的轉(zhuǎn)置做矩陣乘法，那么會(huì)得到m×m的一個(gè)方陣AAT逼裆。既然AAT是方陣郁稍，那么我們就可以進(jìn)行特征分解，得到的特征值和特征向量滿足下式：
(AAT)ui=λiui
　　　　這樣我們就可以得到矩陣AAT的m個(gè)特征值和對(duì)應(yīng)的m個(gè)特征向量u了胜宇。將AAT的所有特征向量張成一個(gè)m×m的矩陣U耀怜，就是我們SVD公式里面的U矩陣了。一般我們將U中的每個(gè)特征向量叫做A的左奇異向量

注：針對(duì)上述為什么ATA就是V桐愉，AAT就是U财破，進(jìn)行如下證明

U和V我們都求出來(lái)了，現(xiàn)在就剩下奇異值矩陣Σ沒(méi)有求出了从诲。由于Σ除了對(duì)角線上是奇異值其他位置都是0左痢，那我們只需要求出每個(gè)奇異值σ就可以了。

最后值得一提的是奇異值σ和特征值λ之間的關(guān)系

五系洛、sklearn 實(shí)例demo

1.load_iris()
鳶尾類別是3個(gè)俊性，class為3
每一類50個(gè)數(shù)據(jù)，總共數(shù)據(jù)量為150
每一個(gè)數(shù)據(jù)的特征維度為4
數(shù)據(jù)是以json的形式存儲(chǔ)描扯，鍵分別為data,target
parameters:
return_X_y：boolean定页，default=False
如果為真 返回(data,target)
data=load_iris()
print (data.target[[10,25]])表示返回的是第10，25兩個(gè)樣本所屬的類別編號(hào)

IncrementalPCA
主要是為了解決單機(jī)內(nèi)存限制的绽诚。有時(shí)候樣本數(shù)量過(guò)大典徊，直接去擬合數(shù)據(jù)會(huì)讓內(nèi)存爆炸的，此時(shí)可用IncrementalPCA來(lái)解決這個(gè)問(wèn)題恩够。
parameters
1.n_components: 整數(shù)卒落，PCA降維后的維度，大于1且小于數(shù)據(jù)數(shù)量
2.whiten:判斷是否進(jìn)行白化玫鸟。所謂白化导绷，就是對(duì)降維后的數(shù)據(jù)的每個(gè)特征進(jìn)行歸一化，讓方差都為1.對(duì)于PCA降維本身來(lái)說(shuō)屎飘，
一般不需要白化妥曲。如果你PCA降維后有后續(xù)的數(shù)據(jù)處理動(dòng)作，可以考慮白化钦购。默認(rèn)值是False檐盟，即不進(jìn)行白化。
3.copy default=True 一般不懂
4.batch_size init 數(shù)據(jù)要分的批數(shù)

attributes:
1.components with maximum variance 即參與進(jìn)行降維的主成分  array
2.explained_variance_ : array Variance explained by each of the selected components.  主成分返回的方差數(shù)組
3.explained_variance_ratio_ ：Percentage of variance explained by each of the selected components.
If all components are stored, the sum of explained variances is equal to 1.0.
4.singular_values_押桃，奇異值
5.mean_葵萎，待降維矩陣的均值
6.var_，待降維矩陣的方差


methods:
1.fit(x) 見(jiàn)之前文章 不詳述 Returns the instance itself.
2.fit_transform(x) 見(jiàn)之前文章 不詳述 Transformed array.
3.get_params_()
4.partial_fit(x)Returns the instance itself.

PCA
parameters:除了上述的參數(shù)外
1.svd_solver：即指定奇異值分解SVD的方法唱凯，由于特征分解是奇異值分解SVD的一個(gè)特例羡忘，一般的PCA庫(kù)都是基于SVD實(shí)現(xiàn)的。
有4個(gè)可以選擇的值：{‘a(chǎn)uto’, ‘full’, ‘a(chǎn)rpack’, ‘randomized’}磕昼。randomized一般適用于數(shù)據(jù)量大卷雕，
數(shù)據(jù)維度多同時(shí)主成分?jǐn)?shù)目比例又較低的PCA降維，它使用了一些加快SVD的隨機(jī)算法票从。 full則是傳統(tǒng)意義上的SVD漫雕，
使用了scipy庫(kù)對(duì)應(yīng)的實(shí)現(xiàn)。arpack和randomized的適用場(chǎng)景類似峰鄙，區(qū)別是randomized使用的是scikit-learn自己的SVD實(shí)現(xiàn)浸间，
而arpack直接使用了scipy庫(kù)的sparse SVD實(shí)現(xiàn)。默認(rèn)是auto吟榴，即PCA類會(huì)自己去在前面講到的三種算法里面去權(quán)衡魁蒜，
選擇一個(gè)合適的SVD算法來(lái)降維。一般來(lái)說(shuō)吩翻，使用默認(rèn)值就夠了梅惯。
2.tol : float >= 0, optional (default .0)
Tolerance for singular values computed by svd_solver == ‘a(chǎn)rpack’.
3.random_state : int
f int, random_state is the seed used by the random number generator; If RandomState instance,
random_state is the random number generator; If None,
the random number generator is the RandomState instance used by np.random. Used when svd_solver == ‘a(chǎn)rpack’ or ‘randomized’.

attributes:見(jiàn)上述的IncrementalPCA


常用methods
1.fit(x)
2.fit_transform(x)
3.get_params(x)


import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris#鳶尾
from sklearn.decomposition import PCA
from sklearn.decomposition import IncrementalPCA


iris=load_iris()#導(dǎo)入數(shù)據(jù)集合
x=iris.data
y=iris.target

n_components=2
ipca=IncrementalPCA(n_components=n_components,batch_size=10)
x_ipca=ipca.fit_transform(x)#返回的是降維后的150個(gè)數(shù)據(jù)

pca=PCA(n_components=n_components)
x_pca=pca.fit_transform(x)

colors = ['navy', 'turquoise', 'darkorange']



for x_transformed, title in [(x_ipca, "Incremental PCA"), (x_pca, "PCA")]:
    plt.figure(figsize=(8,8))
    for color,i,target_name in zip(colors,[0,1,2],iris.target_names):
        plt.scatter(x_transformed[y==i,0],x_transformed[y==i,1],color=color,linewidths=2,label=target_name)#總過(guò)有三種，每一種的第一維作為x,第二維作為y

    if "Incremental" in title:
        err=np.abs(np.abs(x_pca)-np.abs(x_ipca)).mean()#求一下兩者偏差并求其差值絕對(duì)值
        plt.title(title + " of iris dataset\nMean absolute unsigned error "
                          "%.6f" % err)
    else:
        plt.title(title+"of iris dataset")
    plt.legend(loc="best",shadow=False,scatterpoints=1)
    plt.axis([-4,4,-1.5,1.5])#四個(gè)參數(shù)用來(lái)設(shè)定x,y 軸的最大值和最小值
plt.show()

上述代碼的結(jié)果展示：

至此仿野，本系列已經(jīng)暫時(shí)告一段落铣减，經(jīng)過(guò)這一系列的總結(jié)后，基本上對(duì)于機(jī)器學(xué)習(xí)的常用算法有了了解和簡(jiǎn)單應(yīng)用脚作，下一系列就是機(jī)器學(xué)習(xí)的強(qiáng)化實(shí)戰(zhàn)項(xiàng)目

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者