本文內(nèi)容是機(jī)器學(xué)習(xí)算法原理介紹系列的最后一篇串述,承接之前文章的思路,主要是介紹PCA算法的詳細(xì)原理及sklearn的官方demo
一、為什么要使用PCA
先來(lái)看一下下面幾個(gè)例子
1脯倚、 比如拿到一個(gè)汽車的樣本,里面既有以“千米/每小時(shí)”度量的最大速度特征嵌屎,也有“英里/小時(shí)”的最大速度特征推正,顯然這兩個(gè)特征有一個(gè)多余。------特征的含義相同
2宝惰、 拿到一個(gè)數(shù)學(xué)系的本科生期末考試成績(jī)單植榕,里面有三列,一列是對(duì)數(shù)學(xué)的興趣程度尼夺,一列是復(fù)習(xí)時(shí)間尊残,還有一列是考試成績(jī)。我們知道要學(xué)好數(shù)學(xué)淤堵,需要有濃厚的興趣寝衫,所以第二項(xiàng)與第一項(xiàng)強(qiáng)相關(guān),第三項(xiàng)和第二項(xiàng)也是強(qiáng)相關(guān)拐邪。那是不是可以合并第一項(xiàng)和第二項(xiàng)呢慰毅?|"learn"與"study"----強(qiáng)關(guān)聯(lián)項(xiàng)|語(yǔ)義相同
3、 拿到一個(gè)樣本扎阶,特征非常多汹胃,而樣例特別少,這樣用回歸去直接擬合非常困難乘陪,容易過(guò)度擬合。比如北京的房?jī)r(jià):假設(shè)房子的特征是(大小啡邑、位置贱勃、朝向、是否學(xué)區(qū)房、建造年代贵扰、是否二手仇穗、層數(shù)、所在層數(shù))戚绕,搞了這么多特征纹坐,結(jié)果只有不到十個(gè)房子的樣例。要擬合房子特征->房?jī)r(jià)的這么多特征舞丛,就會(huì)造成過(guò)度擬合耘子。-----------特征的數(shù)量偏多
二、預(yù)備知識(shí)---協(xié)方差的介紹
協(xié)方差:簡(jiǎn)單來(lái)講是用于評(píng)測(cè)或者衡量?jī)蓚€(gè)隨機(jī)變量(維度)之間的關(guān)聯(lián)程度球切,協(xié)方差的絕對(duì)值越大谷誓,則表明兩者之間的協(xié)同關(guān)聯(lián)度越高,為0的時(shí)候則表示兩個(gè)維度之間相互獨(dú)立
從協(xié)方差的定義上我們也可以看出一些顯而易見(jiàn)的性質(zhì)吨凑,如:
舉一個(gè)簡(jiǎn)單的三維例子
由上述可以看出捍歪,協(xié)方差矩陣是一個(gè)對(duì)稱矩陣,且對(duì)角線存放每一維度的方差
三鸵钝、PCA 原理剖析(原文鏈接:http://blog.codinglabs.org/articles/pca-tutorial.html)
下面先來(lái)看一個(gè)高中就學(xué)過(guò)的向量運(yùn)算:
內(nèi)積
兩個(gè)維數(shù)相同的向量的內(nèi)積被定義為:
(a1,a2,?,an)T?(b1,b2,?,bn)T=a1b1+a2b2+?+anbn
內(nèi)積運(yùn)算將兩個(gè)向量映射為一個(gè)實(shí)數(shù)糙臼。其計(jì)算方式非常容易理解,但是其意義并不明顯恩商。下面我們分析內(nèi)積的幾何意義变逃。假設(shè)A和B是兩個(gè)n維向量,我們知道n維向量可以等價(jià)表示為n維空間中的一條從原點(diǎn)發(fā)射的有向線段痕届,為了簡(jiǎn)單起見(jiàn)我們假設(shè)A和B均為二維向量韧献,則A=(x1,y1)末患,B=(x2,y2)研叫。則在二維平面上A和B可以用兩條發(fā)自原點(diǎn)的有向線段表示,見(jiàn)下圖:
好璧针,現(xiàn)在我們從A點(diǎn)向B所在直線引一條垂線嚷炉。我們知道垂線與B的交點(diǎn)叫做A在B上的投影,再設(shè)A與B的夾角是a探橱,則投影的矢量長(zhǎng)度為|A|cos(a)申屹,其中|A|=x21+y21??????√是向量A的模,也就是A線段的標(biāo)量長(zhǎng)度隧膏。
注意這里我們專門(mén)區(qū)分了矢量長(zhǎng)度和標(biāo)量長(zhǎng)度哗讥,標(biāo)量長(zhǎng)度總是大于等于0,值就是線段的長(zhǎng)度胞枕;而矢量長(zhǎng)度可能為負(fù)杆煞,其絕對(duì)值是線段長(zhǎng)度,而符號(hào)取決于其方向與標(biāo)準(zhǔn)方向相同或相反。
到這里還是看不出內(nèi)積和這東西有什么關(guān)系决乎,不過(guò)如果我們將內(nèi)積表示為另一種我們熟悉的形式:
A?B=|A||B|cos(a)
現(xiàn)在事情似乎是有點(diǎn)眉目了:A與B的內(nèi)積等于A到B的投影長(zhǎng)度乘以B的模队询。再進(jìn)一步,如果我們假設(shè)B的模為1构诚,即讓|B|=1蚌斩,那么就變成了:
A?B=|A|cos(a)
也就是說(shuō),設(shè)向量B的模為1范嘱,則A與B的內(nèi)積值等于A向B所在直線投影的矢量長(zhǎng)度送膳!這就是內(nèi)積的一種幾何解釋,也是我們得到的第一個(gè)重要結(jié)論丑蛤。在后面的推導(dǎo)中肠缨,將反復(fù)使用這個(gè)結(jié)論。
基
下面我們繼續(xù)在二維空間內(nèi)討論向量盏阶。上文說(shuō)過(guò)晒奕,一個(gè)二維向量可以對(duì)應(yīng)二維笛卡爾直角坐標(biāo)系中從原點(diǎn)出發(fā)的一個(gè)有向線段。例如下面這個(gè)向量:
在代數(shù)表示方面,我們經(jīng)常用線段終點(diǎn)的點(diǎn)坐標(biāo)表示向量痹届,例如上面的向量可以表示為(3,2)阳藻,這是我們?cè)偈煜げ贿^(guò)的向量表示。
不過(guò)我們常常忽略闷袒,只有一個(gè)(3,2)本身是不能夠精確表示一個(gè)向量的。我們仔細(xì)看一下岩梳,這里的3實(shí)際表示的是向量在x軸上的投影值是3囊骤,在y軸上的投影值是2。也就是說(shuō)我們其實(shí)隱式引入了一個(gè)定義:以x軸和y軸上正方向長(zhǎng)度為1的向量為標(biāo)準(zhǔn)冀值。那么一個(gè)向量(3,2)實(shí)際是說(shuō)在x軸投影為3而y軸的投影為2也物。注意投影是一個(gè)矢量,所以可以為負(fù)列疗。
更正式的說(shuō)滑蚯,向量(x,y)實(shí)際上表示線性組合:
x(1,0)T+y(0,1)T
不難證明所有二維向量都可以表示為這樣的線性組合。此處(1,0)和(0,1)叫做二維空間中的一組基抵栈。
再例如告材,(1,1)和(-1,1)也可以成為一組基。一般來(lái)說(shuō)古劲,我們希望基的模是1斥赋,因?yàn)閺膬?nèi)積的意義可以看到,如果基的模是1产艾,那么就可以方便的用向量點(diǎn)乘基而直接獲得其在新基上的坐標(biāo)了疤剑!實(shí)際上洛波,對(duì)應(yīng)任何一個(gè)向量我們總可以找到其同方向上模為1的向量,只要讓兩個(gè)分量分別除以模就好了骚露。
現(xiàn)在蹬挤,我們想獲得(3,2)在新基上的坐標(biāo),即在兩個(gè)方向上的投影矢量值棘幸,那么根據(jù)內(nèi)積的幾何意義焰扳,我們只要分別計(jì)算(3,2)和兩個(gè)基的內(nèi)積
基變換的矩陣展示
下面我們找一種簡(jiǎn)便的方式來(lái)表示基變換。還是拿上面的例子误续,想一下吨悍,將(3,2)變換為新基上的坐標(biāo),就是用(3,2)與第一個(gè)基做內(nèi)積運(yùn)算蹋嵌,作為第一個(gè)新的坐標(biāo)分量育瓜,然后用(3,2)與第二個(gè)基做內(nèi)積運(yùn)算,作為第二個(gè)新坐標(biāo)的分量栽烂。實(shí)際上躏仇,我們可以用矩陣相乘的形式簡(jiǎn)潔的表示這個(gè)變換
為了避免過(guò)于抽象的討論,我們?nèi)砸砸粋€(gè)具體的例子展開(kāi)腺办。假設(shè)我們的數(shù)據(jù)由五條記錄組成焰手,將它們表示成矩陣形式:
其中每一列為一條數(shù)據(jù)記錄,而一行為一個(gè)字段怀喉。為了后續(xù)處理方便书妻,我們首先將每個(gè)字段內(nèi)所有值都減去字段均值,其結(jié)果是將每個(gè)字段都變?yōu)榫禐?(這樣做的道理和好處后面會(huì)看到)躬拢。
我們看上面的數(shù)據(jù)躲履,第一個(gè)字段均值為2,第二個(gè)字段均值為3聊闯,所以變換后:
我們可以看下五條數(shù)據(jù)在平面直角坐標(biāo)系內(nèi)的樣子:
現(xiàn)在問(wèn)題來(lái)了:如果我們必須使用一維來(lái)表示這些數(shù)據(jù)工猜,又希望盡量保留原始的信息,你要如何選擇馅袁?
通過(guò)上一節(jié)對(duì)基變換的討論我們知道域慷,這個(gè)問(wèn)題實(shí)際上是要在二維平面中選擇一個(gè)方向荒辕,將所有數(shù)據(jù)都投影到這個(gè)方向所在直線上汗销,用投影值表示原始記錄。這是一個(gè)實(shí)際的二維降到一維的問(wèn)題抵窒。
那么如何選擇這個(gè)方向(或者說(shuō)基)才能盡量保留最多的原始信息呢弛针?一種直觀的看法是:希望投影后的投影值盡可能分散。
以上圖為例李皇,可以看出如果向x軸投影削茁,那么最左邊的兩個(gè)點(diǎn)會(huì)重疊在一起宙枷,中間的兩個(gè)點(diǎn)也會(huì)重疊在一起,于是本身四個(gè)各不相同的二維點(diǎn)投影后只剩下兩個(gè)不同的值了茧跋,這是一種嚴(yán)重的信息丟失慰丛,同理,如果向y軸投影最上面的兩個(gè)點(diǎn)和分布在x軸上的兩個(gè)點(diǎn)也會(huì)重疊瘾杭。所以看來(lái)x和y軸都不是最好的投影選擇诅病。我們直觀目測(cè),如果向通過(guò)第一象限和第三象限的斜線投影粥烁,則五個(gè)點(diǎn)在投影后還是可以區(qū)分的贤笆。
下面,我們用數(shù)學(xué)方法表述這個(gè)問(wèn)題讨阻。
方差---表征離散程度芥永,投影盡可能分散,也就是方差值變大
由于上面我們已經(jīng)將每個(gè)字段的均值都化為0了钝吮,因此方差可以直接用每個(gè)元素的平方和除以元素個(gè)數(shù)表示:
協(xié)方差----目標(biāo)是使得各特征之間相互獨(dú)立埋涧,沒(méi)有線性關(guān)系,從而避免特征之間的信息重復(fù)
至此奇瘦,我們得到了降維問(wèn)題的優(yōu)化目標(biāo):將一組N維向量降為K維(K大于0飞袋,小于N),其目標(biāo)是選擇K個(gè)單位(模為1)正交基链患,使得原始數(shù)據(jù)變換到這組基上后巧鸭,各字段兩兩間協(xié)方差為0,而字段的方差則盡可能大(在正交的約束下麻捻,取最大的K個(gè)方差)纲仍。
假設(shè)我們只有a和b兩個(gè)字段,那么我們將它們按行組成矩陣X:
然后我們用X乘以X的轉(zhuǎn)置贸毕,并乘上系數(shù)1/m:
設(shè)我們有m個(gè)n維數(shù)據(jù)記錄郑叠,將其按列排成n乘m的矩陣X,設(shè)C=1/m*XXT明棍,則C是一個(gè)對(duì)稱矩陣乡革,其對(duì)角線分別個(gè)各個(gè)字段的方差,而第i行j列和j行i列元素相同摊腋,表示i和j兩個(gè)字段的協(xié)方差沸版。
PCA算法總結(jié)
設(shè)有m條n維數(shù)據(jù)。
1)將原始數(shù)據(jù)按列組成n行m列矩陣X
2)將X的每一行(代表一個(gè)屬性字段)進(jìn)行零均值化兴蒸,即減去這一行的均值
3)求出協(xié)方差矩陣C=1/m*XXT
4)求出協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量
5)將特征向量按對(duì)應(yīng)特征值大小從上到下按行排列成矩陣视粮,取前k行組成矩陣P
6)Y=PX即為降維到k維后的數(shù)據(jù)
四、PCA步驟中特征值和特征向量的求解
1.常用的數(shù)學(xué)方法---針對(duì)方形矩陣
2.SVD奇異求解----任何形式的矩陣
1.特征值和特征向量
我們首先回顧下特征值和特征向量的定義如下:
[圖片上傳中...(image.png-5ae866-1550134434773-0)]
2.SVD奇異值求解
SVD也是對(duì)矩陣進(jìn)行分解橙凳,但是和特征分解不同蕾殴,SVD并不要求要分解的矩陣為方陣笑撞。假設(shè)我們的矩陣A是一個(gè)m×n的矩陣,那么我們定義矩陣A的SVD為:
如果我們將A的轉(zhuǎn)置和A做矩陣乘法钓觉,那么會(huì)得到n×n的一個(gè)方陣ATA茴肥。既然ATA是方陣,那么我們就可以進(jìn)行特征分解荡灾,得到的特征值和特征向量滿足下式:
(ATA)vi=λivi
這樣我們就可以得到矩陣ATA的n個(gè)特征值和對(duì)應(yīng)的n個(gè)特征向量v了炉爆。將ATA的所有特征向量張成一個(gè)n×n的矩陣V,就是我們SVD公式里面的V矩陣了卧晓。一般我們將V中的每個(gè)特征向量叫做A的右奇異向量芬首。
如果我們將A和A的轉(zhuǎn)置做矩陣乘法,那么會(huì)得到m×m的一個(gè)方陣AAT逼裆。既然AAT是方陣郁稍,那么我們就可以進(jìn)行特征分解,得到的特征值和特征向量滿足下式:
(AAT)ui=λiui
這樣我們就可以得到矩陣AAT的m個(gè)特征值和對(duì)應(yīng)的m個(gè)特征向量u了胜宇。將AAT的所有特征向量張成一個(gè)m×m的矩陣U耀怜,就是我們SVD公式里面的U矩陣了。一般我們將U中的每個(gè)特征向量叫做A的左奇異向量
注:針對(duì)上述為什么ATA就是V桐愉,AAT就是U财破,進(jìn)行如下證明
U和V我們都求出來(lái)了,現(xiàn)在就剩下奇異值矩陣Σ沒(méi)有求出了从诲。由于Σ除了對(duì)角線上是奇異值其他位置都是0左痢,那我們只需要求出每個(gè)奇異值σ就可以了。
最后值得一提的是奇異值σ和特征值λ之間的關(guān)系
五系洛、sklearn 實(shí)例demo
1.load_iris()
鳶尾類別是3個(gè)俊性,class為3
每一類50個(gè)數(shù)據(jù),總共數(shù)據(jù)量為150
每一個(gè)數(shù)據(jù)的特征維度為4
數(shù)據(jù)是以json的形式存儲(chǔ)描扯,鍵分別為data,target
parameters:
return_X_y:boolean定页,default=False
如果為真 返回(data,target)
data=load_iris()
print (data.target[[10,25]])表示返回的是第10,25兩個(gè)樣本所屬的類別編號(hào)
IncrementalPCA
主要是為了解決單機(jī)內(nèi)存限制的绽诚。有時(shí)候樣本數(shù)量過(guò)大典徊,直接去擬合數(shù)據(jù)會(huì)讓內(nèi)存爆炸的,此時(shí)可用IncrementalPCA來(lái)解決這個(gè)問(wèn)題恩够。
parameters
1.n_components: 整數(shù)卒落,PCA降維后的維度,大于1且小于數(shù)據(jù)數(shù)量
2.whiten:判斷是否進(jìn)行白化玫鸟。所謂白化导绷,就是對(duì)降維后的數(shù)據(jù)的每個(gè)特征進(jìn)行歸一化,讓方差都為1.對(duì)于PCA降維本身來(lái)說(shuō)屎飘,
一般不需要白化妥曲。如果你PCA降維后有后續(xù)的數(shù)據(jù)處理動(dòng)作,可以考慮白化钦购。默認(rèn)值是False檐盟,即不進(jìn)行白化。
3.copy default=True 一般不懂
4.batch_size init 數(shù)據(jù)要分的批數(shù)
attributes:
1.components with maximum variance 即參與進(jìn)行降維的主成分 array
2.explained_variance_ : array Variance explained by each of the selected components. 主成分返回的方差數(shù)組
3.explained_variance_ratio_ :Percentage of variance explained by each of the selected components.
If all components are stored, the sum of explained variances is equal to 1.0.
4.singular_values_押桃,奇異值
5.mean_葵萎,待降維矩陣的均值
6.var_,待降維矩陣的方差
methods:
1.fit(x) 見(jiàn)之前文章 不詳述 Returns the instance itself.
2.fit_transform(x) 見(jiàn)之前文章 不詳述 Transformed array.
3.get_params_()
4.partial_fit(x)Returns the instance itself.
PCA
parameters:除了上述的參數(shù)外
1.svd_solver:即指定奇異值分解SVD的方法唱凯,由于特征分解是奇異值分解SVD的一個(gè)特例羡忘,一般的PCA庫(kù)都是基于SVD實(shí)現(xiàn)的。
有4個(gè)可以選擇的值:{‘a(chǎn)uto’, ‘full’, ‘a(chǎn)rpack’, ‘randomized’}磕昼。randomized一般適用于數(shù)據(jù)量大卷雕,
數(shù)據(jù)維度多同時(shí)主成分?jǐn)?shù)目比例又較低的PCA降維,它使用了一些加快SVD的隨機(jī)算法票从。 full則是傳統(tǒng)意義上的SVD漫雕,
使用了scipy庫(kù)對(duì)應(yīng)的實(shí)現(xiàn)。arpack和randomized的適用場(chǎng)景類似峰鄙,區(qū)別是randomized使用的是scikit-learn自己的SVD實(shí)現(xiàn)浸间,
而arpack直接使用了scipy庫(kù)的sparse SVD實(shí)現(xiàn)。默認(rèn)是auto吟榴,即PCA類會(huì)自己去在前面講到的三種算法里面去權(quán)衡魁蒜,
選擇一個(gè)合適的SVD算法來(lái)降維。一般來(lái)說(shuō)吩翻,使用默認(rèn)值就夠了梅惯。
2.tol : float >= 0, optional (default .0)
Tolerance for singular values computed by svd_solver == ‘a(chǎn)rpack’.
3.random_state : int
f int, random_state is the seed used by the random number generator; If RandomState instance,
random_state is the random number generator; If None,
the random number generator is the RandomState instance used by np.random. Used when svd_solver == ‘a(chǎn)rpack’ or ‘randomized’.
attributes:見(jiàn)上述的IncrementalPCA
常用methods
1.fit(x)
2.fit_transform(x)
3.get_params(x)
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris#鳶尾
from sklearn.decomposition import PCA
from sklearn.decomposition import IncrementalPCA
iris=load_iris()#導(dǎo)入數(shù)據(jù)集合
x=iris.data
y=iris.target
n_components=2
ipca=IncrementalPCA(n_components=n_components,batch_size=10)
x_ipca=ipca.fit_transform(x)#返回的是降維后的150個(gè)數(shù)據(jù)
pca=PCA(n_components=n_components)
x_pca=pca.fit_transform(x)
colors = ['navy', 'turquoise', 'darkorange']
for x_transformed, title in [(x_ipca, "Incremental PCA"), (x_pca, "PCA")]:
plt.figure(figsize=(8,8))
for color,i,target_name in zip(colors,[0,1,2],iris.target_names):
plt.scatter(x_transformed[y==i,0],x_transformed[y==i,1],color=color,linewidths=2,label=target_name)#總過(guò)有三種,每一種的第一維作為x,第二維作為y
if "Incremental" in title:
err=np.abs(np.abs(x_pca)-np.abs(x_ipca)).mean()#求一下兩者偏差并求其差值絕對(duì)值
plt.title(title + " of iris dataset\nMean absolute unsigned error "
"%.6f" % err)
else:
plt.title(title+"of iris dataset")
plt.legend(loc="best",shadow=False,scatterpoints=1)
plt.axis([-4,4,-1.5,1.5])#四個(gè)參數(shù)用來(lái)設(shè)定x,y 軸的最大值和最小值
plt.show()
上述代碼的結(jié)果展示:
至此仿野,本系列已經(jīng)暫時(shí)告一段落铣减,經(jīng)過(guò)這一系列的總結(jié)后,基本上對(duì)于機(jī)器學(xué)習(xí)的常用算法有了了解和簡(jiǎn)單應(yīng)用脚作,下一系列就是機(jī)器學(xué)習(xí)的強(qiáng)化實(shí)戰(zhàn)項(xiàng)目