原文:http://blog.codinglabs.org/articles/pca-tutorial.html
PCA(Principal Component Analysis)是一種常用的數(shù)據(jù)分析方法辞做。PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示鱼的,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維礼饱。網(wǎng)上關(guān)于PCA的文章有很多布疼,但是大多數(shù)只描述了PCA的分析過程燕锥,而沒有講述其中的原理赚楚。這篇文章的目的是介紹PCA的基本數(shù)學(xué)原理淌友,幫助讀者了解PCA的工作機制是什么乃戈。
當然我并不打算把文章寫成純數(shù)學(xué)文章,而是希望用直觀和易懂的方式敘述PCA的數(shù)學(xué)原理亩进,所以整個文章不會引入嚴格的數(shù)學(xué)推導(dǎo)症虑。希望讀者在看完這篇文章后能更好的明白PCA的工作原理。
數(shù)據(jù)的向量表示及降維問題
一般情況下归薛,在數(shù)據(jù)挖掘和機器學(xué)習(xí)中谍憔,數(shù)據(jù)被表示為向量。例如某個淘寶店2012年全年的流量及交易情況可以看成一組記錄的集合主籍,其中每一天的數(shù)據(jù)是一條記錄习贫,格式如下:
(日期, 瀏覽量, 訪客數(shù), 下單數(shù), 成交數(shù), 成交金額)
其中“日期”是一個記錄標志而非度量值,而數(shù)據(jù)挖掘關(guān)心的大多是度量值千元,因此如果我們忽略日期這個字段后苫昌,我們得到一組記錄,每條記錄可以被表示為一個五維向量幸海,其中一條看起來大約是這個樣子:
(500,240,25,13,2312.15)T'>(500,240,25,13,2312.15)?T??(500,240,25,13,2312.15)T
注意這里我用了轉(zhuǎn)置祟身,因為習(xí)慣上使用列向量表示一條記錄(后面會看到原因),本文后面也會遵循這個準則物独。不過為了方便有時我會省略轉(zhuǎn)置符號袜硫,但我們說到向量默認都是指列向量。
我們當然可以對這一組五維向量進行分析和挖掘挡篓,不過我們知道婉陷,很多機器學(xué)習(xí)算法的復(fù)雜度和數(shù)據(jù)的維數(shù)有著密切關(guān)系,甚至與維數(shù)呈指數(shù)級關(guān)聯(lián)官研。當然秽澳,這里區(qū)區(qū)五維的數(shù)據(jù),也許還無所謂戏羽,但是實際機器學(xué)習(xí)中處理成千上萬甚至幾十萬維的情況也并不罕見担神,在這種情況下,機器學(xué)習(xí)的資源消耗是不可接受的蛛壳,因此我們必須對數(shù)據(jù)進行降維杏瞻。
降維當然意味著信息的丟失所刀,不過鑒于實際數(shù)據(jù)本身常常存在的相關(guān)性,我們可以想辦法在降維的同時將信息的損失盡量降低捞挥。
舉個例子浮创,假如某學(xué)籍數(shù)據(jù)有兩列M和F,其中M列的取值是如何此學(xué)生為男性取值1砌函,為女性取值0斩披;而F列是學(xué)生為女性取值1,男性取值0讹俊。此時如果我們統(tǒng)計全部學(xué)籍數(shù)據(jù)垦沉,會發(fā)現(xiàn)對于任何一條記錄來說,當M為1時F必定為0仍劈,反之當M為0時F必定為1厕倍。在這種情況下,我們將M或F去掉實際上沒有任何信息的損失贩疙,因為只要保留一列就可以完全還原另一列讹弯。
當然上面是一個極端的情況,在現(xiàn)實中也許不會出現(xiàn)这溅,不過類似的情況還是很常見的组民。例如上面淘寶店鋪的數(shù)據(jù),從經(jīng)驗我們可以知道悲靴,“瀏覽量”和“訪客數(shù)”往往具有較強的相關(guān)關(guān)系臭胜,而“下單數(shù)”和“成交數(shù)”也具有較強的相關(guān)關(guān)系。這里我們非正式的使用“相關(guān)關(guān)系”這個詞癞尚,可以直觀理解為“當某一天這個店鋪的瀏覽量較高(或較低)時耸三,我們應(yīng)該很大程度上認為這天的訪客數(shù)也較高(或較低)”。后面的章節(jié)中我們會給出相關(guān)性的嚴格數(shù)學(xué)定義否纬。
這種情況表明吕晌,如果我們刪除瀏覽量或訪客數(shù)其中一個指標蛋褥,我們應(yīng)該期待并不會丟失太多信息临燃。因此我們可以刪除一個,以降低機器學(xué)習(xí)算法的復(fù)雜度烙心。
上面給出的是降維的樸素思想描述膜廊,可以有助于直觀理解降維的動機和可行性,但并不具有操作指導(dǎo)意義淫茵。例如爪瓜,我們到底刪除哪一列損失的信息才最小匙瘪?亦或根本不是單純刪除幾列铆铆,而是通過某些變換將原始數(shù)據(jù)變?yōu)楦俚牧械质沟脕G失的信息最械骸?到底如何度量丟失信息的多少薄货?如何根據(jù)原始數(shù)據(jù)決定具體的降維操作步驟翁都?
要回答上面的問題,就要對降維問題進行數(shù)學(xué)化和形式化的討論谅猾。而PCA是一種具有嚴格數(shù)學(xué)基礎(chǔ)并且已被廣泛采用的降維方法柄慰。下面我不會直接描述PCA,而是通過逐步分析問題税娜,讓我們一起重新“發(fā)明”一遍PCA坐搔。
向量的表示及基變換
既然我們面對的數(shù)據(jù)被抽象為一組向量,那么下面有必要研究一些向量的數(shù)學(xué)性質(zhì)敬矩。而這些數(shù)學(xué)性質(zhì)將成為后續(xù)導(dǎo)出PCA的理論基礎(chǔ)概行。
內(nèi)積與投影
下面先來看一個高中就學(xué)過的向量運算:內(nèi)積。兩個維數(shù)相同的向量的內(nèi)積被定義為:
(a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn'>(a?1?,a?2?,?,a?n?)?T??(b?1?,b?2?,?,b?n?)?T?=a?1?b?1?+a?2?b?2?+?+a?n?b?n??(a1,a2,?,an)T?(b1,b2,?,bn)T=a1b1+a2b2+?+anbn
內(nèi)積運算將兩個向量映射為一個實數(shù)弧岳。其計算方式非常容易理解占锯,但是其意義并不明顯。下面我們分析內(nèi)積的幾何意義缩筛。假設(shè)A和B是兩個n維向量消略,我們知道n維向量可以等價表示為n維空間中的一條從原點發(fā)射的有向線段,為了簡單起見我們假設(shè)A和B均為二維向量瞎抛,則A=(x1,y1)'>A=(x?1?,y?1?)?A=(x1,y1) 艺演,B=(x2,y2)'>B=(x?2?,y?2?)?B=(x2,y2) 。則在二維平面上A和B可以用兩條發(fā)自原點的有向線段表示桐臊,見下圖:
好胎撤,現(xiàn)在我們從A點向B所在直線引一條垂線。我們知道垂線與B的交點叫做A在B上的投影断凶,再設(shè)A與B的夾角是a伤提,則投影的矢量長度為|A|cos(a)'>|A|cos(a)?|A|cos(a) ,其中|A|=x12+y12'>|A|=x?2?1?+y?2?1???????????????√??|A|=x12+y12 是向量A的模认烁,也就是A線段的標量長度肿男。
注意這里我們專門區(qū)分了矢量長度和標量長度,標量長度總是大于等于0却嗡,值就是線段的長度舶沛;而矢量長度可能為負,其絕對值是線段長度窗价,而符號取決于其方向與標準方向相同或相反如庭。
到這里還是看不出內(nèi)積和這東西有什么關(guān)系,不過如果我們將內(nèi)積表示為另一種我們熟悉的形式:
A⋅B=|A||B|cos(a)'>A?B=|A||B|cos(a)?A?B=|A||B|cos(a)
現(xiàn)在事情似乎是有點眉目了:A與B的內(nèi)積等于A到B的投影長度乘以B的模撼港。再進一步坪它,如果我們假設(shè)B的模為1骤竹,即讓|B|=1'>|B|=1?|B|=1 ,那么就變成了:
A⋅B=|A|cos(a)'>A?B=|A|cos(a)?A?B=|A|cos(a)
也就是說往毡,設(shè)向量B的模為1瘤载,則A與B的內(nèi)積值等于A向B所在直線投影的矢量長度!這就是內(nèi)積的一種幾何解釋卖擅,也是我們得到的第一個重要結(jié)論鸣奔。在后面的推導(dǎo)中,將反復(fù)使用這個結(jié)論惩阶。
基
下面我們繼續(xù)在二維空間內(nèi)討論向量挎狸。上文說過,一個二維向量可以對應(yīng)二維笛卡爾直角坐標系中從原點出發(fā)的一個有向線段断楷。例如下面這個向量:
在代數(shù)表示方面锨匆,我們經(jīng)常用線段終點的點坐標表示向量,例如上面的向量可以表示為(3,2)冬筒,這是我們再熟悉不過的向量表示恐锣。
不過我們常常忽略,只有一個(3,2)本身是不能夠精確表示一個向量的舞痰。我們仔細看一下土榴,這里的3實際表示的是向量在x軸上的投影值是3,在y軸上的投影值是2响牛。也就是說我們其實隱式引入了一個定義:以x軸和y軸上正方向長度為1的向量為標準玷禽。那么一個向量(3,2)實際是說在x軸投影為3而y軸的投影為2。注意投影是一個矢量呀打,所以可以為負矢赁。
更正式的說,向量(x,y)實際上表示線性組合:
x(1,0)T+y(0,1)T'>x(1,0)?T?+y(0,1)?T??x(1,0)T+y(0,1)T
不難證明所有二維向量都可以表示為這樣的線性組合贬丛。此處(1,0)和(0,1)叫做二維空間中的一組基撩银。
所以,要準確描述向量豺憔,首先要確定一組基额获,然后給出在基所在的各個直線上的投影值,就可以了焕阿。只不過我們經(jīng)常省略第一步咪啡,而默認以(1,0)和(0,1)為基。
我們之所以默認選擇(1,0)和(0,1)為基暮屡,當然是比較方便,因為它們分別是x和y軸正方向上的單位向量毅桃,因此就使得二維平面上點坐標和向量一一對應(yīng)褒纲,非常方便准夷。但實際上任何兩個線性無關(guān)的二維向量都可以成為一組基,所謂線性無關(guān)在二維平面內(nèi)可以直觀認為是兩個不在一條直線上的向量莺掠。
例如衫嵌,(1,1)和(-1,1)也可以成為一組基。一般來說彻秆,我們希望基的模是1楔绞,因為從內(nèi)積的意義可以看到,如果基的模是1唇兑,那么就可以方便的用向量點乘基而直接獲得其在新基上的坐標了酒朵!實際上,對應(yīng)任何一個向量我們總可以找到其同方向上模為1的向量扎附,只要讓兩個分量分別除以模就好了蔫耽。例如,上面的基可以變?yōu)?12,12)'>(12??√??,12??√??)?(12,12) 和(−12,12)'>(?12??√??,12??√??)?(?12,12) 留夜。
現(xiàn)在匙铡,我們想獲得(3,2)在新基上的坐標,即在兩個方向上的投影矢量值碍粥,那么根據(jù)內(nèi)積的幾何意義鳖眼,我們只要分別計算(3,2)和兩個基的內(nèi)積,不難得到新的坐標為(52,−12)'>(52??√??,?12??√??)?(52,?12) 嚼摩。下圖給出了新的基以及(3,2)在新基上坐標值的示意圖:
另外這里要注意的是具帮,我們列舉的例子中基是正交的(即內(nèi)積為0,或直觀說相互垂直)低斋,但可以成為一組基的唯一要求就是線性無關(guān)蜂厅,非正交的基也是可以的。不過因為正交基有較好的性質(zhì)膊畴,所以一般使用的基都是正交的掘猿。
基變換的矩陣表示
下面我們找一種簡便的方式來表示基變換。還是拿上面的例子唇跨,想一下稠通,將(3,2)變換為新基上的坐標,就是用(3,2)與第一個基做內(nèi)積運算买猖,作為第一個新的坐標分量改橘,然后用(3,2)與第二個基做內(nèi)積運算,作為第二個新坐標的分量玉控。實際上飞主,我們可以用矩陣相乘的形式簡潔的表示這個變換:
(1/21/2−1/21/2)(32)=(5/2−1/2)'>(1/2??√??1/2??√??1/2??√?1/2??√??)(32?)=(5/2??√??1/2??√??)?(1/21/2?1/21/2)(32)=(5/2?1/2)
太漂亮了!其中矩陣的兩行分別為兩個基,乘以原向量碌识,其結(jié)果剛好為新基的坐標碾篡。可以稍微推廣一下筏餐,如果我們有m個二維向量开泽,只要將二維向量按列排成一個兩行m列矩陣,然后用“基矩陣”乘以這個矩陣魁瞪,就得到了所有這些向量在新基下的值穆律。例如(1,1),(2,2)导俘,(3,3)峦耘,想變換到剛才那組基上,則可以這樣表示:
(1/21/2−1/21/2)(123123)=(2/24/26/2000)'>(1/2??√??1/2??√??1/2??√?1/2??√??)(11?22?33?)=(2/2??√?0?4/2??√?0?6/2??√?0?)?(1/21/2?1/21/2)(123123)=(2/24/26/2000)
于是一組向量的基變換被干凈的表示為矩陣的相乘趟畏。
一般的贡歧,如果我們有M個N維向量,想將其變換為由R個N維向量表示的新空間中赋秀,那么首先將R個基按行組成矩陣A利朵,然后將向量按列組成矩陣B,那么兩矩陣的乘積AB就是變換結(jié)果猎莲,其中AB的第m列為A中第m列變換后的結(jié)果绍弟。
數(shù)學(xué)表示為:
(p1p2⋮pR)(a1a2⋯aM)=(p1a1p1a2⋯p1aMp2a1p2a2⋯p2aM⋮⋮⋱⋮pRa1pRa2⋯pRaM)'>????????????p?1?p?2??p?R??????????????(a?1??a?2????a?M??)=??????????????p?1?a?1?p?2?a?1??p?R?a?1??p?1?a?2?p?2?a?2??p?R?a?2???????p?1?a?M?p?2?a?M??p?R?a?M?????????????????(p1p2?pR)(a1a2?aM)=(p1a1p1a2?p1aMp2a1p2a2?p2aM????pRa1pRa2?pRaM)
其中pi'>p?i??pi 是一個行向量,表示第i個基著洼,aj'>a?j??aj 是一個列向量樟遣,表示第j個原始數(shù)據(jù)記錄。
特別要注意的是身笤,這里R可以小于N豹悬,而R決定了變換后數(shù)據(jù)的維數(shù)。也就是說液荸,我們可以將一N維數(shù)據(jù)變換到更低維度的空間中去瞻佛,變換后的維度取決于基的數(shù)量。因此這種矩陣相乘的表示也可以表示降維變換娇钱。
最后伤柄,上述分析同時給矩陣相乘找到了一種物理解釋:兩個矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。更抽象的說文搂,一個矩陣可以表示一種線性變換适刀。很多同學(xué)在學(xué)線性代數(shù)時對矩陣相乘的方法感到奇怪,但是如果明白了矩陣相乘的物理意義煤蹭,其合理性就一目了然了笔喉。
協(xié)方差矩陣及優(yōu)化目標
上面我們討論了選擇不同的基可以對同樣一組數(shù)據(jù)給出不同的表示取视,而且如果基的數(shù)量少于向量本身的維數(shù),則可以達到降維的效果然遏。但是我們還沒有回答一個最最關(guān)鍵的問題:如何選擇基才是最優(yōu)的贫途“杀耄或者說待侵,如果我們有一組N維向量,現(xiàn)在要將其降到K維(K小于N)姨裸,那么我們應(yīng)該如何選擇K個基才能最大程度保留原有的信息秧倾?
要完全數(shù)學(xué)化這個問題非常繁雜,這里我們用一種非形式化的直觀方法來看這個問題傀缩。
為了避免過于抽象的討論那先,我們?nèi)砸砸粋€具體的例子展開。假設(shè)我們的數(shù)據(jù)由五條記錄組成赡艰,將它們表示成矩陣形式:
(1124213344)'>(11?13?23?44?24?)?(1124213344)
其中每一列為一條數(shù)據(jù)記錄售淡,而一行為一個字段。為了后續(xù)處理方便慷垮,我們首先將每個字段內(nèi)所有值都減去字段均值揖闸,其結(jié)果是將每個字段都變?yōu)榫禐?(這樣做的道理和好處后面會看到)。
我們看上面的數(shù)據(jù)料身,第一個字段均值為2汤纸,第二個字段均值為3,所以變換后:
(−1−1020−20011)'>(?1?2??10?00?21?01?)?(?1?1020?20011)
我們可以看下五條數(shù)據(jù)在平面直角坐標系內(nèi)的樣子:
現(xiàn)在問題來了:如果我們必須使用一維來表示這些數(shù)據(jù)唆铐,又希望盡量保留原始的信息助泽,你要如何選擇居夹?
通過上一節(jié)對基變換的討論我們知道,這個問題實際上是要在二維平面中選擇一個方向啃擦,將所有數(shù)據(jù)都投影到這個方向所在直線上,用投影值表示原始記錄饿悬。這是一個實際的二維降到一維的問題令蛉。
那么如何選擇這個方向(或者說基)才能盡量保留最多的原始信息呢?一種直觀的看法是:希望投影后的投影值盡可能分散乡恕。
以上圖為例言询,可以看出如果向x軸投影,那么最左邊的兩個點會重疊在一起傲宜,中間的兩個點也會重疊在一起运杭,于是本身四個各不相同的二維點投影后只剩下兩個不同的值了,這是一種嚴重的信息丟失函卒,同理辆憔,如果向y軸投影最上面的兩個點和分布在x軸上的兩個點也會重疊。所以看來x和y軸都不是最好的投影選擇。我們直觀目測虱咧,如果向通過第一象限和第三象限的斜線投影熊榛,則五個點在投影后還是可以區(qū)分的。
下面腕巡,我們用數(shù)學(xué)方法表述這個問題玄坦。
方差
上文說到,我們希望投影后投影值盡可能分散绘沉,而這種分散程度煎楣,可以用數(shù)學(xué)上的方差來表述。此處车伞,一個字段的方差可以看做是每個元素與字段均值的差的平方和的均值择懂,即:
Var(a)=1m∑i=1m(ai−μ)2'>Var(a)=1m?∑?i=1?m?(a?i??μ)?2??Var(a)=1m∑i=1m(ai?μ)2
由于上面我們已經(jīng)將每個字段的均值都化為0了,因此方差可以直接用每個元素的平方和除以元素個數(shù)表示:
Var(a)=1m∑i=1mai2'>Var(a)=1m?∑?i=1?m?a?2?i??Var(a)=1m∑i=1mai2
于是上面的問題被形式化表述為:尋找一個一維基另玖,使得所有數(shù)據(jù)變換為這個基上的坐標表示后困曙,方差值最大。
協(xié)方差
對于上面二維降成一維的問題來說谦去,找到那個使得方差最大的方向就可以了慷丽。不過對于更高維,還有一個問題需要解決哪轿∮考慮三維降到二維問題。與之前相同窃诉,首先我們希望找到一個方向使得投影后方差最大杨耙,這樣就完成了第一個方向的選擇,繼而我們選擇第二個投影方向飘痛。
如果我們還是單純只選擇方差最大的方向珊膜,很明顯,這個方向與第一個方向應(yīng)該是“幾乎重合在一起”宣脉,顯然這樣的維度是沒有用的车柠,因此,應(yīng)該有其他約束條件塑猖。從直觀上說竹祷,讓兩個字段盡可能表示更多的原始信息,我們是不希望它們之間存在(線性)相關(guān)性的羊苟,因為相關(guān)性意味著兩個字段不是完全獨立塑陵,必然存在重復(fù)表示的信息。
數(shù)學(xué)上可以用兩個字段的協(xié)方差表示其相關(guān)性蜡励,由于已經(jīng)讓每個字段均值為0令花,則:
Cov(a,b)=1m∑i=1maibi'>Cov(a,b)=1m?∑?i=1?m?a?i?b?i??Cov(a,b)=1m∑i=1maibi
可以看到阻桅,在字段均值為0的情況下,兩個字段的協(xié)方差簡潔的表示為其內(nèi)積除以元素數(shù)m兼都。
當協(xié)方差為0時嫂沉,表示兩個字段完全獨立。為了讓協(xié)方差為0扮碧,我們選擇第二個基時只能在與第一個基正交的方向上選擇趟章。因此最終選擇的兩個方向一定是正交的。
至此芬萍,我們得到了降維問題的優(yōu)化目標:將一組N維向量降為K維(K大于0尤揣,小于N)搔啊,其目標是選擇K個單位(模為1)正交基柬祠,使得原始數(shù)據(jù)變換到這組基上后,各字段兩兩間協(xié)方差為0负芋,而字段的方差則盡可能大(在正交的約束下漫蛔,取最大的K個方差)。
協(xié)方差矩陣
上面我們導(dǎo)出了優(yōu)化目標旧蛾,但是這個目標似乎不能直接作為操作指南(或者說算法)莽龟,因為它只說要什么,但根本沒有說怎么做锨天。所以我們要繼續(xù)在數(shù)學(xué)上研究計算方案毯盈。
我們看到,最終要達到的目的與字段內(nèi)方差及字段間協(xié)方差有密切關(guān)系病袄。因此我們希望能將兩者統(tǒng)一表示搂赋,仔細觀察發(fā)現(xiàn),兩者均可以表示為內(nèi)積的形式益缠,而內(nèi)積又與矩陣相乘密切相關(guān)脑奠。于是我們來了靈感:
假設(shè)我們只有a和b兩個字段,那么我們將它們按行組成矩陣X:
X=(a1a2⋯amb1b2⋯bm)'>X=(a?1?b?1??a?2?b?2?????a?m?b?m??)?X=(a1a2?amb1b2?bm)
然后我們用X乘以X的轉(zhuǎn)置幅慌,并乘上系數(shù)1/m:
1mXXT=(1m∑i=1mai21m∑i=1maibi1m∑i=1maibi1m∑i=1mbi2)'>1m?XX?T?=(1m?∑?m?i=1?a?2?i?1m?∑?m?i=1?a?i?b?i??1m?∑?m?i=1?a?i?b?i?1m?∑?m?i=1?b?2?i??)?1mXXT=(1m∑i=1mai21m∑i=1maibi1m∑i=1maibi1m∑i=1mbi2)
奇跡出現(xiàn)了宋欺!這個矩陣對角線上的兩個元素分別是兩個字段的方差,而其它元素是a和b的協(xié)方差胰伍。兩者被統(tǒng)一到了一個矩陣的齿诞。
根據(jù)矩陣相乘的運算法則,這個結(jié)論很容易被推廣到一般情況:
設(shè)我們有m個n維數(shù)據(jù)記錄骂租,將其按列排成n乘m的矩陣X祷杈,設(shè)C=1mXXT'>C=1m?XX?T??C=1mXXT ,則C是一個對稱矩陣菩咨,其對角線分別個各個字段的方差吠式,而第i行j列和j行i列元素相同陡厘,表示i和j兩個字段的協(xié)方差。
協(xié)方差矩陣對角化
根據(jù)上述推導(dǎo)特占,我們發(fā)現(xiàn)要達到優(yōu)化目前糙置,等價于將協(xié)方差矩陣對角化:即除對角線外的其它元素化為0,并且在對角線上將元素按大小從上到下排列是目,這樣我們就達到了優(yōu)化目的谤饭。這樣說可能還不是很明晰,我們進一步看下原矩陣與基變換后矩陣協(xié)方差矩陣的關(guān)系:
設(shè)原始數(shù)據(jù)矩陣X對應(yīng)的協(xié)方差矩陣為C懊纳,而P是一組基按行組成的矩陣揉抵,設(shè)Y=PX,則Y為X對P做基變換后的數(shù)據(jù)嗤疯。設(shè)Y的協(xié)方差矩陣為D冤今,我們推導(dǎo)一下D與C的關(guān)系:
D=1mYYT=1m(PX)(PX)T=1mPXXTPT=P(1mXXT)PT=PCPT'>D?=====?1m?YY?T?1m?(PX)(PX)?T?1m?PXX?T?P?T?P(1m?XX?T?)P?T?PCP?T???D=1mYYT=1m(PX)(PX)T=1mPXXTPT=P(1mXXT)PT=PCPT
現(xiàn)在事情很明白了!我們要找的P不是別的茂缚,而是能讓原始協(xié)方差矩陣對角化的P戏罢。換句話說,優(yōu)化目標變成了尋找一個矩陣P脚囊,滿足PCPT'>PCP?T??PCPT 是一個對角矩陣龟糕,并且對角元素按從大到小依次排列,那么P的前K行就是要尋找的基悔耘,用P的前K行組成的矩陣乘以X就使得X從N維降到了K維并滿足上述優(yōu)化條件讲岁。
至此,我們離“發(fā)明”PCA還有僅一步之遙衬以!
現(xiàn)在所有焦點都聚焦在了協(xié)方差矩陣對角化問題上缓艳,有時,我們真應(yīng)該感謝數(shù)學(xué)家的先行泄鹏,因為矩陣對角化在線性代數(shù)領(lǐng)域已經(jīng)屬于被玩爛了的東西郎任,所以這在數(shù)學(xué)上根本不是問題。
由上文知道备籽,協(xié)方差矩陣C是一個是對稱矩陣舶治,在線性代數(shù)上,實對稱矩陣有一系列非常好的性質(zhì):
1)實對稱矩陣不同特征值對應(yīng)的特征向量必然正交车猬。
2)設(shè)特征向量λ'>λ?λ 重數(shù)為r霉猛,則必然存在r個線性無關(guān)的特征向量對應(yīng)于λ'>λ?λ ,因此可以將這r個特征向量單位正交化珠闰。
由上面兩條可知惜浅,一個n行n列的實對稱矩陣一定可以找到n個單位正交特征向量,設(shè)這n個特征向量為e1,e2,⋯,en'>e?1?,e?2?,?,e?n??e1,e2,?,en 伏嗜,我們將其按列組成矩陣:
E=(e1e2⋯en)'>E=(e?1??e?2????e?n??)?E=(e1e2?en)
則對協(xié)方差矩陣C有如下結(jié)論:
ETCE=Λ=(λ1λ2⋱λn)'>E?T?CE=Λ=??????????????λ?1??λ?2????λ?n?????????????????ETCE=Λ=(λ1λ2?λn)
其中Λ'>Λ?Λ 為對角矩陣坛悉,其對角元素為各特征向量對應(yīng)的特征值(可能有重復(fù))伐厌。
以上結(jié)論不再給出嚴格的數(shù)學(xué)證明,對證明感興趣的朋友可以參考線性代數(shù)書籍關(guān)于“實對稱矩陣對角化”的內(nèi)容裸影。
到這里挣轨,我們發(fā)現(xiàn)我們已經(jīng)找到了需要的矩陣P:
P=ET'>P=E?T??P=ET
P是協(xié)方差矩陣的特征向量單位化后按行排列出的矩陣,其中每一行都是C的一個特征向量轩猩。如果設(shè)P按照Λ'>Λ?Λ 中特征值的從大到小卷扮,將特征向量從上到下排列,則用P的前K行組成的矩陣乘以原始數(shù)據(jù)矩陣X均践,就得到了我們需要的降維后的數(shù)據(jù)矩陣Y晤锹。
至此我們完成了整個PCA的數(shù)學(xué)原理討論。在下面的一節(jié)彤委,我們將給出PCA的一個實例鞭铆。
算法及實例
為了鞏固上面的理論,我們在這一節(jié)給出一個具體的PCA實例葫慎。
PCA算法
總結(jié)一下PCA的算法步驟:
設(shè)有m條n維數(shù)據(jù)衔彻。
1)將原始數(shù)據(jù)按列組成n行m列矩陣X
2)將X的每一行(代表一個屬性字段)進行零均值化,即減去這一行的均值
3)求出協(xié)方差矩陣C=1mXXT'>C=1m?XX?T??C=1mXXT
4)求出協(xié)方差矩陣的特征值及對應(yīng)的特征向量
5)將特征向量按對應(yīng)特征值大小從上到下按行排列成矩陣偷办,取前k行組成矩陣P
6)Y=PX'>Y=PX?Y=PX 即為降維到k維后的數(shù)據(jù)
實例
這里以上文提到的
(−1−1020−20011)'>(?1?2??10?00?21?01?)?(?1?1020?20011)
為例,我們用PCA方法將這組二維數(shù)據(jù)其降到一維澄港。
因為這個矩陣的每行已經(jīng)是零均值椒涯,這里我們直接求協(xié)方差矩陣:
C=15(−1−1020−20011)(−1−2−10002101)=(65454565)'>C=15?(?1?2??10?00?21?01?)?????????????????1?1020??20011?????????????????=(65?45??45?65??)?C=15(?1?1020?20011)(?1?2?10002101)=(65454565)
然后求其特征值和特征向量,具體求解方法不再詳述回梧,可以參考相關(guān)資料废岂。求解后特征值為:
λ1=2,λ2=2/5'>λ?1?=2,λ?2?=2/5?λ1=2,λ2=2/5
其對應(yīng)的特征向量分別是:
c1(11),c2(−11)'>c?1?(11?),c?2?(?11?)?c1(11),c2(?11)
其中對應(yīng)的特征向量分別是一個通解,c1'>c?1??c1 和c2'>c?2??c2 可取任意實數(shù)狱意。那么標準化后的特征向量為:
(1/21/2),(−1/21/2)'>(1/2??√?1/2??√??),(?1/2??√?1/2??√??)?(1/21/2),(?1/21/2)
因此我們的矩陣P是:
P=(1/21/2−1/21/2)'>P=(1/2??√??1/2??√??1/2??√?1/2??√??)?P=(1/21/2?1/21/2)
可以驗證協(xié)方差矩陣C的對角化:
PCPT=(1/21/2−1/21/2)(6/54/54/56/5)(1/2−1/21/21/2)=(2002/5)'>PCP?T?=(1/2??√??1/2??√??1/2??√?1/2??√??)(6/54/5?4/56/5?)(1/2??√?1/2??√???1/2??√?1/2??√??)=(20?02/5?)?PCPT=(1/21/2?1/21/2)(6/54/54/56/5)(1/2?1/21/21/2)=(2002/5)
最后我們用P的第一行乘以數(shù)據(jù)矩陣湖苞,就得到了降維后的表示:
Y=(1/21/2)(−1−1020−20011)=(−3/2−1/203/2−1/2)'>Y=(1/2??√??1/2??√??)(?1?2??10?00?21?01?)=(?3/2??√???1/2??√??0?3/2??√???1/2??√??)?Y=(1/21/2)(?1?1020?20011)=(?3/2?1/203/2?1/2)
降維投影結(jié)果如下圖:
進一步討論
根據(jù)上面對PCA的數(shù)學(xué)原理的解釋,我們可以了解到一些PCA的能力和限制详囤。PCA本質(zhì)上是將方差最大的方向作為主要特征财骨,并且在各個正交方向上將數(shù)據(jù)“離相關(guān)”,也就是讓它們在不同正交方向上沒有相關(guān)性藏姐。
因此隆箩,PCA也存在一些限制,例如它可以很好的解除線性相關(guān)羔杨,但是對于高階相關(guān)性就沒有辦法了捌臊,對于存在高階相關(guān)性的數(shù)據(jù),可以考慮Kernel PCA兜材,通過Kernel函數(shù)將非線性相關(guān)轉(zhuǎn)為線性相關(guān)理澎,關(guān)于這點就不展開討論了逞力。另外,PCA假設(shè)數(shù)據(jù)各主特征是分布在正交方向上糠爬,如果在非正交方向上存在幾個方差較大的方向掏击,PCA的效果就大打折扣了。
最后需要說明的是秩铆,PCA是一種無參數(shù)技術(shù)砚亭,也就是說面對同樣的數(shù)據(jù),如果不考慮清洗殴玛,誰來做結(jié)果都一樣捅膘,沒有主觀參數(shù)的介入,所以PCA便于通用實現(xiàn)滚粟,但是本身無法個性化的優(yōu)化寻仗。
希望這篇文章能幫助朋友們了解PCA的數(shù)學(xué)理論基礎(chǔ)和實現(xiàn)原理,借此了解PCA的適用場景和限制凡壤,從而更好的使用這個算法署尤。