降維算法1_PCA 原理理解

PCA基本原理

1.引入及理解

What

PCA(主成分分析)是采取一種數(shù)學(xué)降維的方法斯议,找出幾個(gè)綜合變量來代替原來眾多的變量产捞,使這些綜合變量能盡可能地代表原來變量的信息量,而且彼此之間互不相關(guān)哼御。

Why

多變量問題是經(jīng)常會(huì)遇到的坯临。變量太多,無疑會(huì)增加分析問題的難度與復(fù)雜性恋昼。

How

在許多實(shí)際問題中看靠,多個(gè)變量之間是具有一定的相關(guān)關(guān)系的挟炬。因此谤祖,在各個(gè)變量之間相關(guān)關(guān)系研究的基礎(chǔ)上泊脐,用較少的新變量代替原來較多的變量容客,而且使這些較少的新變量盡可能多地保留原來較多的變量所反映的信息缩挑?

幾何解釋


此情況下供置,對(duì)于上圖的數(shù)據(jù)分布芥丧,數(shù)據(jù)較較分散的分布在X2上,X1方向上的數(shù)據(jù)取值近似擅耽,將數(shù)據(jù)在X1上的取值去掉乖仇,保留在X2上的取值乃沙。


此情況下警儒,對(duì)于原先的X1冷蚂、X2坐標(biāo)系下汛闸,數(shù)據(jù)在X1和X2上的取值都比較均勻诸老,去掉任一坐標(biāo)維度對(duì)數(shù)據(jù)都有很大的影響(導(dǎo)致數(shù)據(jù)重疊)别伏。對(duì)于新建的y1厘肮、y2紅色坐標(biāo)系类茂,這個(gè)問題就同圖1問題了巩检,保留數(shù)據(jù)在y1上取值信息兢哭,去掉數(shù)據(jù)在y2上的取值信息夫嗓。

從幾何解釋中可以得出:

主成分分析可以讓數(shù)據(jù)的投影到那些數(shù)據(jù)分布比較分散的維度上,如上圖的y1劳跃,忽視數(shù)據(jù)分布較集中的維度浙垫,如上圖的y2夹姥,保留較少的維度表示數(shù)據(jù)辙售,進(jìn)而達(dá)到降維的目的旦部。

2.問題

如何可以將數(shù)據(jù)投影到分布分散的平面內(nèi),而忽略掉分布集中的平面容燕。如上面的圖2蘸秘,大部分?jǐn)?shù)據(jù)投影到y(tǒng)1坐標(biāo)系中的話醋虏,數(shù)據(jù)分布會(huì)比較分散颈嚼,投影到x1饭寺、x2等其他坐標(biāo)軸分布會(huì)相對(duì)集中佩研,其中旬薯,投影到y(tǒng)2上面分布最集中。所以我們盡可能將數(shù)據(jù)轉(zhuǎn)化到紅色坐標(biāo)系硕舆,然后去掉y2坐標(biāo) 抚官?

3.PCA原理

主成分:這些互相正交的新變量(上圖y1,y2)是原先變量的線性組合(矩陣變換),叫做主成分钦听。(principal component)朴上。

從幾何解釋可以看出:

第一個(gè)要求:使得樣本在選擇的基底(坐標(biāo)軸)上盡可能的分散痪宰。

我們知道方差可以用來表示數(shù)據(jù)之間的離散程度畔裕,那么要求數(shù)據(jù)在基底上分散即就是樣本在這個(gè)基底上的坐標(biāo)的方差(數(shù)據(jù)之間的離散程度)盡可能大扮饶。

第二個(gè)要求:使得各個(gè)選擇的基底關(guān)聯(lián)程度最小贴届。(正交)

協(xié)方差矩陣定義:對(duì)n個(gè)維度,任意兩個(gè)維度都計(jì)算一個(gè)協(xié)方差,組成矩陣元潘,定義如下:

?	C_{n\times{n}}=(c_{i,j}, c_{i,j}=cov(Dim_{i},Dim_{j}))

直觀的對(duì)于一個(gè)含有x,y,z三個(gè)維度的樣本翩概,協(xié)方差矩陣如下:

C=\begin{bmatrix}cov(x,x)&cov(x,y)&cov(x,z)\\cov(y,x)&cov(y,y)&cov(y,z)\\cov(z,x)&cov(z,y)&cov(z,z)\end{bmatrix}

類比上式钥庇,可以得出咖摹,對(duì)于原mxn大小的樣本矩陣萤晴,其協(xié)方差矩陣的對(duì)角線代表了原來樣本在各個(gè)維度上的方差,其他元素代表了各個(gè)維度之間的協(xié)方差嗦枢。

對(duì)于上述兩點(diǎn)要求文虏,也就是經(jīng)過PCA處理后的數(shù)據(jù)矩陣氧秘,它的協(xié)方差矩陣敏储,對(duì)角線上的元素?cái)?shù)值大(方差大,滿足第一點(diǎn)要求)妥箕,對(duì)角線以外的元素為0(協(xié)方差為零畦幢,選擇的基底正交缆蝉,滿足第二點(diǎn)要求)刊头。即處后的數(shù)據(jù)矩陣協(xié)方差為diag(\alpha_1,\alpha_2...,\alpha_n)?對(duì)角陣形式原杂。

假設(shè)對(duì)于原始數(shù)據(jù)矩陣X_{(m,n)},經(jīng)PCA降維后的矩陣Y=XP?年局,要使得Y的協(xié)方差矩陣為?Cov(Y)=diag(\alpha_1,\alpha_2...,\alpha_n)的形式矢否,有:

\begin{aligned}Cov(Y) &= \frac{1}{n-1}Y^TY\\&=\frac{1}{n-1}(XP)^TXP\\&=\frac{1}{n-1}P^TX^TXP\end{aligned}

由以上形式知:經(jīng)PCA處理后的矩陣Y_{(m,k)}=XP^`?中的P^` ?即就是原始矩陣?X的協(xié)方差矩陣Cov(X)=\frac{1}{n-1}X^TX?每個(gè)特征值對(duì)應(yīng)特征向量組成的特征矩陣。

Cov(x)?的特征值?\lambda_1,\lambda_2...,\lambda_n從小到大排列后衣迷,取前k?大特征值對(duì)應(yīng)的特征向量組成矩陣P^`?,Y=XP^`?即為保留主成分個(gè)數(shù)為?的降維后的矩陣云矫,通常?k\lt{n}让禀。

數(shù)學(xué)優(yōu)化方法對(duì)于PCA原理的推導(dǎo)巡揍。

4.最好的k和誤差

可解釋性方差大腥小:即特征矩陣?中每個(gè)新特征向量所帶的信息量大小,所對(duì)應(yīng)的特征值越大糜工,方差越大捌木,信息量越大刨裆。

可解釋性方差貢獻(xiàn)率:降維后每個(gè)新特征向量所占的信息量占原始數(shù)據(jù)總信息量的百分比帆啃。

\frac{\lambda_i}{\lambda_1+\lambda2+...+\lambda_n}

觀察實(shí)際所需指標(biāo)隨著k的閾值選取的變化情況链瓦,擇優(yōu)選取。

假設(shè)選取前?主成分拥峦,降維后的矩陣即為?\mathbf{Y_{(m,k)}={X}_{(m,n)}P_{(n,k)}}\quad(1)

對(duì)于上式 :?\mathbf{\hat{X}_{(m,n)}=Y_{(m,k)}P_{(n,k)}^{-1}}為經(jīng)過PCA降維后再重構(gòu)的矩陣略号。

?\mathbf{\hat{X}_{(m,n)}=\mathbf{X_{(m,n)}}\mathrm{?}}

假設(shè): ??X_{(1,3)}=\begin{bmatrix}1&0&1\end{bmatrix}玄柠,P_{(3,3)}=\begin{bmatrix}1&0&0\\0&1&0\\0&0&1\end{bmatrix},取P?的2列宫患,即就是k=2,得?P_{(3,2)}=\begin{bmatrix}1&0\\0&1\\0&0\end{bmatrix}

由(1)得??Y_{(1,2)}=\begin{bmatrix}1&0\end{bmatrix}P_{(3,2)}的廣義右逆矩陣?P_{(3,2)}^{-1}=\begin{bmatrix}1&0&0\\0&1&0\end{bmatrix}

可得:\begin{aligned}\hat{X}_{(1,3)}&=Y_{(1,2)}P_{(3,2)}^{-1}\\&=\begin{bmatrix}1&0&0\end{bmatrix}\end{aligned}

所以,\mathbf{\hat{X}_{(m,n)}\neq\mathbf{X_{(m,n)}}} ?蛋辈,且重構(gòu)的誤差來源于冷溶,降維后P矩陣信息的丟失礼预,求?時(shí)的不可還原虏劲。

\begin{aligned}error&=\mathbf{\hat{X}_{(m,n)}-\mathbf{X_{(m,n)}}}\\&=\mathbf{Y_{(m,k)}P_{(n,k)}^{-1}-X_{(m,n)}}\end{aligned}

另一種理解励堡。

5.算法步驟

設(shè)有m條n維數(shù)據(jù)应结。

1.樣本矩陣X_{m\times{n}}

2.將X的每一列進(jìn)行零均值化鹅龄,即減去這一列的均值扮休,得到矩陣X^{`}?玷坠;(為求協(xié)方差矩陣)

3.求出協(xié)方差矩陣?C=\frac{1}{n-1}X^{`T}X^{`}

4.求出協(xié)方差矩陣的特征值以及對(duì)應(yīng)的特征向量

5.將特征向量按對(duì)應(yīng)特征值大小按列組成矩陣,取前k列組成矩陣?P_{n,k}

6.Y=XP?即為降維到k維后的數(shù)據(jù)。

對(duì)于圖像數(shù)據(jù)的重構(gòu),通過步驟6缝龄,由?\hat{X}_{m,n}=Y_{m,k}P^{-1}_{n,k}可得二拐。

6.應(yīng)用舉例

a.鳶尾花數(shù)據(jù)(150x4),有三類品種凳兵,4個(gè)特征百新,花萼長度、寬度庐扫、花瓣長度饭望、寬度

經(jīng)PCA降維至2,即150x2, 進(jìn)行可視化。

b.人臉數(shù)據(jù) 1348x62x47(1348x2914)

原始圖片

選擇降維至150形庭,?P^‘維度2914x150铅辞,查看P^‘?(新的特征空間)圖像:

降維后還原到原空間得到的數(shù)據(jù)和原始圖像:(第一行為原始圖像,第二行為降維后還原圖像)

代碼萨醒。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末斟珊,一起剝皮案震驚了整個(gè)濱河市囤踩,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件崭孤,死亡現(xiàn)場(chǎng)離奇詭異遗锣,居然都是意外死亡笔咽,警方通過查閱死者的電腦和手機(jī)历造,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門橄霉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事÷蠊浚” “怎么了揍诽?”我有些...
    開封第一講書人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我僵腺,道長丧没,這世上最難降的妖魔是什么夺饲? 我笑而不...
    開封第一講書人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮慢洋,結(jié)果婚禮上太防,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好棘伴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開白布使鹅。 她就那樣靜靜地躺著裁厅,像睡著了一般。 火紅的嫁衣襯著肌膚如雪插龄。 梳的紋絲不亂的頭發(fā)上甘邀,一...
    開封第一講書人閱讀 51,198評(píng)論 1 299
  • 那天剧辐,我揣著相機(jī)與錄音,去河邊找鬼叠国。 笑死,一個(gè)胖子當(dāng)著我的面吹牛翅阵,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼命斧,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼踢涌!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎灯荧,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體食侮,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了坪蚁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片茵典。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖勉吻,靈堂內(nèi)的尸體忽然破棺而出监婶,到底是詐尸還是另有隱情,我是刑警寧澤齿桃,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布惑惶,位于F島的核電站,受9級(jí)特大地震影響短纵,放射性物質(zhì)發(fā)生泄漏带污。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一香到、第九天 我趴在偏房一處隱蔽的房頂上張望鱼冀。 院中可真熱鬧,春花似錦悠就、人聲如沸雷绢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至蔽氨,卻和暖如春藐唠,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鹉究。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來泰國打工宇立, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人自赔。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓妈嘹,卻偏偏與公主長得像,于是被迫代替她去往敵國和親绍妨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子润脸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354