PCA簡述

簡介

PCA全稱Principal Component Analysis,即主成分分析牛郑,是一種常用的數(shù)據(jù)降維方法。它可以通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關的表示,以此來提取數(shù)據(jù)的主要線性分量平委。

數(shù)學基礎

向量的表示

  • 內(nèi)積

(a_{1},a_{2},\cdots ,a_{n})^T\cdot (b_1,b_2,\cdots,b_n)^T = a_1b_1+a_2b_2+\cdots+a_nb_n

幾何解釋

A\cdot B = \left | A \right |\left | B \right |cos(a)

設向量B的模維1 , 則A與B的內(nèi)積值等于A向B所在的直線投影的矢量長度


af19c30e-a602-44d2-9bc4-edb27d5a7ac4.jpg

向量表示為(3,2)

實際上表示線性組合

x(1,0)^T + y(0,1)^T (1,0)就是X軸杖小,(0,1)就是y軸

基變換

基是正交的(即內(nèi)積為0 肆汹, 或者直觀的說相互垂直)

要求: 線性無關

線性無關.jpg

將(3,2)映射到新的基上 xy

變換 : 數(shù)據(jù)與一個基做內(nèi)積運算,結(jié)果作為第一個新的坐標分量予权,然后與第二個基做內(nèi)積運算昂勉,結(jié)果作為第二個新坐標的分量

將數(shù)據(jù)(3,2)映射到基中的坐標

3-2.jpg

基表換 :

基變換.jpg

特征值,特征向量

若A為n階方陣 扫腺, 如果存在一個非零向量X使得 Ax = \lambda x 則標量 \lambda 為特征值(eigenvuale) , x為特征向量(eigenvector)

線性變換

一個矩陣與一個列向量A相乘岗照,得到一個新的列向量B,則稱該矩陣未列向量A到列向量B的線性變化

我們希望投影后的盡可能分散笆环,而這種分散程度攒至,用方差來表述

Var(a)=\frac{1}{m}\sum_{i=1}^{m}\left ( a_{i} -u \right )^{2}

尋找一個一維基,使得所有數(shù)據(jù)變化大這個基上的坐標表示后躁劣,方差值最大

解釋: 方差越大迫吐,說明數(shù)據(jù)越分散,通常認為账忘,數(shù)據(jù)的某個特征維度上數(shù)據(jù)越分散志膀,該特征就越重要

對于更高的維度熙宇,比如3維降到2維,在第1維得到最大的方差值后溉浙,我們希望第2維也是有最大方差烫止,很明顯,直接得到的第2維于第1維"幾乎重合" 戳稽, 所以它們應該有其他約束條件————正交

解釋:從直觀上說馆蠕,讓2個坐標盡可能表示更多的原始信息,我們是不希望它們之間存在有(線性)相關性的惊奇,因為相關性說明2個字段不是完全獨立的互躬,必然存在重復表示的信息

數(shù)學上用2個向量的協(xié)方差來表示其相關性

Cov(a,b) = \frac{1}{m}\sum_{i=1}^{m}\left (a_{i} - \mu _{a} \right )\left ( b_{i} - \mu _\right )

當協(xié)方差為0時颂郎,表示2個向量線性不相關

所以優(yōu)化的目標是:

將一組N維向量降為K維(0<K<N),其目標是選擇K個單位正交基吨铸,使得原始數(shù)據(jù)變換到這組基上后,各向量間的協(xié)方差未0 祖秒,而向量的方差盡可能大

協(xié)方差

協(xié)方差用于表示變量間的相互關系诞吱,變量間的相互關系一般有三種:正相關,負相關和不相關竭缝。

** 正相關:**假設有兩個變量x和y房维,若x越大y越大;x越小y越小則x和y為正相關抬纸。

** 負相關:**假設有兩個變量x和y咙俩,若x越大y越小湿故;x越小y越大則x和y為負相關阿趁。

** 不相關:**假設有兩個變量x和y,若x和y變化無關聯(lián)則x和y為負相關坛猪。

假設有2個變量a和b 構成矩陣X(通常都是sample作為行向量脖阵,特征作為列向量)

X = \begin{pmatrix}a_{1} & b_{1}\\ a_{2} & b_{2}\\ \vdots & \vdots\\ a_{m} & b_{m}\end{pmatrix}

將其轉(zhuǎn)置為sample作為列向量,特征作為行向量:

X = \begin{pmatrix}a_{1} &a_{2} & \cdots &a_{m} \\ b_{1} & b_{2} & \cdots & b_{m}\end{pmatrix}

\frac{1}{m}XX^{T} 可以得到(不是推導得到的墅茉,而是恰好這個公式很好用):

\frac{1}{m}XX^{T} = \begin{pmatrix}\frac{1}{m} \sum_{i=1}^{m} a_{i}^{2} & \frac{1}{m} \sum_{i=1}^{m} a_{i} b_{i}\\ \frac{1}{m} \sum_{i=1}^{m} a_{i} b_{i} & \frac{1}{m} \sum_{i=1}^{m} b_{i}^{2} \end{pmatrix}

同理m個n維數(shù)據(jù)命黔,將其轉(zhuǎn)置稱n*m個矩陣X ,設 C = \frac{1}{m}XX^T ,則C是一個對稱矩陣就斤,其對角線為各個字段的方差悍募,其中第i行j列和第j行i列元素相同

矩陣對角化

實對稱矩陣: 一個n*n的實對稱矩陣一定可以找到n個單位正交特征向量

E = (e_{1} , e_{2} \cdots e_{n})

實對稱陣可進行對角化:

E^{T}CE = \Lambda =\begin{pmatrix}\lambda _{1} & & & \\ & \lambda _{2}& & \\ & & \ddots & \\ & & & \lambda _{n}\end{pmatrix}

根據(jù)特征值的從大到小,將特征向量從上到下排列洋机,則用前K行組成的矩陣乘以原數(shù)據(jù)矩陣X坠宴,就得到了我們需要的降維后的數(shù)據(jù)矩陣Y

PCA簡單實例

均一化后的數(shù)據(jù) : \bigl(\begin{smallmatrix}-1 & -1 & 0 & 2 & 0\\ -2 & 0 & 0 & 1 & 1\end{smallmatrix}\bigr)

協(xié)方差矩陣 :

C = \frac{1}{5}\bigl(\begin{smallmatrix}-1 & -1 & 0 & 2 & 0\\ -2 & 0 & 0 & 1 & 1 \end{smallmatrix}\bigr)\begin{pmatrix}-1 & -2\\ -1&0 \\ 0 & 0\\ 2 & 1\\ 0 & 1\end{pmatrix} = \begin{pmatrix}\frac{6}{5} & \frac{4}{5}\\ \frac{4}{5}& \frac{6}{5}\end{pmatrix}

特征值 : 對協(xié)方差矩陣C求解可以得到

\lambda _{1} =2 , \lambda _{2} = \frac{2}{5}

特征向量(注意將特征向量單位化)為 : c_{1}\begin{pmatrix} 1\\ 1 \end{pmatrix} , c_2\begin{pmatrix} -1\\ 1 \end{pmatrix}

對角化.png

參考

https://blog.csdn.net/hustqb/article/details/78394058

[圖片上傳失敗...(image-2df3d7-1545210203861)]

協(xié)方差矩陣 https://www.youtube.com/watch?v=locZabK4Als

騰訊視頻 PCA

https://www.bilibili.com/video/av29441413/?p=2

http://blog.codinglabs.org/articles/pca-tutorial.html

https://blog.csdn.net/hustqb/article/details/78394058

特征值,特征向量

https://www.bilibili.com/video/av6540378?from=search&seid=11885232428903943428

線性代數(shù)之六:特征值與特征向量

https://blog.csdn.net/zzulp/article/details/78511711

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末绷旗,一起剝皮案震驚了整個濱河市喜鼓,隨后出現(xiàn)的幾起案子忧设,更是在濱河造成了極大的恐慌,老刑警劉巖颠通,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異膀懈,居然都是意外死亡顿锰,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進店門启搂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來硼控,“玉大人,你說我怎么就攤上這事胳赌±魏常” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵疑苫,是天一觀的道長熏版。 經(jīng)常有香客問我,道長捍掺,這世上最難降的妖魔是什么撼短? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮挺勿,結(jié)果婚禮上曲横,老公的妹妹穿的比我還像新娘。我一直安慰自己不瓶,他們只是感情好禾嫉,可當我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蚊丐,像睡著了一般熙参。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上麦备,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天尊惰,我揣著相機與錄音,去河邊找鬼泥兰。 笑死弄屡,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的鞋诗。 我是一名探鬼主播膀捷,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼削彬!你這毒婦竟也來了全庸?” 一聲冷哼從身側(cè)響起秀仲,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎壶笼,沒想到半個月后神僵,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡覆劈,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年保礼,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片责语。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡炮障,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出坤候,到底是詐尸還是另有隱情胁赢,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布白筹,位于F島的核電站智末,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏徒河。R本人自食惡果不足惜吹害,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望虚青。 院中可真熱鬧它呀,春花似錦、人聲如沸棒厘。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽奢人。三九已至谓媒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間何乎,已是汗流浹背句惯。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留支救,地道東北人抢野。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像各墨,于是被迫代替她去往敵國和親指孤。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容