簡介
PCA全稱Principal Component Analysis,即主成分分析牛郑,是一種常用的數(shù)據(jù)降維方法。它可以通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關的表示,以此來提取數(shù)據(jù)的主要線性分量平委。
數(shù)學基礎
向量的表示
- 內(nèi)積
幾何解釋
設向量B的模維1 , 則A與B的內(nèi)積值等于A向B所在的直線投影的矢量長度
向量表示為(3,2)
實際上表示線性組合
(1,0)就是X軸杖小,(0,1)就是y軸
基變換
基是正交的(即內(nèi)積為0 肆汹, 或者直觀的說相互垂直)
要求: 線性無關
將(3,2)映射到新的基上 xy
變換 : 數(shù)據(jù)與一個基做內(nèi)積運算,結(jié)果作為第一個新的坐標分量予权,然后與第二個基做內(nèi)積運算昂勉,結(jié)果作為第二個新坐標的分量
將數(shù)據(jù)(3,2)映射到基中的坐標
基表換 :
特征值,特征向量
若A為n階方陣 扫腺, 如果存在一個非零向量X使得 則標量
為特征值(eigenvuale) , x為特征向量(eigenvector)
線性變換
一個矩陣與一個列向量A相乘岗照,得到一個新的列向量B,則稱該矩陣未列向量A到列向量B的線性變化
我們希望投影后的盡可能分散笆环,而這種分散程度攒至,用方差來表述
尋找一個一維基,使得所有數(shù)據(jù)變化大這個基上的坐標表示后躁劣,方差值最大
解釋: 方差越大迫吐,說明數(shù)據(jù)越分散,通常認為账忘,數(shù)據(jù)的某個特征維度上數(shù)據(jù)越分散志膀,該特征就越重要
對于更高的維度熙宇,比如3維降到2維,在第1維得到最大的方差值后溉浙,我們希望第2維也是有最大方差烫止,很明顯,直接得到的第2維于第1維"幾乎重合" 戳稽, 所以它們應該有其他約束條件————正交
解釋:從直觀上說馆蠕,讓2個坐標盡可能表示更多的原始信息,我們是不希望它們之間存在有(線性)相關性的惊奇,因為相關性說明2個字段不是完全獨立的互躬,必然存在重復表示的信息
數(shù)學上用2個向量的協(xié)方差來表示其相關性
當協(xié)方差為0時颂郎,表示2個向量線性不相關
所以優(yōu)化的目標是:
將一組N維向量降為K維(0<K<N),其目標是選擇K個單位正交基吨铸,使得原始數(shù)據(jù)變換到這組基上后,各向量間的協(xié)方差未0 祖秒,而向量的方差盡可能大
協(xié)方差
協(xié)方差用于表示變量間的相互關系诞吱,變量間的相互關系一般有三種:正相關,負相關和不相關竭缝。
** 正相關:**假設有兩個變量x和y房维,若x越大y越大;x越小y越小則x和y為正相關抬纸。
** 負相關:**假設有兩個變量x和y咙俩,若x越大y越小湿故;x越小y越大則x和y為負相關阿趁。
** 不相關:**假設有兩個變量x和y,若x和y變化無關聯(lián)則x和y為負相關坛猪。
假設有2個變量a和b 構成矩陣X(通常都是sample作為行向量脖阵,特征作為列向量)
將其轉(zhuǎn)置為sample作為列向量,特征作為行向量:
用 可以得到(不是推導得到的墅茉,而是恰好這個公式很好用):
同理m個n維數(shù)據(jù)命黔,將其轉(zhuǎn)置稱n*m個矩陣X ,設 ,則C是一個對稱矩陣就斤,其對角線為各個字段的方差悍募,其中第i行j列和第j行i列元素相同
矩陣對角化
實對稱矩陣: 一個n*n的實對稱矩陣一定可以找到n個單位正交特征向量
實對稱陣可進行對角化:
根據(jù)特征值的從大到小,將特征向量從上到下排列洋机,則用前K行組成的矩陣乘以原數(shù)據(jù)矩陣X坠宴,就得到了我們需要的降維后的數(shù)據(jù)矩陣Y
PCA簡單實例
均一化后的數(shù)據(jù) :
協(xié)方差矩陣 :
特征值 : 對協(xié)方差矩陣C求解可以得到
特征向量(注意將特征向量單位化)為 :
參考
https://blog.csdn.net/hustqb/article/details/78394058
[圖片上傳失敗...(image-2df3d7-1545210203861)]
協(xié)方差矩陣 https://www.youtube.com/watch?v=locZabK4Als
騰訊視頻 PCA
https://www.bilibili.com/video/av29441413/?p=2
http://blog.codinglabs.org/articles/pca-tutorial.html
https://blog.csdn.net/hustqb/article/details/78394058
特征值,特征向量
https://www.bilibili.com/video/av6540378?from=search&seid=11885232428903943428