預(yù)處理(一):主成分分析PCA

主成分分析(PCA)

在許多領(lǐng)域的研究與應(yīng)用中枫夺,往往需要對(duì)反映事物的多個(gè)變量進(jìn)行大量的觀測(cè)昭殉,收集大量數(shù)據(jù)以便進(jìn)行分析尋找規(guī)律忙干。多變量大樣本無疑會(huì)為研究和應(yīng)用提供了豐富的信息上祈,但也在一定程度上增加了數(shù)據(jù)采集的工作量培遵,更重要的是在多數(shù)情況下,許多變量之間可能存在相關(guān)性登刺,從而增加了問題分析的復(fù)雜性籽腕,同時(shí)對(duì)分析帶來不便。如果分別對(duì)每個(gè)指標(biāo)進(jìn)行分析纸俭,分析往往是孤立的皇耗,而不是綜合的。盲目減少指標(biāo)會(huì)損失很多信息揍很,容易產(chǎn)生錯(cuò)誤的結(jié)論郎楼。

因此需要找到一個(gè)合理的方法,在減少需要分析的指標(biāo)的同時(shí)女轿,盡量減少原指標(biāo)包含信息的損失箭启,以達(dá)到對(duì)所收集數(shù)據(jù)進(jìn)行全面分析的目的。由于各變量間存在一定的相關(guān)關(guān)系蛉迹,因此有可能用較少的綜合指標(biāo),分別綜合存在于各變量中的各類信息放妈。主成分分析與因子分析就屬于這類降維的方法北救。

問題描述

下表是某些學(xué)生的語文、數(shù)學(xué)芜抒、物理珍策、化學(xué)成績(jī)統(tǒng)計(jì):

學(xué)生編號(hào) 語文 數(shù)學(xué) 物理 化學(xué)
1 90 140 99 100
2 90 97 88 92
3 90 110 79 83
…… …… …… …… ……

首先,假設(shè)這些科目成績(jī)不相關(guān)宅倒,也就是說某一科目考多少分與其他科目沒有關(guān)系攘宙。那么一眼就能看出來,數(shù)學(xué)拐迁、物理蹭劈、化學(xué)這三門課的成績(jī)構(gòu)成了這組數(shù)據(jù)的主成分(很顯然,數(shù)學(xué)作為第一主成分线召,因?yàn)閿?shù)學(xué)成績(jī)拉的最開)铺韧。下面再看一組學(xué)生的數(shù)學(xué)、物理缓淹、化學(xué)哈打、語文塔逃、歷史、英語成績(jī)統(tǒng)計(jì):

學(xué)生編號(hào) 數(shù)學(xué) 物理 化學(xué) 語文 歷史 英語
1 65 61 72 84 81 79
2 77 77 76 64 70 55
3 67 63 49 65 67 57
4 80 69 75 74 74 63
5 74 70 80 84 82 74
6 78 84 75 62 72 64
7 66 71 67 52 65 57
8 77 71 57 72 86 71
9 83 100 79 41 67 50
…… …… …… …… …… …… ……

數(shù)據(jù)太多了料仗,以至于看起來有些凌亂湾盗!也就是說,無法直接看出這組數(shù)據(jù)的主成分立轧,因?yàn)樵谧鴺?biāo)系下這組數(shù)據(jù)分布的很散亂淹仑。

在另一個(gè)例子中,假設(shè)數(shù)據(jù)在相應(yīng)坐標(biāo)空間中表示出來如下圖所示肺孵,也許你就能換一個(gè)觀察角度找出主成分匀借。


6a3aa9a2e690fa67aec528dfc2d8595.png

但是,對(duì)于更高維的數(shù)據(jù)平窘,能想象其分布嗎吓肋?就算能描述分布,如何精確地找到這些主成分的軸瑰艘?如何衡量你提取的主成分到底占了整個(gè)數(shù)據(jù)的多少信息是鬼?所以,我們就要用到主成分分析的處理方法紫新。

數(shù)據(jù)降維

假設(shè)三維空間中有一系列點(diǎn)均蜜,這些點(diǎn)分布在一個(gè)過原點(diǎn)的斜面上,如果你用自然坐標(biāo)系x,y,z這三個(gè)軸來表示這組數(shù)據(jù)的話芒率,需要使用三個(gè)維度囤耳,而事實(shí)上,這些點(diǎn)的分布僅僅是在一個(gè)二維的平面上偶芍。如果我們把坐標(biāo)軸旋轉(zhuǎn)一下充择, 使數(shù)據(jù)所在的平面與x^`, y^`平面重合,不就只需要使用兩個(gè)維度了嗎匪蟀。這樣數(shù)據(jù)的維數(shù)就降下來了椎麦。究其本質(zhì),如果把這些數(shù)據(jù)按行存儲(chǔ)成一個(gè)矩陣材彪,那么這個(gè)矩陣的秩為2观挎。這些數(shù)據(jù)之間是具有相關(guān)性的,這些數(shù)據(jù)的最大線性無關(guān)組只包含兩個(gè)向量段化。(一般來講n維空間中的n個(gè)點(diǎn)一定能在一個(gè)n-1維子空間中分析)

將上面的數(shù)據(jù)降維之后嘁捷,我們可以認(rèn)為并沒有損失信息,因?yàn)樗械臄?shù)據(jù)在平面之外的第三個(gè)維度的分量都是0∷氡茫現(xiàn)在假設(shè)z^`軸有一個(gè)輕微的擾動(dòng)普气,那么我們?nèi)匀挥蒙鲜龅亩S來表示這些數(shù)據(jù)佃延,因?yàn)槲覀兛梢哉J(rèn)為這兩個(gè)軸包含了數(shù)據(jù)的主成分夷磕。而且這些信息對(duì)于我們的分析已經(jīng)足夠了坐桩,z^`軸的擾動(dòng)很有可能是噪聲,并且具有很大的相關(guān)性绵跷。所以,綜合考慮碾局,可以認(rèn)為數(shù)據(jù)在x^`, y^`上的投影構(gòu)成數(shù)據(jù)的主成分奴艾。

PCA的思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征蕴潦。這k維特征稱為主成分像啼,是重新構(gòu)造出來的k維特征,而不是簡(jiǎn)單地從n維特征中去除其余n-k維特征潭苞。

PCA推導(dǎo)

357d394d5b6639f12f25e175372ad7b.png

首先對(duì)于二維數(shù)據(jù)忽冻,如上圖所示,每個(gè)觀測(cè)點(diǎn)都是二維平面的一個(gè)點(diǎn)此疹。如果這些數(shù)據(jù)形成一個(gè)橢圓形的點(diǎn)陣僧诚,這個(gè)橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向秀菱,數(shù)據(jù)的變化很姓裎堋;在極端的情況下衍菱,如果短軸退化成了一個(gè)點(diǎn),那么只有在長(zhǎng)軸的方向才能解釋這些點(diǎn)的變化肩豁。這樣二維就降維一維了脊串。

顯然,上圖中u_1就是主成分方向清钥,二維空間中與u_1正交的方向琼锋,就是u_2方向。則數(shù)據(jù)在u_1軸的離散程度最大(方差最大)祟昭,數(shù)據(jù)在u_1上的投影代表了原始數(shù)據(jù)的絕大部分信息缕坎,即使不考慮u2,信息損失也不多篡悟。而且谜叹,u1匾寝、u2不相關(guān)。只考慮u1時(shí)荷腊,二維降為一維艳悔。

橢圓的長(zhǎng)短軸相差得越大,降維也越有道理女仰。

1猜年、最大方差理論

在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差,噪聲有較小的方差乔外,信噪比就是信號(hào)與噪聲的方差比杨幼,越大越好推汽。如前面的圖歹撒,樣本在u1上的投影方差較大暖夭,在u2上的投影方差較小迈着,那么可認(rèn)為u2上的投影是由噪聲引起的裕菠。

因此我們認(rèn)為奴潘,最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后画髓,每一維上的樣本方差都很大奈虾。

2匾鸥、最小二乘法

使用最小二乘法來確定各個(gè)主軸的方向扫腺。

對(duì)于一組給定的數(shù)據(jù)\{\vec z_1, \vec z_2, \vec z_3, \cdots, \vec z_n\}

其數(shù)據(jù)的中心為:

\vec \mu = \frac{1}{n} \sum_{i = 1}^{n} \vec z_i

數(shù)據(jù)中心化后為:

\{\vec x_1, \vec x_2, \cdots, \vec x_n\} = \{\vec z_1 - \vec \mu, \vec z_2 - \vec \mu,\cdots, \vec z_n - \vec \mu \}

設(shè)中心化后的數(shù)據(jù)在第一主軸u_1方向上分布最為離散,也就是說在u1方向上的投影的絕對(duì)值之和最大(也可以說方差最大)躁劣,只需要求出u_1方向账忘,設(shè)u_1為單位向量鳖擒。

也就是最大化式:

\frac{1}{n} \sum_{i=1}^n(\vec x_i \cdot \vec u_i)^2 = \frac{1}{n} \sum_{i=1}^n(x_i^T u_1)^2 = \frac{1}{n} \sum_{i=1}^nu_1^Tx_ix_i^Tu_1 = \frac{1}{n} u_1^T(\sum_{i=1}^nx_ix_i^T)u_1

令: X = [x_1, x_2, \cdots, x_n]

上式 = \frac{1}{n} u_1^T XX^Tu_1

u_1^T XX^Tu_1是一個(gè)二次型蒋荚,我們假設(shè)XX^T的某一個(gè)特征值為\lambda,對(duì)應(yīng)的特征向量為\xi互躬,那么:

(XX^T)^T = XX^T

XX^T\xi = \lambda\xi

(XX^T\xi)^T\xi = (\lambda\xi)^T\xi

\xi^TXX^T\xi = \lambda\xi^T\xi

\xi^TXX^T\xi = (X^T\xi)^T(X^T\xi) = \left \| X^T\xi \right \|^2 = \lambda\xi^T\xi = \lambda \left \| \xi \right\|^2

顯然容为,\frac{1}{n} u_1^T XX^Tu_1是一個(gè)半正定的二次型舟奠,且有最大值。

求解最大值和最大值點(diǎn)

目標(biāo)函數(shù)可以表示成映射后的向量的二范數(shù)平方:

u_1^TXX^Tu_1^T = (X^Tu_1)^T(X^Tu_1) = <X^Tu_1^T, X^Tu_1> = (\frac{|| X^Tu_1||_2^2}{||u_1||_2})^2

所以最大化目標(biāo)函數(shù)的基本問題就轉(zhuǎn)化成了:對(duì)于一個(gè)矩陣咙俩,它對(duì)一個(gè)向量做變換膜蛔,變換前后的向量的模長(zhǎng)伸縮尺度如何才能最大皂股?我們有矩陣代數(shù)中的定理知呜呐,向量經(jīng)矩陣映射前后的向量長(zhǎng)度之比的最大值就是這個(gè)矩陣的最大奇異值蘑辑,即:

\frac{\left\|Ax\right\|}{\left\| x\right\|} \leq \sigma_1(A)

X^TX最大特征值對(duì)應(yīng)的特征向量的方向就是第一個(gè)主成分u_1的方向洋魂。

主成分所占整個(gè)信息的百分比可用下式計(jì)算:

\sqrt{\frac{\sum_{i=1}^k\sigma_i^2}{\sum_{i=1}^n\sigma_i^2}}

分母為所有奇異值的平方和副砍,分子為前k個(gè)奇異值的平方和豁翎。

PCA實(shí)例

我們假設(shè)有如下數(shù)據(jù):

x y
2.5 2.4
0.5 0.7
2.2 2.9
1.9 2.2
3.1 3.0
2.3 2.7
2 1.6
1 1.1
1.5 1.6
1.1 0.9

第一步:分別球x,y的平均值:然后對(duì)所有的樣例刘陶,都減去對(duì)應(yīng)的均值匙隔。\overline{x} = 1.81\ \ \overline{y} = 1.91

x - \overline{x} y - \overline{y}
0.69 0.49
-1.31 -1.21
0.39 0.99
0.09 0.29
1.29 1.09
0.49 0.79
0.19 -0.31
-0.81 -0.81
-0.31 -0.31
-0.71 -1.01

第二步:求特征協(xié)方差矩陣

cov = \left( \begin{array}{ccc}.616555556 & .615444444 \\.615444444 & .716555556 \end{array}\right)

第三步:求協(xié)方差的特征值和特征向量

eigenbalues = \left( \begin{array} {ccc} .490833989&1.28402771\end{array}\right)

eigenvectors = \left(\begin{array}{ccc} -.735178656&-.677873399 \\ .677873399&-.735178656\end{array}\right)

第四步:將特征值按照從大到小的順序排序,選擇其中最大的k個(gè)再膳,然后將其對(duì)應(yīng)的k個(gè)特征向量分別作為列向量組成特征向量矩陣喂柒。

這里特征值只有兩個(gè)灾杰,我們選擇其中最大的那個(gè),這里是1.28402771麦备,對(duì)應(yīng)的特征向量為
\left( \begin{array} {ccc} .677873399&-.735178656\end{array} \right)

第五步:將樣本點(diǎn)投影到特征向量上凛篙, 這樣鞋诗,就將原始樣例的n維特征變成了k維削彬,這k維就是原始特征在k維上的投影融痛。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末雁刷,一起剝皮案震驚了整個(gè)濱河市沛励,隨后出現(xiàn)的幾起案子目派,更是在濱河造成了極大的恐慌企蹭,老刑警劉巖谅摄,帶你破解...
    沈念sama閱讀 211,376評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件送漠,死亡現(xiàn)場(chǎng)離奇詭異螺男,居然都是意外死亡下隧,警方通過查閱死者的電腦和手機(jī)淆院,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門土辩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拷淘,“玉大人启涯,你說我怎么就攤上這事结洼∷扇蹋” “怎么了鸣峭?”我有些...
    開封第一講書人閱讀 156,966評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵摊溶,是天一觀的道長(zhǎng)更扁。 經(jīng)常有香客問我浓镜,道長(zhǎng)膛薛,這世上最難降的妖魔是什么哄啄? 我笑而不...
    開封第一講書人閱讀 56,432評(píng)論 1 283
  • 正文 為了忘掉前任咨跌,我火速辦了婚禮锌半,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘殉摔。我一直安慰自己逸月,他們只是感情好碗硬,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評(píng)論 6 385
  • 文/花漫 我一把揭開白布肛响。 她就那樣靜靜地躺著特笋,像睡著了一般猎物。 火紅的嫁衣襯著肌膚如雪蔫磨。 梳的紋絲不亂的頭發(fā)上堤如,一...
    開封第一講書人閱讀 49,792評(píng)論 1 290
  • 那天搀罢,我揣著相機(jī)與錄音榔至,去河邊找鬼唧取。 笑死,一個(gè)胖子當(dāng)著我的面吹牛邢享,可吹牛的內(nèi)容都是我干的驼仪。 我是一名探鬼主播,決...
    沈念sama閱讀 38,933評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼宙攻,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼座掘!你這毒婦竟也來了柔滔?” 一聲冷哼從身側(cè)響起睛廊,我...
    開封第一講書人閱讀 37,701評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤咆霜,失蹤者是張志新(化名)和其女友劉穎蛾坯,沒想到半個(gè)月后疏遏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體财异,經(jīng)...
    沈念sama閱讀 44,143評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡视事,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評(píng)論 2 327
  • 正文 我和宋清朗相戀三年俐东,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蚌吸。...
    茶點(diǎn)故事閱讀 38,626評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡羹唠,死狀恐怖佩微,靈堂內(nèi)的尸體忽然破棺而出哺眯,到底是詐尸還是另有隱情奶卓,我是刑警寧澤撼玄,帶...
    沈念sama閱讀 34,292評(píng)論 4 329
  • 正文 年R本政府宣布盏浙,位于F島的核電站留潦,受9級(jí)特大地震影響兔院,放射性物質(zhì)發(fā)生泄漏坊萝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評(píng)論 3 313
  • 文/蒙蒙 一菩鲜、第九天 我趴在偏房一處隱蔽的房頂上張望接校。 院中可真熱鬧鹿寻,春花似錦诽凌、人聲如沸侣诵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春膘滨,著一層夾襖步出監(jiān)牢的瞬間火邓,已是汗流浹背德撬。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工纤勒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留隆檀,地道東北人恐仑。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓裳仆,卻偏偏與公主長(zhǎng)得像歧斟,于是被迫代替她去往敵國(guó)和親偏形。 傳聞我的和親對(duì)象是個(gè)殘疾皇子壳猜,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容