降維PCA 主成分分析 Principal Components Analysis

一些基本概念:

  1. 生成模型generative model:生成模型是指聯(lián)合分布互广;判別模型是指條件分布瘟斜。
  2. WLOG: Without loss of generality 不失一般性
  3. signal reconstruction: 信號(hào)重構(gòu)
  4. 數(shù)據(jù)噪聲:引入噪聲通常是為了防止過擬合的,噪聲一般能提高模型的泛化能力
  5. 過擬合:當(dāng)訓(xùn)練時(shí)候的數(shù)據(jù)不夠衡怀,即訓(xùn)練數(shù)據(jù)不足以估計(jì)整個(gè)數(shù)據(jù)的分布時(shí),或者最模型進(jìn)行過度訓(xùn)練時(shí)蓝纲,會(huì)導(dǎo)致過擬合抄邀。
  6. 維度:維度通常指特征的個(gè)數(shù)首启。它比較少的情況下也可以指數(shù)據(jù)向量的第幾維。我有段時(shí)間一直將維度的概念搞錯(cuò)了撤摸!

下面是PCA的內(nèi)容:

  1. 什么是降維毅桃?
    根據(jù)維基百科的定義,在機(jī)器學(xué)習(xí)中准夷,降維是指減少隨機(jī)變量的個(gè)數(shù)的過程钥飞。主要包括兩方面:特征選擇(features selection)和特征提取(features extraction or features projection)。換句話說衫嵌,降維是指減少特征空間的維數(shù)读宙。
    為什么降維?
    1.為了減少數(shù)據(jù)噪聲楔绞,突出主要特征结闸,減少計(jì)算量,如PCA酒朵。
    2.為了減少模型的參數(shù)桦锄。
    3.為了避免過擬合。
    怎么降維蔫耽? 一般的想法是在低維保持?jǐn)?shù)據(jù)的主要特征结耀。

PCA是一個(gè)使數(shù)據(jù)不相關(guān)的過程。它的目標(biāo)是匙铡,找到一個(gè)坐標(biāo)系統(tǒng)图甜,使不同的維度不相關(guān)”钛郏或者黑毅,找到一個(gè)坐標(biāo)系統(tǒng),找出最大的方差钦讳。

  1. 怎樣實(shí)現(xiàn)PCA:相關(guān)性可以通過旋轉(zhuǎn)數(shù)據(jù)點(diǎn)或坐標(biāo)來消除矿瘦。

我們有數(shù)據(jù)X = [x_1,x_2,\ldots,x_N] \in R^{D \times N},PCA找到一個(gè)方向w^* \in R^{D}使w^* = argmax_w w^TXX^Tw蜂厅。優(yōu)化這個(gè)式子我們必須對(duì)w 有限制條件:||w||^2 =w^Tw = 1匪凡。
拉格朗日方程有:
L = w^TXX^Tw +\lambda (1-w^Tw)
對(duì)w求偏微分等于0有:
\frac{\partial{L}}{\partial w} = 2XX^Tw - 2\lambda w = 0
XX^T = \lambda w
這是一個(gè)標(biāo)準(zhǔn)的特征方程問題。wXX^T對(duì)應(yīng)最大特征根的的特征向量掘猿。
W = [w_1,\ldots,w_D]是由數(shù)據(jù)方差矩陣做特征根分解得到的:
XX^TW = W\Lambda主成分W是特征向量病游,\Lambda是對(duì)應(yīng)的對(duì)角線上的特征根。

PCA的特征:
a. 特征向量是正交的: W^TW = WW^T = I。也就是說衬衬,PCA對(duì)應(yīng)著生成模型x(t) =As(t)买猖,這兒A = W, s(t) =W^Tx(t)
b. W^TXX^TW = \Lambda是對(duì)角陣滋尉。也就是說玉控,分解出來的s(t)在時(shí)間上是無關(guān)的。
c. 第i個(gè)特征根是第i個(gè)因子的方差: \Lambda_{ii} = Var(s_i) = Var(w_i^T x)

具體算法:

|-------------------------------------------------------------------------------------------|
Require : data x_1,\ldots, x_N \in R^d, number of principal components k
1: #Center data: X= X - 1/N \sum_iX_i
2: #Compute Covariance Matrix :C = 1/N XX^T
3: #Calculate eigenvectors and eigenvalues
of the covariance matrix: W, \Lambda = eig(C)
4: # Rank eigenvectors by its corresponding
eigenvalues
5: return top k eigenvectorsW

|-------------------------------------------------------------------------------------------|

  1. 什么是信號(hào)重構(gòu)狮惜?
    PCA所做的是將數(shù)據(jù)投影到輸入空間的子集上高诺。例如,這張圖里碾篡,投影數(shù)據(jù)在子空間里面有最大的方差虱而。圖中的紅點(diǎn)是在投影上重構(gòu)的數(shù)據(jù)。重構(gòu)誤差是從藍(lán)點(diǎn)到紅點(diǎn)的距離之和开泽。
圖片來自網(wǎng)絡(luò)

信號(hào)重構(gòu)的最優(yōu)性
WLOG(不失一般性)牡拇, 假設(shè)特征向量對(duì)應(yīng)的特征根有序排列,即
\Lambda_{11} \geq \Lambda_{22}\geq\ldots\Lambda_{DD}
那么穆律,前k個(gè)成分方向的投影惠呼,即
[s_1,\ldots,s_k] = [w_1,\ldots,w_k]^TX
里面有\sum_{i=1}^k \Lambda{ii}/\sum_{i=1}^D \Lambda_{ii}的方差。

定理:在k維投影上的重構(gòu)誤差最小值是XX^T的余下的D - k個(gè)最小的特征根之和:
min_{v = [v_1,\ldots,v_k],V^TVX =I_k}||X - VV^TX||^2 = \sum_{i = k+1}^D \Lambda_{ii}
最小值在V =[w_1,\ldots,w_k]處取得峦耘。
證明:
化簡||X - VV^TX||^2 = Tr(XX^T) - Tr(V^TXX^TV)
max_{v = [v_1,\ldots,v_k],V^TVX =I_k}Tr(V^TXX^TV) = \sum_{i =1}^k \Lambda_{ii}

  1. Kernel Trick
    我們有數(shù)據(jù)X = [x_1,x_2,\ldots,x_N] \in R^{D \times N}, N\ll D剔蹋,會(huì)遇到這樣的問題:
    a. 協(xié)方差矩陣XX^T的矩陣的維數(shù)會(huì)很大
    b. 對(duì)于協(xié)方差矩陣的估計(jì)擁有的數(shù)據(jù)太少

我們知道w肯定在數(shù)據(jù)的延伸上,w = X\alpha, \alpha是每個(gè)點(diǎn)的權(quán)重贡歧。
w = X\alpha代入PCA的式子里滩租,得到
X\underbrace{X^TX}_{\text{ kernel K_X}}\alpha = \lambda X \alpha
則有:
K_X\alpha =\lambda \alpha
這種通過X^TX而不是XX^T解PCA的方法稱作linear kernel PCA。

  1. Singular Value Decomposition(SVD)奇異值分解
    通過SVD我們可以分解任意一個(gè)矩陣X = ESF利朵,這兒EF是包含著奇異向量的正交矩陣, S是對(duì)角陣猎莲,為奇異值绍弟。

現(xiàn)在我們可以看到
a.協(xié)方差矩陣XX^T =ESF(ESF)^T = ESFF^TS^TE^T = ES^2E^T
b.核矩陣 X^TX= FSE(FSE)^T = FSEE^TS^TF^T = FS^2F^T
EXX^T的特征向量,FX^TX的特征向量著洼。
SXX^TX^TX的特征值的平方根樟遣。
線性核PCA和經(jīng)典PCA之間的關(guān)系是:ES =XF^T

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市身笤,隨后出現(xiàn)的幾起案子豹悬,更是在濱河造成了極大的恐慌,老刑警劉巖液荸,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件瞻佛,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)伤柄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門绊困,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人适刀,你說我怎么就攤上這事秤朗。” “怎么了笔喉?”我有些...
    開封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵取视,是天一觀的道長。 經(jīng)常有香客問我常挚,道長作谭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任待侵,我火速辦了婚禮丢早,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘秧倾。我一直安慰自己怨酝,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開白布那先。 她就那樣靜靜地躺著农猬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪售淡。 梳的紋絲不亂的頭發(fā)上斤葱,一...
    開封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音揖闸,去河邊找鬼揍堕。 笑死,一個(gè)胖子當(dāng)著我的面吹牛汤纸,可吹牛的內(nèi)容都是我干的衩茸。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼贮泞,長吁一口氣:“原來是場噩夢啊……” “哼楞慈!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起啃擦,我...
    開封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤囊蓝,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后令蛉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體聚霜,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了俯萎。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片傲宜。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖夫啊,靈堂內(nèi)的尸體忽然破棺而出函卒,到底是詐尸還是另有隱情,我是刑警寧澤撇眯,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布报嵌,位于F島的核電站,受9級(jí)特大地震影響熊榛,放射性物質(zhì)發(fā)生泄漏锚国。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一玄坦、第九天 我趴在偏房一處隱蔽的房頂上張望血筑。 院中可真熱鬧,春花似錦煎楣、人聲如沸豺总。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽喻喳。三九已至,卻和暖如春困曙,著一層夾襖步出監(jiān)牢的瞬間表伦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國打工慷丽, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蹦哼,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓要糊,卻偏偏與公主長得像翔怎,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子杨耙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容