一些基本概念:
- 生成模型generative model:生成模型是指聯(lián)合分布互广;判別模型是指條件分布瘟斜。
- WLOG: Without loss of generality 不失一般性
- signal reconstruction: 信號(hào)重構(gòu)
- 數(shù)據(jù)噪聲:引入噪聲通常是為了防止過擬合的,噪聲一般能提高模型的泛化能力
- 過擬合:當(dāng)訓(xùn)練時(shí)候的數(shù)據(jù)不夠衡怀,即訓(xùn)練數(shù)據(jù)不足以估計(jì)整個(gè)數(shù)據(jù)的分布時(shí),或者最模型進(jìn)行過度訓(xùn)練時(shí)蓝纲,會(huì)導(dǎo)致過擬合抄邀。
- 維度:維度通常指特征的個(gè)數(shù)首启。它比較少的情況下也可以指數(shù)據(jù)向量的第幾維。
我有段時(shí)間一直將維度的概念搞錯(cuò)了撤摸!
下面是PCA的內(nèi)容:
- 什么是降維毅桃?
根據(jù)維基百科的定義,在機(jī)器學(xué)習(xí)中准夷,降維是指減少隨機(jī)變量的個(gè)數(shù)的過程钥飞。主要包括兩方面:特征選擇(features selection)和特征提取(features extraction or features projection)。換句話說衫嵌,降維是指減少特征空間的維數(shù)读宙。
為什么降維?
1.為了減少數(shù)據(jù)噪聲楔绞,突出主要特征结闸,減少計(jì)算量,如PCA酒朵。
2.為了減少模型的參數(shù)桦锄。
3.為了避免過擬合。
怎么降維蔫耽? 一般的想法是在低維保持?jǐn)?shù)據(jù)的主要特征结耀。
PCA是一個(gè)使數(shù)據(jù)不相關(guān)的過程。它的目標(biāo)是匙铡,找到一個(gè)坐標(biāo)系統(tǒng)图甜,使不同的維度不相關(guān)”钛郏或者黑毅,找到一個(gè)坐標(biāo)系統(tǒng),找出最大的方差钦讳。
- 怎樣實(shí)現(xiàn)PCA:相關(guān)性可以通過旋轉(zhuǎn)數(shù)據(jù)點(diǎn)或坐標(biāo)來消除矿瘦。
我們有數(shù)據(jù),PCA找到一個(gè)方向使蜂厅。優(yōu)化這個(gè)式子我們必須對(duì) 有限制條件:匪凡。
拉格朗日方程有:
對(duì)求偏微分等于0有:
這是一個(gè)標(biāo)準(zhǔn)的特征方程問題。是對(duì)應(yīng)最大特征根的的特征向量掘猿。
是由數(shù)據(jù)方差矩陣做特征根分解得到的:
主成分是特征向量病游,是對(duì)應(yīng)的對(duì)角線上的特征根。
PCA的特征:
a. 特征向量是正交的: 。也就是說衬衬,PCA對(duì)應(yīng)著生成模型买猖,這兒。
b. 是對(duì)角陣滋尉。也就是說玉控,分解出來的在時(shí)間上是無關(guān)的。
c. 第i個(gè)特征根是第i個(gè)因子的方差:
具體算法:
|-------------------------------------------------------------------------------------------|
Require : data , number of principal components k
1: #Center data:
2: #Compute Covariance Matrix :
3: #Calculate eigenvectors and eigenvalues
of the covariance matrix:
4: # Rank eigenvectors by its corresponding
eigenvalues
5: return top k eigenvectors
|-------------------------------------------------------------------------------------------|
- 什么是信號(hào)重構(gòu)狮惜?
PCA所做的是將數(shù)據(jù)投影到輸入空間的子集上高诺。例如,這張圖里碾篡,投影數(shù)據(jù)在子空間里面有最大的方差虱而。圖中的紅點(diǎn)是在投影上重構(gòu)的數(shù)據(jù)。重構(gòu)誤差是從藍(lán)點(diǎn)到紅點(diǎn)的距離之和开泽。
信號(hào)重構(gòu)的最優(yōu)性
WLOG(不失一般性)牡拇, 假設(shè)特征向量對(duì)應(yīng)的特征根有序排列,即
那么穆律,前k個(gè)成分方向的投影惠呼,即
里面有的方差。
定理:在k維投影上的重構(gòu)誤差最小值是的余下的個(gè)最小的特征根之和:
最小值在處取得峦耘。
證明:
化簡
而
- Kernel Trick
我們有數(shù)據(jù)剔蹋,會(huì)遇到這樣的問題:
a. 協(xié)方差矩陣的矩陣的維數(shù)會(huì)很大
b. 對(duì)于協(xié)方差矩陣的估計(jì)擁有的數(shù)據(jù)太少
我們知道肯定在數(shù)據(jù)的延伸上,, 是每個(gè)點(diǎn)的權(quán)重贡歧。
將代入PCA的式子里滩租,得到
則有:
這種通過而不是解PCA的方法稱作linear kernel PCA。
- Singular Value Decomposition(SVD)奇異值分解
通過SVD我們可以分解任意一個(gè)矩陣利朵,這兒和是包含著奇異向量的正交矩陣, 是對(duì)角陣猎莲,為奇異值绍弟。
現(xiàn)在我們可以看到
a.協(xié)方差矩陣
b.核矩陣
是的特征向量,是的特征向量著洼。
是和的特征值的平方根樟遣。
線性核PCA和經(jīng)典PCA之間的關(guān)系是: