白化的目的:降低輸入的冗余性坎缭;
或者說
我們希望通過白化過程使得學(xué)習(xí)算法的輸入具有如下性質(zhì):
(i)特征之間相關(guān)性較低私恬;
(ii)所有特征具有相同的方差。
PCA白化
對(duì)于矩陣 X,是 m x n 的矩陣秩仆,m個(gè)樣本數(shù)量瀑梗,n 是維度
協(xié)方差矩陣 covX ?是 n x n的矩陣
協(xié)方差矩陣的特征向量以此是:u1 u2 u3 ?un
寫成矩陣的形式:
實(shí)際中我們只需要選取前k個(gè)特征向量對(duì)數(shù)據(jù)進(jìn)行降維
降維后的矩陣可以表示為:redX = X(m x n) * U(n x k)
所謂的PCA白化就是對(duì)降維后的數(shù)據(jù)redX 的每一列除以其特征值的根號(hào)烹笔,如下表述
ZCA白化
首先應(yīng)該知道,如果R是任意正交矩陣抛丽,那么仍然具有單位協(xié)方差谤职。在ZCA白化中,令R=U(由上文知亿鲜,U本身就是正交矩陣)允蜈,其定義為:
也就是在原來PCA結(jié)果上(不降維)左乘(或者右乘,由于X的矩陣表示形式可能不一樣,有的數(shù)上x的行數(shù)是維度數(shù)陷寝,有的說的列是維度說锅很,上圖中的行是維度說,上面說的PCA的時(shí)候我自己寫的列是維度數(shù))一個(gè)特征向量矩陣凤跑。
可以證明爆安,對(duì)所有可能的R,這種旋轉(zhuǎn)使得
盡可能地接近原始數(shù)據(jù)x仔引。
當(dāng)使用ZCA白化時(shí)扔仓,我們通常保留數(shù)據(jù)的全部n個(gè)維度,不嘗試去降低它的維數(shù)咖耘。
正則化