PCA

1、PCA的基本想法

主成分分析(PCA)是常用的無監(jiān)督學習方法模狭,這一方法利用正交變換把由線性相關(guān)的變量表示的觀測數(shù)據(jù)轉(zhuǎn)換為少數(shù)幾個由線性無關(guān)變量表示的數(shù)據(jù)颈抚,線性無關(guān)的變量稱為主成分。

主成分分析中嚼鹉,首先對給定數(shù)據(jù)規(guī)范化贩汉,使得數(shù)據(jù)每一變量的平均值為0驱富,方差為1。之后對數(shù)據(jù)進行正交變換匹舞。新變量是可能的正交變換中變量的方差的和(信息保存)最大的褐鸥。在下圖的例子中,顯然在左圖中x_1x_2是線性相關(guān)的赐稽,當知道其中一個變量x_1的取值時叫榕,對另一個變量x_2的預(yù)測不是完全隨機的,反之亦然姊舵。在旋轉(zhuǎn)后的新坐標系里晰绎,數(shù)據(jù)由變量y_1y_2表示。主成分分析選擇方差最大的方向(第一主成分)作為新坐標系的第一坐標軸蠢莺,即y_1軸寒匙,之后選擇與第一坐標軸正交且方差次之的方向(第二主成分)作為新坐標系第二坐標軸。在新坐標軸中躏将,y_1y_2線性無關(guān)锄弱,當知道其中一個變量y_1的取值時,對另一個變量y_2的預(yù)測是完全隨機的祸憋,反之亦然会宪。

關(guān)于PCA的解釋除了投影到一個超平面使得投影點方差最大以外,還有一種等價的解釋蚯窥,即所有樣本點到超平面的距離的平方和最小掸鹅。這一點從下圖中可以直觀的看出來。

方差最大指的是(注意標準化后均值為0):

\max({OA^{'}}^2+{OB^{'}}^2+{OC^{'}}^2)

距離平方和最小指的是:

\min({AA^{'}}^2+{BB^{'}}^2+{CC^{'}}^2)

因為A拦赠、B巍沙、C到原點距離固定,因此以上兩個優(yōu)化目標完全等價荷鼠。

2句携、主成分的定義和性質(zhì)

假設(shè)x=(x_1,x_2,\dots,x_m)^Tm維隨機變量,其均值向量為\mu

\mu=E(x)=(\mu_1,\mu_2,\dots,\mu_m)^T

協(xié)方差矩陣是\Sigma

\Sigma=cov(x,x)=E[(x-\mu)(x-\mu)]

考慮有m維隨機變量xm維隨機變量y=(y_1,y_2,\dots,y_m)^T的線性變換:

y_i=\alpha_i^T x=\alpha_{1i}x_1+\alpha_{2i}x_2+\dots+\alpha_{mi}x_m

其中\alpha_{i}^T=(\alpha_{1i},\alpha_{2i},\dots,\alpha_{mi}),i=1,2,\dots,m

由隨機變量性質(zhì)有:

E(y_i)=\alpha_i^T\mu,\quad i=1,2,\dots,m

var(y_i)=\alpha_i^T\Sigma\alpha_i,\quad i=1,2,\dots,m

cov(y_i,y_j)=\alpha_i\Sigma\alpha_j,\quad i=1,2,\dots,m,\quad j=1,2,\dots,m

總體主成分定義如下:

給定y_i=\alpha_i^T x=\alpha_{1i}x_1+\alpha_{2i}x_2+\dots+\alpha_{mi}x_m所示的線性變換允乐,如果它滿足:

(1)\alpha_i^T\alpha_i=1,\quad i=1,2,\dots,m(即線性變換是正交變換)

(2)cov(y_i,y_j)=0(i\neq j)(即變換后的各變量互相正交)

(3)變量y_1x的所有線性變換中方差最大的矮嫉,y_2是與y_1不相關(guān)的x的所有線性變換中方差最大的;一般地牍疏,y_i是與y_1,y_2,\dots,y_{i-1}都不相關(guān)的x的所有所有線性變換中方差最大的蠢笋。

此時分別稱y_1,y_2,\dots,y_mx的第一主成分、第二主成分……第m主成分鳞陨。

總體主成分有何性質(zhì)呢昨寞?

定理1 設(shè)xm維隨機變量,\Sigmax的協(xié)方差陣,\Sigma的特征值分別是\lambda_1\geq \lambda_2\geq \dots\geq \lambda_m\geq 0编矾,特征值對應(yīng)的單位特征向量分別為\alpha_1,\alpha_2,\dots,\alpha_m熟史,則x的第k主成分為:

y_k=\alpha_k^T x,\quad k=1,2,\dots,m

x的第k主成分的方差為:

var(y_k)=\alpha_k^T\Sigma\alpha_k=\lambda_k,\quad k=1,2,\dots,m

證明:

求第一主成分就是求解約束最優(yōu)化問題:

\begin{alignat*}{2} \max_{\alpha_1} \quad & \alpha_1^T\Sigma\alpha_1\\ \mbox{s.t.}\quad &\alpha_1^T \alpha_1=1\\ \end{alignat*}

定義拉格朗日系數(shù):

\alpha_1^T\Sigma\alpha_1-\lambda(\alpha_1^T\alpha_1-1)

將拉格朗日系數(shù)對\alpha_1求導(dǎo)令其為0:

\Sigma\alpha_1-\lambda\alpha_1=0

因此\lambda\Sigma的特征值馁害,\alpha_1是對應(yīng)的單位特征向量窄俏,于是目標函數(shù)為:

\alpha_1^T\Sigma\alpha_1=\alpha_1^T\lambda\alpha_1=\lambda\alpha_1^T\alpha_1=\lambda

假設(shè)\alpha_1\Sigma的最大特征值\lambda_1對應(yīng)的單位特征向量。顯然\alpha_1\lambda_1是最優(yōu)化問題的解碘菜。因此\alpha_1^T x構(gòu)成第一主成分凹蜈。

接著求第二主成分y_2=\alpha_2^T x,第二主成分的\alpha_2是在\alpha_2^T\alpha_2=1\alpha_2^T x\alpha_1^T x不相關(guān)的條件下使得方差var(\alpha_2^T x)達到最大的忍啸。

求第二主成分需要求解約束最優(yōu)化問題:

\begin{alignat*}{2} \max_{\alpha_2} \quad & \alpha_2^T\Sigma\alpha_2\\ \mbox{s.t.}\quad &\alpha_2^T \alpha_2=1\\ &\alpha_2^T \alpha_1=0\\ \end{alignat*}

定義拉格朗日函數(shù):

\alpha_2^T\Sigma\alpha_2-\lambda(\alpha_2^T\alpha_2-1)-\phi\alpha_2^T\alpha_1

\alpha_2求導(dǎo)并令其為0:

2\Sigma\alpha_2-2\lambda\alpha_2-\phi\alpha_1=0

左乘\alpha_1^T得到:

2\alpha_1^T\Sigma\alpha_2-2\lambda\alpha_1^T\alpha_2-\phi\alpha_1^T\alpha_1=0

因為\alpha_1^T\Sigma\alpha_2=\alpha_2^T\Sigma\alpha_1=\alpha_2\lambda_1\alpha_1=\lambda_1\alpha_2^T\alpha_1=0仰坦,且\alpha_1^T\alpha_1=1,故:

\phi=0

從而:

\Sigma\alpha_2-\lambda\alpha_2=0

這和第一主成分的求解完全類似计雌,設(shè)\alpha_2\Sigma的第二大特征值\lambda_2對應(yīng)的特征向量悄晃,則顯然\alpha_2\lambda_2是上式的解遇骑。于是\alpha_2^T x構(gòu)成x的第二主成分牡属。

一般地查近,x的第k主成分為\alpha_k^T x击碗,且var(\alpha_k^T x)=\lambda_k届吁,這里\lambda_k\Sigma的第k大特征值且\alpha_k是對應(yīng)的單位特征向量育苟。

由此可以得出總體主成分的幾個性質(zhì)

(1)總體主成分y的協(xié)方差陣是對角陣:

cov(y)=\Lambda=diag(\lambda_1,\lambda_2,\dots,\lambda_m)

(2)總體主成分y的方差之和等于隨機變量x的方差之和:

\sum_{i=1}^m \lambda_i=\sum_{i=1}^m \sigma_{ii}

這里\sigma_{ii}是隨機變量x_i的方差慢逾,即協(xié)方差陣\Sigma的對角元素歧强。

(3)y_kx_i的相關(guān)系數(shù)\rho(y_k,x_i)稱為因子負荷量反番,它表示兩者的相關(guān)關(guān)系:

\rho(y_k,x_i)=\frac{\sqrt{\lambda_k}\alpha_{ik}}{\sqrt{\sigma_{ii}}}

推導(dǎo)如下:

\rho(y_k,x_i)=\frac{cov(y_k,x_i)}{\sqrt{var(y_k)var(x_i)}}=\frac{cov(\alpha_k^T x,e_i^T x)}{\sqrt{\lambda_k \sigma_{ii}}}

其中e_i為基本單位向量沙热,第i個分量為1,其它分量為0罢缸,由協(xié)方差性質(zhì):

cov(\alpha_k^T x,e_i^T x)=\alpha_k^T\Sigma e_i=e_i^T\Sigma\alpha_k=\lambda_k e_i^T\alpha_k=\lambda_k\alpha_{ik}

代入上式即得結(jié)論篙贸。

(4)y_km個變量的因子負荷量滿足:

\sum_{i=1}^m \sigma_{ii}\rho^2(y_k,x_i)=\lambda_k

(5)m個主成分與x_i的因子負荷量滿足:

\sum_{k=1}^m \rho^2(y_k,x_i)=1

3、相關(guān)矩陣的特征值分解算法

之前我們考慮的主成分分析都是在總體上進行的枫疆,應(yīng)用中我們需要在觀測數(shù)據(jù)上進行主成分分析爵川。

假設(shè)對m維隨機變量x進行n次獨立觀測得到觀測樣本x_1,x_2,\dots,x_n,觀測數(shù)據(jù)用X表示:

X=[x_1\quad x_2\quad \dots\quad x_n]

相關(guān)矩陣的特征值分解算法流程如下:

(1)對觀測數(shù)據(jù)X進行規(guī)范化處理养铸。

(2)依據(jù)規(guī)范化矩陣雁芙,計算樣本相關(guān)矩陣R

R=\frac{1}{n-1}XX^T

(3)求Rk個特征值\lambda_i和對應(yīng)的k個單位特征向量\alpha_i

(5)計算n個樣本的k個主成分值:

y_{ij}=\alpha_i^T x_j,\quad i=1,2,\dots,k,\quad j=1,2,\dots,n

4钞螟、數(shù)據(jù)矩陣的奇異值分解算法

給定樣本矩陣X兔甘,并假設(shè)有k個主成分。

定義一個新的n\times m矩陣X^{'}:

X^{'}=\frac{1}{\sqrt{n-1}}X^T

X^{'}的每一列均值為0鳞滨,不難得知:

{X^{'}}^TX^{'}=\frac{1}{n-1}X^TX

{X^{'}}^TX^{'}等于X的協(xié)方差陣S_X

S_X={X^{'}}^TX^{'}

所以問題轉(zhuǎn)化為求矩陣{X{'}}TX^{'}的特征值和特征向量洞焙。

假設(shè)X^{'}的截斷奇異值分解為X^{'}=U\Sigma V^T,那么V的列向量就是{X^{'}}^TX^{'}的單位特征向量。因此V的列向量就是X的主成分澡匪。

具體算法如下:

(1)構(gòu)造新的n\times m矩陣X^{'}

X^{'}=\frac{1}{\sqrt{n-1}}X^T

(2)對矩陣X^{'}進行截斷奇異值分解:

X^{'}=U\Sigma V^T

(3)求k\times n樣本主成分矩陣:

Y=V^T X

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末熔任,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子唁情,更是在濱河造成了極大的恐慌疑苔,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件甸鸟,死亡現(xiàn)場離奇詭異惦费,居然都是意外死亡,警方通過查閱死者的電腦和手機抢韭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門薪贫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人刻恭,你說我怎么就攤上這事瞧省。” “怎么了鳍贾?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵鞍匾,是天一觀的道長。 經(jīng)常有香客問我贾漏,道長候学,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任纵散,我火速辦了婚禮梳码,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘伍掀。我一直安慰自己掰茶,他們只是感情好,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布蜜笤。 她就那樣靜靜地躺著濒蒋,像睡著了一般。 火紅的嫁衣襯著肌膚如雪把兔。 梳的紋絲不亂的頭發(fā)上沪伙,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天,我揣著相機與錄音县好,去河邊找鬼围橡。 笑死,一個胖子當著我的面吹牛缕贡,可吹牛的內(nèi)容都是我干的翁授。 我是一名探鬼主播拣播,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼收擦!你這毒婦竟也來了贮配?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤塞赂,失蹤者是張志新(化名)和其女友劉穎泪勒,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體减途,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡酣藻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了鳍置。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡送淆,死狀恐怖税产,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情偷崩,我是刑警寧澤辟拷,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站阐斜,受9級特大地震影響衫冻,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜谒出,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一隅俘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧笤喳,春花似錦为居、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至呜象,卻和暖如春膳凝,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背恭陡。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工蹬音, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人子姜。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓祟绊,卻偏偏與公主長得像楼入,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子牧抽,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345