PCA只對符合高斯分布的樣本點(diǎn)比較有效
ICA對于高斯分布的樣本點(diǎn)無效腕唧,對于其他分布的有效。
回顧我們之前介紹的《模型選擇和規(guī)則化》器一,里面談到的特征選擇的問題。但在那篇中要剔除的特征主要是和類標(biāo)簽無關(guān)的特征。比如“學(xué)生的名字”就和他的“成績”無關(guān)笼痛,使用的是互信息的方法。
這里的,是想把與類標(biāo)簽有關(guān)的缨伊,但是相似的特征組成一個(gè)好的摘刑。比如在語義分析中,learn和study是類似的刻坊,出現(xiàn)的頻率也類似枷恕,能不能合為一個(gè)特征呢?
而這里的特征很多是和類標(biāo)簽有關(guān)的谭胚,但里面存在噪聲或者冗余徐块。在這種情況下,需要一種特征降維的方法來減少特征數(shù)漏益,減少噪音和冗余蛹锰,減少過度擬合的可能性。
PCA的思想是將n維特征映射到k維上(k<n)绰疤,這k維是全新的正交特征铜犬。這k維特征稱為主元,是重新構(gòu)造出來的k維特征轻庆,而不是簡單地從n維特征中去除其余n-k維特征癣猾。也達(dá)到了降維的目的。
一余爆、PCA步驟
1纷宇、數(shù)據(jù)處理,求均值蛾方,相減像捶,替換,求方差桩砰,替換
這里第一步數(shù)據(jù)處理的意義拓春,就是想讓投影后的樣例之間,均值為 0亚隅。
第二步數(shù)據(jù)處理的意義就是歸一化了硼莽,比如樣例中,一個(gè)特征是汽車速度煮纵,一個(gè)特征是汽車座位數(shù)懂鸵,顯然第二個(gè)方差比第一個(gè)小。這樣協(xié)方差矩陣中的值會(huì)受到影響行疏。
所以需要?dú)w一化匆光。
2、求特征協(xié)方差矩陣
3隘擎、求協(xié)方差矩陣的特征值和特征向量
4殴穴、將特征值按照從大到小的順序排序,選擇其中最大的k個(gè)货葬,然后將其對應(yīng)的k個(gè)特征向量分別作為列向量組成特征向量矩陣采幌。
上面的如果k=1,那么只會(huì)留下這里的水平軸震桶,軸上是所有點(diǎn)在該軸的投影休傍。
5、將樣本點(diǎn)投影到選取的特征向量上蹲姐。
假設(shè)樣例數(shù)為m磨取,特征數(shù)為n,減去均值后的樣本矩陣為DataAdjust(mn)柴墩,協(xié)方差矩陣是nn忙厌,選取的k個(gè)特征向量組成的矩陣為EigenVectors(n*k)。那么投影后的數(shù)據(jù)FinalData為
----------------------------------------------------------------------------------------
這樣江咳,就將原始樣例的n維特征變成了k維逢净,這k維就是原始特征在k維上的投影。
----------------------------------------------------------------------------------------
理論基礎(chǔ)
參考Jerrylead圖歼指。
在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差爹土,噪聲有較小的方差,信噪比就是信號(hào)與噪聲的方差比踩身,越大越好胀茵。如前面的圖,樣本在橫軸上的投影方差較大挟阻,在縱軸上的投影方差較小琼娘,那么認(rèn)為縱軸上的投影是由噪聲引起的。
因此我們認(rèn)為附鸽,最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后脱拼,每一維上的樣本方差都很大。
我們要找到一個(gè)最佳的u拒炎,使得樣例的特征x在u上投影后挪拟,方差最大。經(jīng)過來回化簡(參考講義)击你,我們得到
λ即作為特征值玉组,又作為特征點(diǎn)投影后的方差。
根據(jù)上面丁侄,我們想要得到一個(gè)最佳的u惯雳,使得投影后的方差最大。那么也就是說鸿摇,上式中石景,λ最大時(shí)(也就是方差最大時(shí))的u即為所求。
此時(shí),u是協(xié)方差矩陣的特征值λ對應(yīng)的特征向量潮孽。解答完畢揪荣。
------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------
二、ICA步驟
1往史、問題 經(jīng)典的雞尾酒宴會(huì)問題
s是人發(fā)出的信號(hào)仗颈,x是得到的一組數(shù)據(jù),A是一個(gè)未知的混合矩陣椎例,用來疊加信號(hào)s挨决。于是有
這里x(i)的每個(gè)分量都是由s(i)的分量線性表示。A和s都是未知的订歪,x是已知的脖祈,我們要想辦法根據(jù)x來推出s。這個(gè)過程也稱作為盲信號(hào)分離刷晋。
先表達(dá)出每個(gè)信號(hào)源s(i)(即我們最終想要得到的每個(gè)人說話的聲音):
2盖高、ICA的不確定性
從上面可知,我們只知道一個(gè)x掏秩,其余兩個(gè)變量w和s都是不知道的或舞。在沒有先驗(yàn)知識(shí)的情況下,是無法同時(shí)確定這兩個(gè)相關(guān)參數(shù)的蒙幻。
還有映凳,在已知先驗(yàn)知識(shí)的情況下,如果信號(hào)服從高斯分布邮破,根據(jù)推斷诈豌,也是不能確定原信號(hào)的。
那么抒和,我們就給s假設(shè)出一個(gè)合理的分布矫渔,這樣,就可以求得p(x)
知道了p(s)摧莽,x也已經(jīng)有庙洼,和概率有關(guān),在給定采樣后的訓(xùn)練樣本以后镊辕,做對數(shù)似然估計(jì)油够,可得到
對W求導(dǎo),就可得到w的迭代公式征懈。
迭代求出W后石咬,便可以用s=Wx來還原出原始信號(hào)。
------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------
ICA和PCA的對比
PCA主成分分析==>主要的k個(gè)特征
ICA獨(dú)立成分分析==>獨(dú)立的信號(hào)
ICA是盲信號(hào)分析領(lǐng)域的一個(gè)強(qiáng)有力方法卖哎,也是求非高斯分布數(shù)據(jù)隱含因子的方法鬼悠。
從之前我們熟悉的樣本-特征角度看删性,我們使用ICA的前提條件是,認(rèn)為樣本數(shù)據(jù)由獨(dú)立非高斯分布的隱含因子產(chǎn)生焕窝,隱含因子個(gè)數(shù)等于特征數(shù)蹬挺,我們要求的是隱含因子。
而PCA認(rèn)為特征是由k個(gè)正交的特征(也可看作是隱含因子)生成的袜啃,我們要求的是數(shù)據(jù)在新特征上的投影汗侵。
同是因子分析幸缕,一個(gè)用來更適合用來還原信號(hào)(因?yàn)樾盘?hào)比較有規(guī)律群发,經(jīng)常不是高斯分布的),一個(gè)更適合用來降維(用那么多特征干嘛发乔,k個(gè)正交的即可)熟妓。有時(shí)候也需要組合兩者一起使用。
3栏尚、線性判別分析(LDA)
PCA降維沒有將類別標(biāo)簽考慮進(jìn)去起愈,屬于無監(jiān)督的。
而LDA降維译仗,將類別標(biāo)簽考慮了進(jìn)去抬虽,使得投影后的不同類樣本點(diǎn)越分開越好(不同類的中心點(diǎn)距離越大越好),同類的越聚集越好(散列度越小越好)纵菌。
LDA效果:將3維空間上的球體樣本點(diǎn)投影到二維上阐污,W1相比W2能夠獲得更好的分離效果。
PCA與LDA的降維對比
PCA選擇樣本點(diǎn)投影具有最大方差的方向咱圆,LDA選擇分類性能最好的方向笛辟。