主成分分析(PCA)竹揍、獨(dú)立成分分析(ICA)和線性判別分析(LDA)

PCA只對符合高斯分布的樣本點(diǎn)比較有效
ICA對于高斯分布的樣本點(diǎn)無效腕唧,對于其他分布的有效。

回顧我們之前介紹的《模型選擇和規(guī)則化》器一,里面談到的特征選擇的問題。但在那篇中要剔除的特征主要是和類標(biāo)簽無關(guān)的特征。比如“學(xué)生的名字”就和他的“成績”無關(guān)笼痛,使用的是互信息的方法。

這里的,是想把與類標(biāo)簽有關(guān)的缨伊,但是相似的特征組成一個(gè)好的摘刑。比如在語義分析中,learn和study是類似的刻坊,出現(xiàn)的頻率也類似枷恕,能不能合為一個(gè)特征呢?

而這里的特征很多是和類標(biāo)簽有關(guān)的谭胚,但里面存在噪聲或者冗余徐块。在這種情況下,需要一種特征降維的方法來減少特征數(shù)漏益,減少噪音和冗余蛹锰,減少過度擬合的可能性。

PCA的思想是將n維特征映射到k維上(k<n)绰疤,這k維是全新的正交特征铜犬。這k維特征稱為主元,是重新構(gòu)造出來的k維特征轻庆,而不是簡單地從n維特征中去除其余n-k維特征癣猾。也達(dá)到了降維的目的。

一余爆、PCA步驟

1纷宇、數(shù)據(jù)處理,求均值蛾方,相減像捶,替換,求方差桩砰,替換

這里第一步數(shù)據(jù)處理的意義拓春,就是想讓投影后的樣例之間,均值為 0亚隅。
第二步數(shù)據(jù)處理的意義就是歸一化了硼莽,比如樣例中,一個(gè)特征是汽車速度煮纵,一個(gè)特征是汽車座位數(shù)懂鸵,顯然第二個(gè)方差比第一個(gè)小。這樣協(xié)方差矩陣中的值會(huì)受到影響行疏。
所以需要?dú)w一化匆光。

2、求特征協(xié)方差矩陣

3隘擎、求協(xié)方差矩陣的特征值和特征向量

4殴穴、將特征值按照從大到小的順序排序,選擇其中最大的k個(gè)货葬,然后將其對應(yīng)的k個(gè)特征向量分別作為列向量組成特征向量矩陣采幌。

上面的如果k=1,那么只會(huì)留下這里的水平軸震桶,軸上是所有點(diǎn)在該軸的投影休傍。

5、將樣本點(diǎn)投影到選取的特征向量上蹲姐。

假設(shè)樣例數(shù)為m磨取,特征數(shù)為n,減去均值后的樣本矩陣為DataAdjust(mn)柴墩,協(xié)方差矩陣是nn忙厌,選取的k個(gè)特征向量組成的矩陣為EigenVectors(n*k)。那么投影后的數(shù)據(jù)FinalData為

----------------------------------------------------------------------------------------
這樣江咳,就將原始樣例的n維特征變成了k維逢净,這k維就是原始特征在k維上的投影。
----------------------------------------------------------------------------------------

理論基礎(chǔ)

參考Jerrylead圖歼指。

在信號(hào)處理中認(rèn)為信號(hào)具有較大的方差爹土,噪聲有較小的方差,信噪比就是信號(hào)與噪聲的方差比踩身,越大越好胀茵。如前面的圖,樣本在橫軸上的投影方差較大挟阻,在縱軸上的投影方差較小琼娘,那么認(rèn)為縱軸上的投影是由噪聲引起的。

因此我們認(rèn)為附鸽,最好的k維特征是將n維樣本點(diǎn)轉(zhuǎn)換為k維后脱拼,每一維上的樣本方差都很大。

我們要找到一個(gè)最佳的u拒炎,使得樣例的特征x在u上投影后挪拟,方差最大。經(jīng)過來回化簡(參考講義)击你,我們得到

λ即作為特征值玉组,又作為特征點(diǎn)投影后的方差。

根據(jù)上面丁侄,我們想要得到一個(gè)最佳的u惯雳,使得投影后的方差最大。那么也就是說鸿摇,上式中石景,λ最大時(shí)(也就是方差最大時(shí))的u即為所求。

此時(shí),u是協(xié)方差矩陣的特征值λ對應(yīng)的特征向量潮孽。解答完畢揪荣。

------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------

二、ICA步驟

1往史、問題 經(jīng)典的雞尾酒宴會(huì)問題

s是人發(fā)出的信號(hào)仗颈,x是得到的一組數(shù)據(jù),A是一個(gè)未知的混合矩陣椎例,用來疊加信號(hào)s挨决。于是有

這里x(i)的每個(gè)分量都是由s(i)的分量線性表示。A和s都是未知的订歪,x是已知的脖祈,我們要想辦法根據(jù)x來推出s。這個(gè)過程也稱作為盲信號(hào)分離刷晋。

先表達(dá)出每個(gè)信號(hào)源s(i)(即我們最終想要得到的每個(gè)人說話的聲音):

2盖高、ICA的不確定性

從上面可知,我們只知道一個(gè)x掏秩,其余兩個(gè)變量w和s都是不知道的或舞。在沒有先驗(yàn)知識(shí)的情況下,是無法同時(shí)確定這兩個(gè)相關(guān)參數(shù)的蒙幻。

還有映凳,在已知先驗(yàn)知識(shí)的情況下,如果信號(hào)服從高斯分布邮破,根據(jù)推斷诈豌,也是不能確定原信號(hào)的。

那么抒和,我們就給s假設(shè)出一個(gè)合理的分布矫渔,這樣,就可以求得p(x)

知道了p(s)摧莽,x也已經(jīng)有庙洼,和概率有關(guān),在給定采樣后的訓(xùn)練樣本以后镊辕,做對數(shù)似然估計(jì)油够,可得到

對W求導(dǎo),就可得到w的迭代公式征懈。

迭代求出W后石咬,便可以用s=Wx來還原出原始信號(hào)。

------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------

ICA和PCA的對比

PCA主成分分析==>主要的k個(gè)特征
ICA獨(dú)立成分分析==>獨(dú)立的信號(hào)

ICA是盲信號(hào)分析領(lǐng)域的一個(gè)強(qiáng)有力方法卖哎,也是求非高斯分布數(shù)據(jù)隱含因子的方法鬼悠。
從之前我們熟悉的樣本-特征角度看删性,我們使用ICA的前提條件是,認(rèn)為樣本數(shù)據(jù)由獨(dú)立非高斯分布的隱含因子產(chǎn)生焕窝,隱含因子個(gè)數(shù)等于特征數(shù)蹬挺,我們要求的是隱含因子。

而PCA認(rèn)為特征是由k個(gè)正交的特征(也可看作是隱含因子)生成的袜啃,我們要求的是數(shù)據(jù)在新特征上的投影汗侵。

同是因子分析幸缕,一個(gè)用來更適合用來還原信號(hào)(因?yàn)樾盘?hào)比較有規(guī)律群发,經(jīng)常不是高斯分布的),一個(gè)更適合用來降維(用那么多特征干嘛发乔,k個(gè)正交的即可)熟妓。有時(shí)候也需要組合兩者一起使用。

3栏尚、線性判別分析(LDA)

PCA降維沒有將類別標(biāo)簽考慮進(jìn)去起愈,屬于無監(jiān)督的。
而LDA降維译仗,將類別標(biāo)簽考慮了進(jìn)去抬虽,使得投影后的不同類樣本點(diǎn)越分開越好(不同類的中心點(diǎn)距離越大越好),同類的越聚集越好(散列度越小越好)纵菌。

LDA效果:將3維空間上的球體樣本點(diǎn)投影到二維上阐污,W1相比W2能夠獲得更好的分離效果。

PCA與LDA的降維對比

PCA選擇樣本點(diǎn)投影具有最大方差的方向咱圆,LDA選擇分類性能最好的方向笛辟。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市序苏,隨后出現(xiàn)的幾起案子手幢,更是在濱河造成了極大的恐慌,老刑警劉巖忱详,帶你破解...
    沈念sama閱讀 216,651評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件围来,死亡現(xiàn)場離奇詭異,居然都是意外死亡匈睁,警方通過查閱死者的電腦和手機(jī)监透,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來软舌,“玉大人才漆,你說我怎么就攤上這事》鸬悖” “怎么了醇滥?”我有些...
    開封第一講書人閱讀 162,931評論 0 353
  • 文/不壞的土叔 我叫張陵黎比,是天一觀的道長。 經(jīng)常有香客問我鸳玩,道長阅虫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,218評論 1 292
  • 正文 為了忘掉前任不跟,我火速辦了婚禮颓帝,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘窝革。我一直安慰自己购城,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評論 6 388
  • 文/花漫 我一把揭開白布虐译。 她就那樣靜靜地躺著瘪板,像睡著了一般。 火紅的嫁衣襯著肌膚如雪漆诽。 梳的紋絲不亂的頭發(fā)上侮攀,一...
    開封第一講書人閱讀 51,198評論 1 299
  • 那天,我揣著相機(jī)與錄音厢拭,去河邊找鬼兰英。 笑死,一個(gè)胖子當(dāng)著我的面吹牛供鸠,可吹牛的內(nèi)容都是我干的畦贸。 我是一名探鬼主播,決...
    沈念sama閱讀 40,084評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼回季,長吁一口氣:“原來是場噩夢啊……” “哼家制!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起泡一,我...
    開封第一講書人閱讀 38,926評論 0 274
  • 序言:老撾萬榮一對情侶失蹤颤殴,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后鼻忠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體涵但,經(jīng)...
    沈念sama閱讀 45,341評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評論 2 333
  • 正文 我和宋清朗相戀三年帖蔓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了矮瘟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,731評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡塑娇,死狀恐怖澈侠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情埋酬,我是刑警寧澤哨啃,帶...
    沈念sama閱讀 35,430評論 5 343
  • 正文 年R本政府宣布烧栋,位于F島的核電站,受9級特大地震影響拳球,放射性物質(zhì)發(fā)生泄漏审姓。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評論 3 326
  • 文/蒙蒙 一祝峻、第九天 我趴在偏房一處隱蔽的房頂上張望魔吐。 院中可真熱鬧,春花似錦莱找、人聲如沸酬姆。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽轴踱。三九已至,卻和暖如春谚赎,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背诱篷。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評論 1 269
  • 我被黑心中介騙來泰國打工壶唤, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人棕所。 一個(gè)月前我還...
    沈念sama閱讀 47,743評論 2 368
  • 正文 我出身青樓闸盔,卻偏偏與公主長得像,于是被迫代替她去往敵國和親琳省。 傳聞我的和親對象是個(gè)殘疾皇子迎吵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評論 2 354

推薦閱讀更多精彩內(nèi)容