流形學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種镀钓,這種方法是對數(shù)據(jù)本身特征的一種挖掘,是信號處理領(lǐng)域最經(jīng)典的方法之一镀迂。
流形學(xué)習(xí)的本質(zhì)是用低維度數(shù)據(jù)分布去解釋高緯度數(shù)據(jù)丁溅,也可以把它理解成尋找一個(gè)高維數(shù)據(jù)空間到低維數(shù)據(jù)空間的映射。舉個(gè)栗子探遵,空間中有一個(gè)三維圓錐物體窟赏,一個(gè)二維世界的人想去觀測這個(gè)物體,用什么樣的方法呢箱季?如果圓錐位于它的正上方饰序,二維人只能觀測到一個(gè)圓形的投影,它也無法區(qū)分這個(gè)投影是屬于一個(gè)圓錐還是一個(gè)圓球规哪。此時(shí)求豫,我們旋轉(zhuǎn)一下這個(gè)物體,讓三角形部分投影到觀測面上诉稍,二維人可以揣測這個(gè)物體具有一個(gè)三角形的尖端和一個(gè)弧形的底部蝠嘉。所有我們在流形學(xué)習(xí)中用到的方法,比如PCA杯巨, ICA蚤告,或LDA類似于旋轉(zhuǎn)這個(gè)圓錐的“上帝之手”,讓圓錐的特征更多的投影到二維觀測面上服爷。
PCA通過計(jì)算數(shù)據(jù)的covariance matrix尋找具有最大方差的維度向量杜恰,如果L是特征向量,PCA使得樣本紅點(diǎn)到L的距離和(sum(d’))最小仍源。
有時(shí)候數(shù)據(jù)的分布不是高斯分布心褐,在非高斯分布的情況下PCA得到的維度向量可能并不是最優(yōu)解,這時(shí)候不能用方差作為衡量標(biāo)準(zhǔn)笼踩,可以使用維度間的正交假設(shè)逗爹,即ICA。如下圖嚎于,數(shù)據(jù)呈十字而非高斯分布掘而,PCA得到的顯然并非主軸方向挟冠,而ICA則得到正交的主軸。
PCA和ICA是非監(jiān)督學(xué)習(xí)袍睡,而LAD是監(jiān)督學(xué)習(xí)知染,它需要樣本分類(label)的先驗(yàn)信息,LAD最大程度的保存樣本的分類信息斑胜,尋找對數(shù)據(jù)分割最好的分類面持舆。
在舉個(gè)例子,load mnist的部分?jǐn)?shù)據(jù)集
分別用三種方法處理:
PCA對數(shù)據(jù)分類起了一定作用伪窖,但類別的邊緣并不清晰逸寓;LAD對類別起到最大分割的效果;ICA對類別的分割類似LAD覆山,但是它不需要數(shù)據(jù)的標(biāo)簽作為先驗(yàn)信息竹伸。