Manifold Learning
我們有時(shí)候的特征其實(shí)是低維度的放到高緯度上去箫章,比如地球表面是2維的嗤堰,但是被放到了3維空間浴骂,比如左下的S曲面,其實(shí)可以展開到2維平面上去梦裂,接下來就方便我們進(jìn)一步計(jì)算分類等等
我們有如下幾個(gè)降維方法
Locally Linear Emedding(LLE)局部線性嵌入
具體是是怎么做的呢似枕,我們點(diǎn)x和周圍的點(diǎn)xj,給xj每個(gè)點(diǎn)加權(quán)wij求和年柠,使其和xi最接近凿歼,然后投影到向量zi,zj(已降維),使他們之間的關(guān)系系數(shù)還是wij。LLE我們并不一定明確其函數(shù)是如何實(shí)現(xiàn)降維答憔。
我們LLE就是找到維度低的zi,zj使得投影過去的線性表示zj和zi最接近
LLE最K選幾有一定要求牵咙,K太小不好,K太大了沒有很近才分布到一起攀唯,最終的點(diǎn)還是沒有很好分類
Laplacian Eigemmaps拉普拉斯特征圖
我們之前講過smoothness洁桌,2個(gè)點(diǎn)是否一類不是計(jì)算距離而是通過是否平滑連接到一起
我們之前講半監(jiān)督學(xué)習(xí)的時(shí)候講過如果x1,x2在高密度區(qū)域連接,那他們很可能是有一個(gè)標(biāo)簽侯嘀,就有了平滑度的公式另凌,等等
我們同樣可以對無監(jiān)督學(xué)習(xí)采用smoothness公式,如果要求最小戒幔,但這有沒有問題呢吠谢?我們讓zi=zj=0不就都最小了嗎,所以無監(jiān)督學(xué)習(xí)我們還需要引入一些條件诗茎,如果z的維度是M維工坊,我們希望取得N個(gè)點(diǎn)的空間是M維空間(即不希望N個(gè)點(diǎn)的空間比M維還小)敢订。有人又會說我們半監(jiān)督學(xué)習(xí)并沒有這個(gè)要求啊王污,因?yàn)榘氡O(jiān)督學(xué)習(xí)我們引入了損失函數(shù)和平滑函數(shù),不光由平滑函數(shù)自己決定楚午。
我們把z求出來事實(shí)上和之前求L的特征向量一樣昭齐,只不過是特征值比較小的特征向量,我們得到這樣的向量再做聚類矾柜,就會叫做Spectral Clustering
接下來我們講TSNE阱驾,我們之前的方法的確實(shí)現(xiàn)了將距離近的靠在了一起,但是并么有讓距離遠(yuǎn)的分開怪蔑,比如下圖左MNIST和下圖右COIL-20圖片里覆,圖中的像8字的環(huán)形是圖片旋轉(zhuǎn)的效果。
TSNE我們計(jì)算xi缆瓣,xj的相似度后除以xi和空間所有其他點(diǎn)相似度的和喧枷,就得到了一般化的分布,我們同樣可以計(jì)算zi,zj我們就是需要他們的分布盡量一致捆愁,就需要梯度下降求割去,但是相似度計(jì)算量太大,我們往往開始需要先降維(比如PCA)昼丑,然后再通過TSNE降維
我們知道xi,xj的相似度公式呻逆,如果是SNE,那z的相似度公式和x一致菩帝,但是TSNE采用了新的相似度公式
這樣有什么好處呢咖城,我們看下圖茬腿,我們x有一定的差異時(shí),反應(yīng)在z上就能很大宜雀,所以采用新的相似度公式
所以我們TSNE在MNIST和COIL-20就會有比較明顯的分類效果切平,COIL-20有的圈圈就是圖像不同旋轉(zhuǎn)方向的結(jié)果