VIDEO |
---|
[機(jī)器學(xué)習(xí)入門(mén)] 李弘毅機(jī)器學(xué)習(xí)筆記-16 (Unsupervised Learning: Neighbor Embedding攻冷;無(wú)監(jiān)督學(xué)習(xí):鄰域嵌套)
VIDEO |
---|
Manifold Learning
我們要做的是非線性的降維切揭,data是分布在低維空間里面哩罪,只是被扭曲到了高維空間授霸。
比如地球的表面是一個(gè)二維平面,但是被塞到一個(gè)三維空間中际插。
Manifold就是把S型攤平碘耳,將高維空間內(nèi)的低維數(shù)據(jù)展開(kāi),這樣才能計(jì)算點(diǎn)對(duì)點(diǎn)的距離框弛。
這樣的方法有很多辛辨。
Locally Linear Embedding (LLE)
在原來(lái)的空間里面,有某點(diǎn)Xi,然后找到它的neighborXj斗搞,通過(guò)minimizing來(lái)找出Wij指攒,再在降維后的空間里,找到基于不變的Wij參數(shù)的Zi和Zj僻焚。
用白居易的長(zhǎng)恨歌來(lái)形象比喻:
轉(zhuǎn)換過(guò)程:找到一個(gè)Zi允悦,在原有的Wij不變的參數(shù)下,能有一組鄰居使該公式minimize
LLE要選一個(gè)剛剛好的neighbor虑啤,K太大并不好隙弛,此時(shí)會(huì)有一些關(guān)系太弱的點(diǎn),transform后不能被keep住狞山,也就是說(shuō)他們不是“比翼鳥(niǎo)”與“連理枝”全闷。
Laplacian Eigenmaps
這是另一個(gè)方法。
T-distributed Stochastic Neighbor Embedding (t-SNE)
t-SNE要解決什么樣的問(wèn)題呢萍启?
前面的有一個(gè)最大的問(wèn)題:他們只假設(shè)了相似的點(diǎn)接近总珠,但沒(méi)有說(shuō)不同的點(diǎn)就一定要分離。
兩個(gè)例子勘纯,都擠成一團(tuán)姚淆。
那么t-SNE是怎樣計(jì)算的?
t-SNE similarity的神妙選擇屡律,從圖中可以看出腌逢,使較遠(yuǎn)的data point距離被拉的更大。
效果如圖: