1篮昧、引言
在高維空間中往往會(huì)出現(xiàn)數(shù)據(jù)樣本稀疏,距離計(jì)算困難等問題笋妥,這是所有機(jī)器學(xué)習(xí)算法共同面臨的嚴(yán)重障礙懊昨,被稱為“維數(shù)災(zāi)難”。
緩解維數(shù)災(zāi)難的一個(gè)重要途徑是降維春宣,即通過某用數(shù)學(xué)變換將原始高維屬性空間變?yōu)橐粋€(gè)低維“子空間”酵颁。在這個(gè)子空間中樣本密度大幅度提高,距離計(jì)算也變得更為容易月帝。為什么能進(jìn)行降維材义?因?yàn)樵诤芏鄷r(shí)候,人們觀測或收集到的數(shù)據(jù)樣本雖是高維的嫁赏,但是與學(xué)習(xí)任務(wù)密切相關(guān)的也許僅是某個(gè)低維分布其掂,即高維空間中的一個(gè)低維嵌入。下圖給出了一個(gè)直觀的例子潦蝇,原是高維空間中的樣本點(diǎn)款熬,在這個(gè)低維嵌入子空間中更容易進(jìn)行學(xué)習(xí)。
2攘乒、多維縮放MDS算法
若要求原始空間中樣本之間的距離在低維空間中得以保持贤牛,就像上面的圖一樣,我們就得到了多維縮放(Multiple Dimensional Scaling)算法则酝。這是一種經(jīng)典的降維算法殉簸,下面我們進(jìn)行一個(gè)簡單的介紹:
上面有些細(xì)節(jié)可能剛開始看的時(shí)候有些難以理解,不過也沒關(guān)系,動(dòng)一動(dòng)手般卑, 其實(shí)也沒有那么難算: