以人臉識(shí)別為例沮协,假設(shè)人臉維數(shù)是2020維的,那么在流形上認(rèn)為人臉是2020維這個(gè)高維空間上的一個(gè)點(diǎn)轩拨,可以認(rèn)為這兩個(gè)人臉頭像經(jīng)過(guò)不同光照內(nèi)嵌到2020維的高維空間中。
傳統(tǒng)降維方法
經(jīng)典的降維算法是PCA(主成分分析)和多維尺度分析(MDS)驶赏,兩個(gè)算法都能保證高維輸入空間的位于線性子空間上的真實(shí)數(shù)據(jù)結(jié)構(gòu)。
PCA? 以方差大小衡量信息量的多少既鞠,認(rèn)為方差正比于信息量煤傍,其基本思想是通過(guò)線性變換盡可能地保留方差大的數(shù)據(jù)量。
MDS ? 在低維嵌入空間中盡量保持原始數(shù)據(jù)任意兩點(diǎn)之間的歐式距離嘱蛋。
缺點(diǎn)
PCA蚯姆、MDS方法都是線性降維方法,對(duì)于包含非線性結(jié)構(gòu)的數(shù)據(jù)洒敏,往往無(wú)法起到作用龄恋。
非線性流形需要解決的問(wèn)題
對(duì)于線性方法無(wú)法解決的非線性空間結(jié)構(gòu),我們引入流形概念凶伙,將高位非線性空間引入到流形中郭毕,那么在高維非線性空間度量問(wèn)題就變成了流形上的度量問(wèn)題。
- 如何測(cè)量流形上的幾何距離镊靴?
- 如何將高維空間映射到三維子空間铣卡?
流形方法
首先將歐式距離轉(zhuǎn)換成測(cè)地距離,測(cè)地距離由測(cè)地線確定偏竟,測(cè)地線可視作直線在彎曲空間中的推廣煮落,在有度規(guī)定義存在時(shí),測(cè)地線可以定義為空間中兩點(diǎn)的局部最短路徑踊谋。
? 因?yàn)榱餍锌臻g的局部鄰域和歐式空間同胚蝉仇,因此測(cè)地距離可以通過(guò)局部鄰近點(diǎn)的歐氏距離的積分得到。
? 假設(shè)領(lǐng)域點(diǎn)的集合殖蚕,相鄰點(diǎn)距離為
轿衔,那么從點(diǎn)
到點(diǎn)
的距離為:
? 即,結(jié)果如下圖所示睦疫。
? 因此害驹,我們可以得到實(shí)現(xiàn)方法
引入圖論框架,將數(shù)據(jù)作為圖中的點(diǎn)蛤育,點(diǎn)與其鄰近點(diǎn)之間使用邊來(lái)連接宛官,逼近的測(cè)地線使用最短路徑代替。
ISOMap方法
步驟如下:
-
構(gòu)建鄰接圖
(復(fù)雜度:
)
基于輸入空間中
中流形
的鄰近點(diǎn)對(duì)
之間的歐氏距離
瓦糕,選取每個(gè)樣本點(diǎn)距離最近的
個(gè)點(diǎn)(K-ISOMap)或在樣本點(diǎn)選定半徑為
的圓內(nèi)所有點(diǎn)為該樣本點(diǎn)的近鄰點(diǎn)底洗,將這些近鄰點(diǎn)用邊連接,將流形
構(gòu)建為一個(gè)反映鄰近關(guān)系的帶權(quán)流通圖
;
-
計(jì)算所有點(diǎn)對(duì)之間的最短路徑(復(fù)雜度:
)
通過(guò)計(jì)算鄰接圖
上任意兩點(diǎn)之間的最短路徑逼近流形上的測(cè)地距離矩陣
咕娄,實(shí)現(xiàn)最短路徑的常用算法有Floyd或者Dijkstra亥揖。
-
構(gòu)建k維坐標(biāo)向量(復(fù)雜度:
)
根據(jù)圖距離矩陣
使用經(jīng)典MDS算法在d維空間Y中構(gòu)造數(shù)據(jù)的嵌入坐標(biāo)表示(如下圖C所示),選擇低維空間Y的任意兩個(gè)嵌入坐標(biāo)向量
與
使得代價(jià)函數(shù)最惺ダ铡:
式2的全局最優(yōu)解可以通過(guò)將坐標(biāo)向量設(shè)置為距離矩陣
前
個(gè)特征值對(duì)應(yīng)的特征向量來(lái)得到费变。
Appendix
流形聚類算法 K-manifolds
SSC算法