從1維到3維空民,為我們的感覺是:維度越高,分類性能越優(yōu)酪呻。然而减宣,維度過高將導(dǎo)致一定的問題:在一維特征空間下,我們假設(shè)一個(gè)維度的寬度為5個(gè)單位玩荠,這樣樣本密度為
10/5=2;在2維特征空間下蚪腋,10個(gè)樣本所分布的空間大小55=25丰歌,這樣樣本密度為
10/25=0.4;在3維特征空間下,10個(gè)樣本分布的空間大小為55*5=125屉凯,樣本密度就為
10/125=0.08立帖。
如果繼續(xù)增加特征數(shù)量,隨著維度的增加悠砚,樣本將變得越來越稀疏晓勇,在這種情況下,也更容易找到一個(gè)超平面將目標(biāo)分開灌旧。然而绑咱,如果我們將高維空間向低維空間投影,高維空間隱藏的問題將會(huì)呈現(xiàn)出來枢泰。
過多的特征導(dǎo)致的過擬合現(xiàn)象:訓(xùn)練集上表現(xiàn)良好描融,但是對(duì)新數(shù)據(jù)缺乏泛化能力。
總結(jié)
距離測量開始失去其在高維空間中測量的有效性衡蚂,由于分類器取決于這些距離測量窿克,因此在較低維空間中分類通常更容易,其中較少特征用于描述感興趣對(duì)象毛甲。
如果理論無限數(shù)量的訓(xùn)練樣本可用年叮,則維度的詛咒不適用,我們可用簡單的使用無數(shù)個(gè)特征來獲得完美的分類玻募。訓(xùn)練數(shù)據(jù)的大小越小只损,應(yīng)使用的功能就越少。如果N個(gè)訓(xùn)練樣本足以覆蓋單位區(qū)間大小的1D特征空間七咧,則需要N ^ 2個(gè)樣本來覆蓋具有相同密度的2D特征空間跃惫,并且在3D特征空間中需要N ^ 3個(gè)樣本。換句話說艾栋,所需的訓(xùn)練實(shí)例數(shù)量隨著使用的維度數(shù)量呈指數(shù)增長爆存。