1宝与、低維嵌入
事實上喜滨,在高維情形下出現的數據樣本稀疏捉捅、距離計算困難等問題,是所有機器學習方法共同面臨的嚴重障礙虽风,被稱為“維數災難”棒口。緩解維數災難的一個重要途徑是降維寄月,即通過某種數學變換將原始高維屬性空間轉變?yōu)橐粋€低維的“子空間”,在這個子空間中樣本密度大幅度提高无牵,計算距離也變得更加容易漾肮。
2、多維放縮(MDS-multiple dimensional scaling)
若要求原始空間樣本之間的距離在低維空間中得以保持茎毁,就得到一種典型的降維方法MDS克懊。
假定個樣本在原始空間的距離矩陣為,其第行列的元素為樣本到的距離。我們的目標是獲得樣本在低維維空間的表示七蜘,且任意兩個樣本在維空間的歐氏距離等于原始空間的歐式距離谭溉,即。其中
表明第i個樣本在空間的坐標
令,其中為降維后樣本的內積矩陣橡卤,,有
為了便于討論扮念,令降維后的樣本被中心化,那么就可以得到的行于列之和均為零碧库,即柜与。易知道:
其中表示矩陣的跡,.則
因為所有的都是已知的嵌灰,那么都可以算出來弄匕,那么就可以根據原空間的距離矩陣求取維空間的內積矩陣。
接下來對做特征分解就可以啦伞鲫,,其中為特征值構成的對角矩陣粘茄,,為特征向量矩陣,假定其中有個非零特征值秕脓,它們構成對角矩陣柒瓣,令表示相應的特征向量矩陣,則可表示為
在現實應用中為了有效的降維吠架,往往不需要降維后的空間距離與原空間相同芙贫,大致相近即可,此時可取個最大特征值構成的對角矩陣,令表示相應的特征向量矩陣傍药,則可以表示為