第十章 降維與度量學(xué)習(xí)

k近鄰學(xué)習(xí)

kNN學(xué)習(xí)是一種常用的監(jiān)督學(xué)習(xí)方法即彪。

  • 工作機(jī)制
    給定測(cè)試樣本街州,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本晴音,然后根據(jù)這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)刑顺。

    對(duì)于kNN學(xué)習(xí)中氯窍,最重要的是對(duì)k的選取和對(duì)距離的定義
    對(duì)于最近鄰分類器(1NN蹲堂,即k=1)狼讨,其出錯(cuò)的概率為:

P(err) = 1- \sum_{c \in y} P(c|x) P(c|z).

其中x為測(cè)試樣本,其最近鄰樣本為z柒竞,假設(shè)樣本獨(dú)立同分布政供,且對(duì)任意x和任意小正數(shù)\delta距離范圍內(nèi)總能找到一個(gè)訓(xùn)練樣本. 令c^*=arg \max_{c\in Y}P(c|x)表示貝葉斯最有分類器的結(jié)果, 則可以推導(dǎo)出:

最近鄰分類器雖簡(jiǎn)單,但它的泛化錯(cuò)誤率不超過(guò)貝葉斯最優(yōu)分類器的錯(cuò)誤率的兩倍朽基。

低維嵌入

前面的討論的都是基于假設(shè):對(duì)任意x和任意小正數(shù)\delta, 在x附近\delta距離范圍內(nèi)總能找到一個(gè)訓(xùn)練樣本布隔。但是這在現(xiàn)實(shí)任務(wù)中是很難實(shí)現(xiàn)的而且隨著特征維數(shù)增加,所需要的樣本數(shù)飛速增長(zhǎng)稼虎,高維特征也會(huì)使距離運(yùn)算量更大衅檀,耗費(fèi)時(shí)間更長(zhǎng)。

  • 維度災(zāi)難
    在高維情形下出現(xiàn)的數(shù)據(jù)樣本稀疏霎俩,距離計(jì)算困難等問(wèn)題哀军,是所有機(jī)器學(xué)習(xí)方法共同面臨的嚴(yán)重障礙沉眶。

緩解維數(shù)災(zāi)難的一個(gè)重要途徑是降維,也稱作“維數(shù)約簡(jiǎn)”排苍。即通過(guò)某種數(shù)字變換將原始高維屬性空間轉(zhuǎn)變?yōu)橐粋€(gè)子空間沦寂,在這個(gè)子空間中樣本密度大幅度提高,距離計(jì)算也變得容易淘衙。(將原始高維屬性空間轉(zhuǎn)變?yōu)橐粋€(gè)低維子空間)雖然數(shù)據(jù)樣本是高維的,但是與學(xué)習(xí)任務(wù)密切相關(guān)的也許僅僅是某個(gè)低維分布.
MDS算法(多維縮放)

多為縮放是一種經(jīng)典的降維算法传藏。假設(shè)m個(gè)樣本在原始空間的距離矩陣為D\in \mathbb{R}^{m\times m}, 其中第i行第j列的元素dist_{ij}為兩個(gè)樣本x_ix_j之間的距離,而我們的目標(biāo)就是獲得樣本在d'維空間的表示 Z\in \mathbb{R}^{d'\times m}, d'\le d, 且任意兩個(gè)樣本在d'維空間中的歐氏距離等于原始空間中的距離,即||z_i-z_j||=dist_{ij}.令 B=Z^TZ\in \mathbb{R}^{m\times m}, 其中B為降維后樣本的內(nèi)積矩陣, b_{ij}=z_i^T, 有:

為了便于討論, 令降維后的樣本Z被中心化了, 則推導(dǎo)后可以得到:

?????????????????????????????????????????????????
?????????????????????????????????????????????????

由此可以利用降維前的距離矩陣D來(lái)求降維后的內(nèi)積矩陣B, 并對(duì)其做特征值分解B=V\Lambda V^T, 其中\Lambda 為特征值組成的對(duì)角矩陣, V為特征向量矩陣. 假設(shè)其中有d個(gè)非零特征值, 它們組成的對(duì)角矩陣\Lambda和特征向量矩陣V*則有以下關(guān)系:

實(shí)際中, 為了有效降維(降到d’), 則不一定要求降維后的距離嚴(yán)格相等, 此時(shí)取前d’個(gè)非零特征值對(duì)應(yīng)的\tilde{\Lambda}\tilde{V}:

MDS算法流程:


除了MDS算法彤守,基于線性變換來(lái)進(jìn)行降維的線性降維是最簡(jiǎn)單的降維方法, 這類方法被稱作線性降維方法毯侦,下一節(jié)將以PCA主成分分析為例進(jìn)行介紹。

主成分分析

主成分分析(PCA)是最常用的一種降維方法具垫。對(duì)于一個(gè)能夠?qū)⑺袠颖具M(jìn)行恰當(dāng)表達(dá)的超平面侈离,基于其最近重構(gòu)性(樣本點(diǎn)到這個(gè)超平面的距離都足夠近)主成分分析的優(yōu)化目標(biāo)為:


而基于其最大可分性(樣本點(diǎn)在這個(gè)超平面上的投影盡可能分開(kāi))主成分分析的優(yōu)化目標(biāo):

對(duì)以上兩個(gè)式子使用拉格朗日乘子法得到:

于是,對(duì)協(xié)方差矩陣做特征值分解筝蚕,對(duì)所求得的特征值排序卦碾,取前個(gè)特征值構(gòu)成的特征向量構(gòu)成,就得到PCA的解起宽。
算法流程:

維數(shù)由d降到了d’洲胖。 這里的d’值可以人工指定,也可以通過(guò)其他開(kāi)銷小的學(xué)習(xí)器來(lái)交叉驗(yàn)證坯沪,也可通過(guò)重構(gòu)閾值來(lái)設(shè)定绿映,例如設(shè)t=95 \%,選擇合適的d’使得:


PCA僅需保留與樣本的均值向量即可通過(guò)簡(jiǎn)單的向量減法和矩陣-向量乘法將新樣本投影至低維空間中。

核化線性降維

線性降維方法假設(shè)從高維空間到低維空間的函數(shù)映射是線性的腐晾,但現(xiàn)實(shí)任務(wù)中叉弦,可能需要非線性映射才能找到恰當(dāng)?shù)牡途S嵌入。進(jìn)行非線性降維的常用方法便是基于核技巧來(lái)對(duì)線性降維方法進(jìn)行核化藻糖。
核主成分分析(KPCA)算法:
假定將在高維特征空間中把數(shù)據(jù)投影到由W確定的超平面上淹冰,即PCA欲求解:


其中是樣本點(diǎn)在高維特征空間中的像,于是有:

然后引入映射颖御,即有.再引入核函數(shù):

最后代入化簡(jiǎn)得:,其中K為核函數(shù)對(duì)應(yīng)的核矩陣榄棵。

流形學(xué)習(xí)

流形學(xué)習(xí)是一類借鑒了拓?fù)淞餍胃拍畹膶榉椒ǎ餍问侵冈诰植颗c歐式空間同胚的空間(即在局部與歐式空間具有相同的性質(zhì))潘拱,能用歐氏距離計(jì)算樣本之間的距離。

等度量映射(Isomap)

其基本出發(fā)點(diǎn)是認(rèn)為低維流形嵌入到高維空間后拧略,然后直接在高維空間中計(jì)算直線距離具有誤導(dǎo)性芦岂,因?yàn)楦呔S空間中的直線距離在低維嵌入流形上是不可達(dá)的。因此利用流形在局部上與歐式空間同胚的性質(zhì)垫蛆,可以使用近鄰距離來(lái)逼近測(cè)地線距離禽最。例如在一維空間中有一直線腺怯,將其嵌入二維空間時(shí)變成了非線形,兩端點(diǎn)的距離就會(huì)發(fā)生改變川无,此時(shí)就產(chǎn)生了距離計(jì)算的偏差呛占。


在近鄰連接圖上計(jì)算兩點(diǎn)間的最短距離,可以采用Dijkstra算法或者Floyd算法懦趋,在得到任意兩點(diǎn)的距離之后晾虑。可通過(guò)MDS方法來(lái)獲得樣本點(diǎn)在低維空間中的坐標(biāo)仅叫。
Isomap算法的流程


最近鄰圖的構(gòu)建有兩種方法:
1帜篇、指定近鄰點(diǎn)數(shù)目,與kNN一樣選取k個(gè)最近的鄰居诫咱;
2笙隙、指定鄰域半徑,距離小于該閾值的選定為其近鄰點(diǎn)坎缭。
對(duì)于兩種方法竟痰,會(huì)有以下問(wèn)題:
1、鄰域范圍指定過(guò)大掏呼,則會(huì)造成“短路問(wèn)題”坏快,即距離很遠(yuǎn)的點(diǎn)也可能會(huì)被誤認(rèn)為近鄰;
2哄尔、鄰域范圍指定過(guò)小假消,則會(huì)造成“斷路問(wèn)題”,即有些區(qū)域和其他區(qū)域不可互達(dá)岭接。

LLE算法(局部線性嵌入)

局部線性嵌入試圖保持鄰域內(nèi)樣本間的線性關(guān)系富拗。


假設(shè)樣本點(diǎn)通過(guò)它的領(lǐng)域樣本的坐標(biāo)通過(guò)線性組合重構(gòu)得到:
線性關(guān)系保持不變,即鄰域重構(gòu)系數(shù)不變

LLE算法分為兩步:
1鸣戴、根據(jù)近鄰關(guān)系計(jì)算出所有樣本的鄰域重構(gòu)系數(shù)w
2啃沪、根據(jù)鄰域重構(gòu)系數(shù)不變,求解低維坐標(biāo)

其中式(10.27):

式(10.30):

度量學(xué)習(xí)

對(duì)高維進(jìn)行降維的主要目的是找到一個(gè)合使的低維空間窄锅,實(shí)際上就是在尋找一個(gè)合使的距離度量创千。度量學(xué)習(xí)便是嘗試學(xué)習(xí)出一個(gè)合使的距離度量。
對(duì)于兩個(gè)d維樣本x_ix_j入偷,它們之間的平方歐式距離:

dist_{ed}^2 (x_i,x_j) = ||x_i - x_j||_2^2 = dist_{ij,1}^2 + dist_{ij,2}^2 + ... + dist_{ij,d}^2

其中dist_{ij,k}表示x_ix_j在第k維上的距離.
假定各個(gè)屬性有其不同的重要性追驴,即引入w,于是有:

其中W的非對(duì)角元素均為零,故可以將W替換為一個(gè)普通的半正定對(duì)稱矩陣M(協(xié)方差矩陣的逆疏之,即M=\sum{^{-1}})殿雪,于是得到馬氏距離:


而度量學(xué)習(xí)即是對(duì)M的學(xué)習(xí),為了保持距離非負(fù)且對(duì)稱锋爪,于是M必須是正定對(duì)稱矩陣丙曙,即滿足必有正交基P使得.
對(duì)M的學(xué)習(xí)的前提是要設(shè)定一個(gè)目標(biāo)爸业,比如希望提高近鄰分類器的性能,則可以將M嵌入到近鄰分類器的評(píng)價(jià)指標(biāo)中去亏镰,通過(guò)優(yōu)化該性能指標(biāo)從而求得M.
我們不僅能夠?qū)㈠e(cuò)誤率等這種監(jiān)督學(xué)習(xí)目標(biāo)作為度量學(xué)習(xí)的優(yōu)化目標(biāo)扯旷,還可以在度量學(xué)習(xí)種引入領(lǐng)域知識(shí),比如已知一些樣本類似索抓,一些樣本不相似钧忽。于是相似樣本的樣本距離盡可能小,不相似的樣本之間的距離盡可能大纸兔。

和分別表示相似集合和不相似集合惰瓜。
度量學(xué)習(xí)習(xí)得的半正定對(duì)稱距離度量矩陣M,若其是低秩矩陣汉矿,則可以對(duì)其進(jìn)行特征值分解崎坊,總能找到一組正交基小于元素。于是度量學(xué)習(xí)學(xué)得的結(jié)果可以衍生出一個(gè)降維矩陣以用于降維之目的洲拇。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末奈揍,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子赋续,更是在濱河造成了極大的恐慌男翰,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件纽乱,死亡現(xiàn)場(chǎng)離奇詭異蛾绎,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)鸦列,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門租冠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人薯嗤,你說(shuō)我怎么就攤上這事顽爹。” “怎么了骆姐?”我有些...
    開(kāi)封第一講書(shū)人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵镜粤,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我玻褪,道長(zhǎng)肉渴,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任带射,我火速辦了婚禮黄虱,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘庸诱。我一直安慰自己捻浦,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布桥爽。 她就那樣靜靜地躺著朱灿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钠四。 梳的紋絲不亂的頭發(fā)上盗扒,一...
    開(kāi)封第一講書(shū)人閱讀 51,292評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音缀去,去河邊找鬼侣灶。 笑死,一個(gè)胖子當(dāng)著我的面吹牛缕碎,可吹牛的內(nèi)容都是我干的褥影。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼咏雌,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼凡怎!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起赊抖,我...
    開(kāi)封第一講書(shū)人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤统倒,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后氛雪,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體房匆,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年报亩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了浴鸿。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡捆昏,死狀恐怖赚楚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情骗卜,我是刑警寧澤宠页,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站寇仓,受9級(jí)特大地震影響举户,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜遍烦,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一琼蚯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧奸例,春花似錦、人聲如沸拐云。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)叉瘩。三九已至,卻和暖如春粘捎,著一層夾襖步出監(jiān)牢的瞬間薇缅,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工攒磨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留泳桦,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓娩缰,卻偏偏與公主長(zhǎng)得像灸撰,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子漆羔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容