論文筆記_機器學習:A general kernelization framework for learning algorithms based on kernel PCA

Abstract

  • 本文提出了一種學習算法的通用內(nèi)核化框架故觅;
  • 通過兩個階段實現(xiàn)霹娄,即先通過核主成分分析(KPCA)處理數(shù)據(jù)翎苫,然后直接用轉(zhuǎn)換后的數(shù)據(jù)執(zhí)行學習算法兔院;
  • 本文會介紹這個核心框架姿鸿,并證明了在一些條件下谆吴,這個框架下的內(nèi)核化等同于傳統(tǒng)的內(nèi)核方法。實際上苛预,大多數(shù)學習算法通常都滿足這些溫和的條件句狼;
  • 因此,大多數(shù)學習算法都可以在此框架下進行內(nèi)核化热某,而無需重新構(gòu)造為內(nèi)積形式——傳統(tǒng)內(nèi)核方法中常見且至關(guān)重要的一步腻菇;
  • 在此框架的啟發(fā)下,本文還提出了一種基于低秩KPCA的新型核方法昔馋,可用于消除特征空間中的噪聲筹吐,加速核算法,提高核算法的數(shù)值穩(wěn)定性秘遏。

Introduction

  • 核函數(shù)可以隱式地實現(xiàn)從原始空間到高甚至無限維特征空間的非線性映射丘薛,因此具有更好的性能;
  • 核主成分分析(KPCA)是主成分分析(PCA)的核方法邦危,也是最早的核心技巧之一洋侨,許多算法通過這一框架實現(xiàn)舍扰。然而當學習算法難以重新表述為內(nèi)積形式時,不能直接應用這一方法希坚;
  • 本文提出通過核主成分分析(KPCA)轉(zhuǎn)換數(shù)據(jù)边苹,然后用轉(zhuǎn)換后的數(shù)據(jù)直接執(zhí)行學習算法;
  • 本文將證明大多數(shù)學習算法可以在此框架下進行內(nèi)核化吏够;
  • 通常無法識別內(nèi)核空間中數(shù)據(jù)的分布和流型勾给,但是可以轉(zhuǎn)向查看KPCA轉(zhuǎn)換后數(shù)據(jù)的分布,因為內(nèi)核空間中數(shù)據(jù)的流型等同于KPCA轉(zhuǎn)換后數(shù)據(jù)的流型锅知;
  • 本文提出了一種基于低秩KPCA的學習算法的全新內(nèi)核方法播急。與基于全秩KPCA的內(nèi)核方法相比,基于KPCA的低秩內(nèi)核方法具有幾個優(yōu)點售睹。例如桩警,它可以消除特征空間中的噪聲,加速內(nèi)核算法并提高內(nèi)核算法的數(shù)值穩(wěn)定性昌妹。

Kernel PCA revisited

  • 內(nèi)核PCA是PCA的非線性擴展(關(guān)于PCA捶枢,這個介紹很詳細 http://blog.codinglabs.org/articles/pca-tutorial.html
  • L=I-\frac1n\mathbf {1}\mathbf {1}^TC=\frac1nXL(XL)^T 飞崖,PCA通過計算協(xié)方差矩陣C的特征向量來提取主成分烂叔。
  • 核PCA不是在輸入空間中進行PCA,而是在映射的高維內(nèi)積空間中執(zhí)行PCA固歪。
  • 映射通過核函數(shù)K實現(xiàn)蒜鸡,K可以是滿足Mercer條件的任何正核,如RBF牢裳。
  • 對于可以用內(nèi)積表示的算法逢防,也可以使用內(nèi)核技巧在特征空間中執(zhí)行算法。PCA就是其中之一(輸出可以僅由內(nèi)積計算)蒲讯。

Kernel method for learning algorithms based on full-rank KPCA

  • 定義全秩PCA為:對于訓練數(shù)據(jù)矩陣X忘朝,假設集中內(nèi)積矩陣M的秩是r。如果我們提取PCA的前r個主要組成部分判帮,則已經(jīng)完成了全秩PCA局嘁。全秩KPCA同理。
  • (定理)本文證明了在以下條件下脊另,可以通過全秩KPCA利用變換后的數(shù)據(jù)執(zhí)行學習算法來實現(xiàn)學習算法的核方法:
  1. 算法的輸出結(jié)果可以僅由x^Tx_i來計算导狡,x_i是訓練數(shù)據(jù),x是新的測試點偎痛。
  2. 以任意常數(shù)倍對輸入數(shù)據(jù)進行變換不會改變學習算法的輸出結(jié)果。
  • 實際上独郎,大多數(shù)學習算法都滿足上述兩個條件踩麦,因此都可以通過這種方法實現(xiàn)內(nèi)核方法枚赡,即使用通過全秩KPCA轉(zhuǎn)換后的數(shù)據(jù)直接執(zhí)行學習算法。
  • (定理)如果對原始數(shù)據(jù)執(zhí)行學習算法等價于對經(jīng)過PCA轉(zhuǎn)換后的數(shù)據(jù)執(zhí)行學習算法谓谦。

Remarks

  • 這一部分主要就是介紹這個圖


  • 主要是直觀地介紹本文提出的方法及如何應用贫橙。
    后續(xù)部分是介紹了應用這一方法的例子以及實驗,略反粥。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卢肃,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子才顿,更是在濱河造成了極大的恐慌莫湘,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件郑气,死亡現(xiàn)場離奇詭異幅垮,居然都是意外死亡,警方通過查閱死者的電腦和手機尾组,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進店門忙芒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人讳侨,你說我怎么就攤上這事呵萨。” “怎么了跨跨?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵潮峦,是天一觀的道長。 經(jīng)常有香客問我歹叮,道長跑杭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任咆耿,我火速辦了婚禮琉兜,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘滴肿。我一直安慰自己吃衅,他們只是感情好,可當我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布慰技。 她就那樣靜靜地躺著椭盏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪吻商。 梳的紋絲不亂的頭發(fā)上掏颊,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機與錄音,去河邊找鬼乌叶。 笑死盆偿,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的准浴。 我是一名探鬼主播事扭,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼乐横!你這毒婦竟也來了求橄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤葡公,失蹤者是張志新(化名)和其女友劉穎罐农,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體匾南,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡啃匿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了蛆楞。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片溯乒。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖豹爹,靈堂內(nèi)的尸體忽然破棺而出裆悄,到底是詐尸還是另有隱情,我是刑警寧澤臂聋,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布光稼,位于F島的核電站,受9級特大地震影響孩等,放射性物質(zhì)發(fā)生泄漏艾君。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一肄方、第九天 我趴在偏房一處隱蔽的房頂上張望冰垄。 院中可真熱鬧,春花似錦权她、人聲如沸虹茶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蝴罪。三九已至,卻和暖如春步清,著一層夾襖步出監(jiān)牢的瞬間要门,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留暂衡,地道東北人询微。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓崖瞭,卻偏偏與公主長得像狂巢,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子书聚,可洞房花燭夜當晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容