Abstract
- 本文提出了一種學習算法的通用內(nèi)核化框架故觅;
- 通過兩個階段實現(xiàn)霹娄,即先通過核主成分分析(KPCA)處理數(shù)據(jù)翎苫,然后直接用轉(zhuǎn)換后的數(shù)據(jù)執(zhí)行學習算法兔院;
- 本文會介紹這個核心框架姿鸿,并證明了在一些條件下谆吴,這個框架下的內(nèi)核化等同于傳統(tǒng)的內(nèi)核方法。實際上苛预,大多數(shù)學習算法通常都滿足這些溫和的條件句狼;
- 因此,大多數(shù)學習算法都可以在此框架下進行內(nèi)核化热某,而無需重新構(gòu)造為內(nèi)積形式——傳統(tǒng)內(nèi)核方法中常見且至關(guān)重要的一步腻菇;
- 在此框架的啟發(fā)下,本文還提出了一種基于低秩KPCA的新型核方法昔馋,可用于消除特征空間中的噪聲筹吐,加速核算法,提高核算法的數(shù)值穩(wěn)定性秘遏。
Introduction
- 核函數(shù)可以隱式地實現(xiàn)從原始空間到高甚至無限維特征空間的非線性映射丘薛,因此具有更好的性能;
- 核主成分分析(KPCA)是主成分分析(PCA)的核方法邦危,也是最早的核心技巧之一洋侨,許多算法通過這一框架實現(xiàn)舍扰。然而當學習算法難以重新表述為內(nèi)積形式時,不能直接應用這一方法希坚;
- 本文提出通過核主成分分析(KPCA)轉(zhuǎn)換數(shù)據(jù)边苹,然后用轉(zhuǎn)換后的數(shù)據(jù)直接執(zhí)行學習算法;
- 本文將證明大多數(shù)學習算法可以在此框架下進行內(nèi)核化吏够;
- 通常無法識別內(nèi)核空間中數(shù)據(jù)的分布和流型勾给,但是可以轉(zhuǎn)向查看KPCA轉(zhuǎn)換后數(shù)據(jù)的分布,因為內(nèi)核空間中數(shù)據(jù)的流型等同于KPCA轉(zhuǎn)換后數(shù)據(jù)的流型锅知;
- 本文提出了一種基于低秩KPCA的學習算法的全新內(nèi)核方法播急。與基于全秩KPCA的內(nèi)核方法相比,基于KPCA的低秩內(nèi)核方法具有幾個優(yōu)點售睹。例如桩警,它可以消除特征空間中的噪聲,加速內(nèi)核算法并提高內(nèi)核算法的數(shù)值穩(wěn)定性昌妹。
Kernel PCA revisited
- 內(nèi)核PCA是PCA的非線性擴展(關(guān)于PCA捶枢,這個介紹很詳細 http://blog.codinglabs.org/articles/pca-tutorial.html)
- 令, 飞崖,PCA通過計算協(xié)方差矩陣C的特征向量來提取主成分烂叔。
- 核PCA不是在輸入空間中進行PCA,而是在映射的高維內(nèi)積空間中執(zhí)行PCA固歪。
- 映射通過核函數(shù)K實現(xiàn)蒜鸡,K可以是滿足Mercer條件的任何正核,如RBF牢裳。
- 對于可以用內(nèi)積表示的算法逢防,也可以使用內(nèi)核技巧在特征空間中執(zhí)行算法。PCA就是其中之一(輸出可以僅由內(nèi)積計算)蒲讯。
Kernel method for learning algorithms based on full-rank KPCA
- 定義全秩PCA為:對于訓練數(shù)據(jù)矩陣X忘朝,假設集中內(nèi)積矩陣M的秩是r。如果我們提取PCA的前r個主要組成部分判帮,則已經(jīng)完成了全秩PCA局嘁。全秩KPCA同理。
- (定理)本文證明了在以下條件下脊另,可以通過全秩KPCA利用變換后的數(shù)據(jù)執(zhí)行學習算法來實現(xiàn)學習算法的核方法:
- 算法的輸出結(jié)果可以僅由來計算导狡,是訓練數(shù)據(jù),是新的測試點偎痛。
- 以任意常數(shù)倍對輸入數(shù)據(jù)進行變換不會改變學習算法的輸出結(jié)果。
- 實際上独郎,大多數(shù)學習算法都滿足上述兩個條件踩麦,因此都可以通過這種方法實現(xiàn)內(nèi)核方法枚赡,即使用通過全秩KPCA轉(zhuǎn)換后的數(shù)據(jù)直接執(zhí)行學習算法。
- (定理)如果對原始數(shù)據(jù)執(zhí)行學習算法等價于對經(jīng)過PCA轉(zhuǎn)換后的數(shù)據(jù)執(zhí)行學習算法谓谦。
Remarks
-
這一部分主要就是介紹這個圖
- 主要是直觀地介紹本文提出的方法及如何應用贫橙。
后續(xù)部分是介紹了應用這一方法的例子以及實驗,略反粥。