間隔最大化分類
考慮二分類:
為分割樣本的超平面的法線, 為截距.
對各樣本間隔為正時的和學習.
閉集約束條件:
以上和存在時,稱訓練樣本線性可分.
硬間隔SVM
分割最充分的超平面為最優(yōu)解, 對應正則化后的間隔的最小值:
- 正則化間隔:
-
最大化:
從幾何學來講, 間隔為兩端的兩個超平面和的間距的一半, 使這個間隔最大的超平面對應的分類器稱為硬間隔支持向量機分類器:
軟間隔SVM
硬間隔SVM假定訓練樣本線性可分, 軟件個SVM允許間隔計算出現(xiàn)少量誤差:
C>0是調(diào)整誤差范圍參數(shù), C越大, 越接近0, 軟間隔SVM越接近硬間隔SVM.
通常的SVM指軟間隔SVM.
SVM分類器求解
SVM最優(yōu)化問題是目標函數(shù)為二次函數(shù), 約束條件為線性的典型二次規(guī)劃問題:
導入拉格朗日變量:
考慮最優(yōu)化問題等價表現(xiàn)形式--拉格朗日對偶問題:
根據(jù)最優(yōu)解條件可得:
消去松弛變量可得拉格朗日對偶問題如下公式:
上述最優(yōu)化問題, 利用只有n個最優(yōu)變量的二次規(guī)劃問題, 求解比原始最優(yōu)化問題跟高效. 原始的最優(yōu)化問題:
拉格朗日對偶問題的解用表示, 則SVM的解為:
截距的解:
稀疏性
KKT條件
對偶解的最優(yōu)條件即KKT條件. 對偶變量和約束條件滿足互補關系:
KKT條件:
核映射非線性模型
核映射使得SVM可以應用于非線性模型. 使用非線性函數(shù)對輸入樣本使用線性SVM分類器.這種特征空間內(nèi)的線性分類器, 在輸入空間是非線性分類器.
如果特征空間維數(shù)比輸入空間維數(shù)d更高,則樣本線性可分的可能性更大, 然而特征空間維數(shù)過大, 計算量也會響應增加.
核映射可顯著降低計算量: 學習時, 線性SVM分類器樣本空間輸入只存在內(nèi)積形式; 非線性SVM分類器特征空間輸入只存在內(nèi)積形式
核映射優(yōu)勢:
- 通過核函數(shù)定義內(nèi)積, 不需要知道特征變換具體是什么.
- 輸入不是向量, 也可以正確分類.
常見的核函數(shù):
多項式核函數(shù)
高斯核函數(shù)
核映射方法適用于只關注內(nèi)積的任何算法, 如聚類分析, 降維,將現(xiàn)行算法輕松轉(zhuǎn)化為非線性.
Hinge損失最小化
考慮將SVM分類作為最小二乘分類的擴展.
SVM分類器將0/1損失作為間隔的函數(shù)單調(diào)非增, 但是二乘損失不是單調(diào)非增, 直接應用有些不自然, 故考慮將如下Hinge損失作為代理損失:
Hinge損失在m<1時有線性遞增趨勢, 即分類錯誤時, 損失無窮遞增
Hinge損失和0/1損失函數(shù)圖像:
Hinge損失最小化學習:
回顧線性分類問題和和模型分類問題
線性分類:
核模型分類問題:
對核模型分類問題進行Hinge損失最小化學習, 引入核矩陣的正則化項: