1. 間隔最大化分類
考慮二分類:
為分割樣本的超平面的法線,
為截距.
對各樣本間隔為正時(shí)的
和
學(xué)習(xí).
閉集約束條件:
以上和
存在時(shí),稱訓(xùn)練樣本線性可分.
2. 硬間隔SVM
分割最充分的超平面為最優(yōu)解, 對應(yīng)正則化后的間隔的最小值:
- 正則化間隔
:
-
最小化:
從幾何學(xué)來講, 間隔為兩端的兩個(gè)超平面和
的間距的一半, 使這個(gè)間隔最大的超平面對應(yīng)的分類器稱為硬間隔支持向量機(jī)分類器:
3. 軟間隔SVM
硬間隔SVM假定訓(xùn)練樣本線性可分, 軟件個(gè)SVM允許間隔計(jì)算出現(xiàn)少量誤差:
C>0是調(diào)整誤差范圍參數(shù), C越大, 越接近0, 軟間隔SVM越接近硬間隔SVM.
通常的SVM指軟間隔SVM.
4. SVM求解
SVM最優(yōu)化問題是目標(biāo)函數(shù)為二次函數(shù), 約束條件為線性的典型二次規(guī)劃問題:
導(dǎo)入拉格朗日變量:
考慮最優(yōu)化問題等價(jià)表現(xiàn)形式--拉格朗日對偶問題:
根據(jù)最優(yōu)解條件可得:
消去松弛變量可得拉格朗日對偶問題如下公式:
上述最優(yōu)化問題, 利用只有n個(gè)最優(yōu)變量的二次規(guī)劃問題, 求解比原始最優(yōu)化問題跟高效. 原始的最優(yōu)化問題:
拉格朗日對偶問題的解用表示, 則SVM的解
為:
截距的解:
5. 稀疏性
KKT條件
對偶解的最優(yōu)條件即KKT條件. 對偶變量和約束條件滿足互補(bǔ)關(guān)系:
KKT條件:
6. 核映射
核映射非線性模型
核映射使得SVM可以應(yīng)用于非線性模型. 使用非線性函數(shù)對輸入樣本
使用線性SVM分類器.這種特征空間內(nèi)的線性分類器, 在輸入空間是非線性分類器.
如果特征空間維數(shù)比輸入空間維數(shù)d更高,則樣本線性可分的可能性更大, 然而特征空間維數(shù)過大, 計(jì)算量也會(huì)響應(yīng)增加.
核映射可顯著降低計(jì)算量: 學(xué)習(xí)時(shí), 線性SVM分類器樣本空間輸入只存在內(nèi)積形式; 非線性SVM分類器特征空間輸入只存在內(nèi)積形式
核映射優(yōu)勢:
- 通過核函數(shù)
定義內(nèi)積
, 不需要知道特征變換
具體是什么.
- 輸入
不是向量, 也可以正確分類.
常見的核函數(shù):
多項(xiàng)式核函數(shù)
高斯核函數(shù)
核映射方法適用于只關(guān)注內(nèi)積的任何算法, 如聚類分析, 降維,將現(xiàn)行算法輕松轉(zhuǎn)化為非線性.
7. hinge損失的二乘求解
考慮將SVM分類作為最小二乘分類的擴(kuò)展.
SVM分類器將0/1損失作為間隔的函數(shù)單調(diào)非增, 但是二乘
損失不是單調(diào)非增, 直接應(yīng)用有些不自然, 故考慮將如下Hinge損失作為代理損失:
Hinge損失在m<1時(shí)有線性遞增趨勢, 即分類錯(cuò)誤時(shí), 損失無窮遞增
Hinge損失和0/1損失函數(shù)圖像:
Hinge損失最小化學(xué)習(xí):
回顧線性分類問題和和模型分類問題
線性分類:
核模型分類問題:
對核模型分類問題進(jìn)行Hinge損失最小化學(xué)習(xí), 引入核矩陣的
正則化項(xiàng):