間隔與支持向量
給定訓練樣本集,分類學習
最基本的想法就是基于訓練集在樣本空間中找到一個劃分超平面
守呜,將不同類別的樣本分開型酥。
但是能將不同類別樣本分開的劃分超平面可能有很多,直觀上查乒,我們應該去找“正中間”的劃分超平面弥喉,也就是對訓練樣本局部擾動容忍性
最好的超平面蒋譬。
在樣本空間中捂蕴,劃分超平面的方程為负敏,其中是法向量饺律,決定了超平面的方向鸵膏;是位移伶丐,決定了超平面與原點之間的距離木柬。
樣本空間中任意點到超平面的距離可寫為:
假設超平面能將訓練樣本正確分類间学,即對于樣本拒担,有:
使得不等式等號成立的幾個訓練樣本點被稱為支持向量
嘹屯,兩個異類支持向量到超平面的距離之和為:
也被稱為間隔(margin)
。
支持向量機的目的就是找到具有最大間隔
的劃分超平面从撼,即公式(1):
轉化為凸二次規(guī)劃問題州弟。
進而得到對應的分類模型
支持向量機的重要性質:訓練完成后钧栖,大部分訓練樣本都不需要保留,最終模型只與支持向量
有關婆翔。
對偶問題
對公式(1)運用拉格朗日乘子法
可得到其對偶問題
:
其中為拉格朗日乘子拯杠,解出后,求出與即可得到模型:
注意上述過程需要滿足KKT條件啃奴。
核函數(shù)
前面假設訓練樣本是線性可分的潭陪,即存在一個劃分超平面能將訓練樣本正確分類。然而現(xiàn)實任務中最蕾,原始樣本空間也許不存在一個能正確分類兩類樣本的超平面依溯,比如異或問題。
因此瘟则,我們考慮將樣本從原始空間映射到一個更高維的特征空間黎炉,使得樣本在這個特征空間內線性可分。
令表示將映射后的特征向量醋拧,于是慷嗜,在特征空間中對應的模型表示為:
其中和是模型參數(shù)。
則其對偶問題中需要計算趁仙,為樣本和映射到特征空間中的內積洪添,由于特征空間維數(shù)可能很高,甚至為無窮維雀费,因此直接計算該內積通常很困難。為了避開這個障礙痊焊,考慮如下函數(shù):
即與在特征空間中內積等于它們在原始空間中函數(shù)的計算結果盏袄。
最終可得模型為:
這里的函數(shù)就是核函數(shù)(kernel function)
。
定理(核函數(shù)): 令為輸入空間薄啥,是定義在上的對稱函數(shù),則是核函數(shù)當且僅當對于任意數(shù)據(jù)垄惧,核矩陣(kernel matrix)K總是半正定的刁愿。
核函數(shù)選擇成為支持向量機的最大變數(shù),若核函數(shù)選擇不合適到逊,則意味著將樣本映射到了一個不合適的特征空間铣口,很可能導致性能不佳。
常用的核函數(shù)有線性核觉壶、多項式核脑题、高斯核、拉普拉斯核等铜靶。
軟間隔與正則化
前面我們一直假定訓練樣本在原始空間或特征空間是線性可分的叔遂,然而,現(xiàn)實任務中往往很難確定合適的核函數(shù)使得訓練樣本在特征空間線性可分;此外已艰,就算恰好找到了某個核函數(shù)使得訓練集在特征空間中線性可分痊末,也很難斷定這個結果不是由于過擬合造成的。
緩解這個問題的一個辦法就是允許支持向量機在一些樣本上出錯哩掺。
硬間隔
要求所有樣本都必須劃分正確凿叠,而軟間隔
則允許某些樣本不滿足約束:
此時要求在最大化間隔的同時,不滿足約束的樣本應盡可能少疮丛。
優(yōu)化目標改寫為:
其中是一個常數(shù)幔嫂,是0/1損失函數(shù):
但是0/1損失函數(shù)非凸,非連續(xù)誊薄,數(shù)學性質不太好履恩,使得優(yōu)化目標不易直接求解。人們通常使用其他一些函數(shù)來代替呢蔫,比如hinge損失
:
則優(yōu)化目標變?yōu)椋?br>
可看成是正則化的合頁(hinge)損失最小化問題切心。
引入松弛變量
,優(yōu)化目標可進一步重寫為:
這就是軟間隔支持向量機片吊。每個樣本都有一個對應的松弛變量绽昏,表示該樣本不滿足約束的程度。與原始目標函數(shù)相似俏脊,這仍是一個二次規(guī)劃問題全谤,可通過拉格朗日乘子法求解。
范數(shù)是常用的正則化項爷贫,其中范數(shù)傾向于的分量取值盡量均衡认然,即非零分量個數(shù)盡量稠密,而范數(shù)和范數(shù)則傾向于的分量盡量稀疏漫萄,即非零分量個數(shù)盡量少卷员。
支持向量機是針對二分類任務設計的,對多分類任務要進行專門的推廣[Hsu and Lin, 2002]
支持向量回歸
考慮回歸問題腾务,即給定訓練集毕骡,希望學得模型,使得與盡可能接近岩瘦。
傳統(tǒng)回歸模型當且僅當與完全相同時未巫,損失才為0。而支持向量回歸(Support Vector Regression, SVR)
假設我們能容忍的偏差担钮,即僅當與之間的差別絕對值大于時才計算損失橱赠。
這相當于以為中心,構建了一個寬度為的間隔帶箫津,若訓練樣本落入該間隔帶狭姨,則被認為是預測正確的宰啦。
所以,SVR問題可形式化為:
其中為正則化常數(shù)饼拍,是-不敏感損失函數(shù):
Hsu, C.-W. and C.-J. Lin. (2002). "A comparison of methods for multi-class support vector machines."
《西瓜書》
《南瓜書》