線性支持向量機(jī)
一超埋、產(chǎn)生
通常在數(shù)據(jù)中有些特異點(diǎn)(
outlier
)摔握,將特異點(diǎn)去掉,剩下的大部分?jǐn)?shù)據(jù)組成的集合是線性可分的纹烹。線性不可分意味著某些點(diǎn)不滿足間隔大于或者等于的約束條件
尤爾小屋
解決辦法:
- 對(duì)每個(gè)樣本點(diǎn)引入松弛變量蚀乔,使得間隔加上松弛變量之后可以滿足大于等于1的約束條件烁竭,此時(shí)真正的約束條件變成:,同時(shí)對(duì)每個(gè)松弛變量一個(gè)懲罰項(xiàng)吉挣,此時(shí)目標(biāo)函數(shù)從變成了
- 懲罰參數(shù)越大派撕,對(duì)誤差分類的乘法增大;反之越小睬魂,對(duì)誤差分類的懲罰減小
- 目標(biāo)函數(shù)兩層含義
- 使盡量小终吼,也就是間隔盡量大
- 誤分類點(diǎn)的個(gè)數(shù)盡量少,通過進(jìn)行調(diào)和
二氯哮、線性不可分模型支持向量機(jī)的原始問題
原始問題是凸二次規(guī)劃問題
通過上述3式子可以求出际跪,從而得到分離超平面決策函數(shù)為
這樣的模型稱之為訓(xùn)練樣本不可分時(shí)的線性支持向量機(jī)。線性支持向量機(jī)包含線性可分支持向量機(jī)喉钢。
三姆打、學(xué)習(xí)的對(duì)偶算法
上面3個(gè)式子的對(duì)偶問題是
原始最優(yōu)化問題的拉格朗日函數(shù)為其中
學(xué)習(xí)的對(duì)偶問題轉(zhuǎn)變成拉格朗日的極大極小值問題。
- L函數(shù)分別對(duì)求導(dǎo)出牧,令導(dǎo)數(shù)為0穴肘,求出三個(gè)值
- 再對(duì)求出極大值歇盼,可以得到對(duì)偶問題:舔痕,求解出
四、對(duì)偶形式超平面和決策函數(shù)
分離超平面
決策函數(shù)為
五、支持向量
軟間隔的支持向量或者在間隔邊界上伯复,或者在間隔邊界和分離超平面之間慨代,或者在分離超平面的誤分一側(cè)
- ,則啸如,支持向量剛好落在了間隔邊界上
- 侍匙,則分類正確,支持向量位于間隔邊界和分離超平面之間
- 叮雳,則位于分離超平面誤分一側(cè)
線性支持向量機(jī)的三要素
- 模型:分離超平面和決策函數(shù)
- 學(xué)習(xí)策略:軟間隔最大化
- 學(xué)習(xí)方法:凸二次規(guī)劃問題
合頁函數(shù)
線性支持向量機(jī)學(xué)習(xí)的另一種解釋為最小化目標(biāo)函數(shù)上式中想暗,第一項(xiàng)是經(jīng)驗(yàn)損失或者稱之為經(jīng)驗(yàn)風(fēng)險(xiǎn),函數(shù)稱之為合頁函數(shù)下標(biāo)"+"表示如下取正值的函數(shù)
當(dāng)樣本點(diǎn)被正確分類且函數(shù)間隔(確信度)時(shí)帘不,損失函數(shù)是0说莫;否則是。目標(biāo)函數(shù)的第二項(xiàng)是系數(shù)為的的范數(shù)寞焙,是正則化項(xiàng)储狭。