假設(shè)給定一個(gè)特征空間上的訓(xùn)練數(shù)據(jù)集
其中榄檬,切威,
,
丙号,
為第
個(gè)特征向量先朦,也稱為實(shí)例,
為
的類標(biāo)記犬缨,當(dāng)
時(shí)喳魏,稱
為正例;當(dāng)
時(shí)怀薛,稱
為負(fù)例刺彩,
稱為樣本點(diǎn)。再假設(shè)訓(xùn)練數(shù)據(jù)集不是線性可分的枝恋。通常情況是创倔,訓(xùn)練數(shù)據(jù)中有一些特異點(diǎn),將這些特異點(diǎn)除去后焚碌,剩下大部分的樣本點(diǎn)組成的集合是線性可分的畦攘。
線性不可分意味著某些樣本點(diǎn)不能滿足函數(shù)間隔大于等于1的約束條件。為了解決這個(gè)問題十电,可以對每個(gè)樣本點(diǎn)
引進(jìn)一個(gè)松弛變量
知押,使函數(shù)間隔加上松弛變量大于等于1。這樣鹃骂,約束條件變?yōu)?br>
目標(biāo)函數(shù)由原來的最小化變成最小化
是對誤分類的懲罰台盯,
越大,對誤分類懲罰越大畏线。相對于線性可分支持向量機(jī)的硬間隔最大化静盅,這叫做軟間隔最大化。
于是線性不可分支持向量機(jī)的學(xué)習(xí)的原始問題為凸二次規(guī)劃問題:
可以證明的解是唯一的寝殴,但
的解可能不唯一蒿叠,而是存在于一個(gè)區(qū)間。證明略杯矩。
假如栈虚,
是最優(yōu)化問題(1)-(3)的解,則得到的超平面為
分類決策函數(shù)為
稱為線性支持向量機(jī)史隆。
對偶的學(xué)習(xí)算法
由原始問題(1)-(3)魂务,首先構(gòu)建拉格朗日函數(shù)
其中,
泌射,于是原始問題可以寫成
則對偶問題為
首先求解內(nèi)部極小化問題粘姜,求對
,
熔酷,
的偏導(dǎo)并使其等于0:
得
將公式(7)-(9)代入(6)得到
于是原始的問題(1)-(3)的對偶問題可以寫成
對其進(jìn)一步改寫孤紧,由公式(12)得
代入公式(14)得
所以公式(12)-(14)可以簡寫為
再對目標(biāo)函數(shù)取相反數(shù)染突,得到對偶問題
定理
設(shè)是對偶問題(15)-(17)的一個(gè)解知给,若存在
的一個(gè)分量
双霍,
鹦倚,則原始問題(1)-(3)的解
,
可按下式得到:
證明略。
于是分離超平面可以寫成
分類決策函數(shù)
線性支持向量機(jī)學(xué)習(xí)算法
輸入:訓(xùn)練數(shù)據(jù)集押蚤,其中蔑歌,
,
揽碘,
次屠;
輸出:分離超平面和分類決策函數(shù)。
(1)選擇懲罰參數(shù)雳刺,構(gòu)造并求解凸二次規(guī)劃問題
求的最優(yōu)解劫灶。
(2)計(jì)算
選擇的一個(gè)分量
適合條件
,計(jì)算
(3)求得分離超平面
分類決策函數(shù):
支持向量
由公式
得知的樣本點(diǎn)
能夠影響支持向量機(jī)的參數(shù)掖桦。而
本昏,所以支持向量為
的樣本點(diǎn)
。這些支持向量分布在間隔邊界上滞详、間隔邊界與分離超平面之間或者在分離超平面誤分一側(cè)凛俱。若
,則
(由
條件可以推出料饥,由于
的結(jié)果不影響分離超平面蒲犬,所以一般也不去算,其計(jì)算過程略)岸啡,支持向量恰好落在間隔邊界上原叮;若
,
巡蘸,則分類正確奋隶,支持向量在間隔邊界與分離超平面之間;若
悦荒,
唯欣,則
在分離超平面上;若
搬味,
境氢,則
在分離超平面誤分一側(cè)。
合頁損失函數(shù)
線性支持向量機(jī)的學(xué)習(xí)還等價(jià)于最小化以下目標(biāo)函數(shù):
證明過程略碰纬。其中目標(biāo)函數(shù)的第一項(xiàng)是經(jīng)驗(yàn)損失或經(jīng)驗(yàn)風(fēng)險(xiǎn)萍聊,第二項(xiàng)是正則化項(xiàng)。函數(shù)
稱為合頁損失函數(shù)悦析。下標(biāo)"+"表示函數(shù)寿桨,由于函數(shù)形狀像一個(gè)合頁,故名合頁損失函數(shù)强戴。合頁損失函數(shù)相比感知機(jī)的0-1損失亭螟,不僅要求分類正確挡鞍,還要求確信度足夠高時(shí)(函數(shù)間隔大于等于1)損失才是0,所以支持向量機(jī)的學(xué)習(xí)比感知機(jī)有更高的要求媒佣。