SVM:線性可分支持向量機(jī)與硬間隔最大化

SVM(support vector machine):是一種二分類模型楼雹,將訓(xùn)練數(shù)據(jù)映射到特征空間中咱旱,通過(guò)超平面將樣本一分為二的有監(jiān)督學(xué)習(xí)方法允坚。
數(shù)學(xué)定義:假定特征空間中的訓(xùn)練集
T=\left \{\left ( x_{1},y_{1} \right ),...,(x_{i},y_{i}),...,(x_{n},y_{n}) \right \}漫试,其中极谊,x_{i}是第i個(gè)樣本的屬性在特征空間的映射稱為特征向量诡右;y_{i}\in \left \{-1,+1\right \},-1稱為負(fù)類轻猖,+1稱為正類帆吻;(x_{i},y_{i})稱為樣本點(diǎn)。假定此訓(xùn)練集是線性可分的咙边,SVM的學(xué)習(xí)目標(biāo)就是找到特征空間中的一個(gè)超平面猜煮,將訓(xùn)練集一分為二。如圖所示:

圖1:超平面將訓(xùn)練集一分為二

SVM的學(xué)習(xí)模型分為三種(由簡(jiǎn)至繁):


圖2:三種SVM模型從上到下有簡(jiǎn)至繁

一败许、線性可分支持向量機(jī)

定義:通過(guò)給定的線性可分訓(xùn)練集T王带,學(xué)習(xí)得到分類的超平面:
y = w * x + b
從而得到?jīng)Q策函數(shù):
y = sign(w * x + b)市殷,稱決策函數(shù)為線性可分支持向量機(jī)愕撰。

從定義可知,學(xué)習(xí)目標(biāo)是確定參數(shù)w, b醋寝, 如何確定w, b就是本文所要解決的問(wèn)題搞挣。
分割訓(xùn)練集的超平面可以有很多,我們是選擇H_{1} 還是 H_{2}音羞、H_{3}囱桨?

圖3:如何確定分割訓(xùn)練集的超平面

我們通過(guò)求間隔最大的超平面來(lái)確定參數(shù)w, b。

問(wèn)題:為什么要求間隔最大的超平面嗅绰?
解答:在圖1中有A舍肠、B、C三個(gè)樣本點(diǎn)办陷,均為正實(shí)例貌夕。其中,A距離超平面最遠(yuǎn)民镜,那么A被劃分為正例的確信度高啡专。C距離超平面距離最近,那么C被劃分為正例的確信度低制圈。B介于AC之間们童,確信度也處于AC之間畔况。因此,想要更好的劃分訓(xùn)練集慧库,應(yīng)該尋求訓(xùn)練集到超平面的間隔最大化跷跪。

1.函數(shù)間隔、幾何間隔齐板、間隔最大化

上面說(shuō)到一個(gè)實(shí)例距離超平面的遠(yuǎn)近可以用于度量分類預(yù)測(cè)的確信度吵瞻,即
在超平面確定的情況下,可用| w * x + b|(點(diǎn)到直線的距離)表示分類的準(zhǔn)確度甘磨。同時(shí)橡羞,w*x_{i} + by_{i}的符號(hào)是否一致判斷分類的正確性。因此可以用y(wx + b)度量分類預(yù)測(cè)的正確性與確信度济舆,這就是函數(shù)間隔卿泽。

函數(shù)間隔:對(duì)于給定超平面y = wx + b與訓(xùn)練集T,

  1. 超平面(w, b)關(guān)于樣本點(diǎn)(x_{i},y_{i})的函數(shù)間隔:
    \widehat{\gamma_{i} } = y_{i}(w*x_{i} + b)
  2. 超平面(w, b)關(guān)于訓(xùn)練集T的函數(shù)間隔:
    \widehat{\gamma }=min_{1...N} \ \ \widehat{\gamma_{i} }
    即找到所有樣本點(diǎn)中距離超平面最近的那個(gè)點(diǎn)的函數(shù)間隔作為整個(gè)訓(xùn)練集的函數(shù)間隔

但是要想找到最好的超平面滋觉,僅僅知道函數(shù)間隔是不夠签夭,因?yàn)閣 , b 可以成比例改變比如(kw, kb), 那么函數(shù)間隔就變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=k%5Cwidehat%7B%5Cgamma%20%7D" alt="k\widehat{\gamma }" mathimg="1">。為了找到確定的超平面椎侠,考慮規(guī)范化第租,即
\widehat{\gamma_{i} } = y_{i}(\frac{w}{\left \| w \right \|}*x_{i} + \frac{\left \| w \right \|})

圖4:幾何間隔

幾何間隔:對(duì)于給定超平面y = wx + b與訓(xùn)練集T肺蔚,

  1. 超平面(w, b)關(guān)于樣本點(diǎn)(x_{i},y_{i})的幾何間隔:
    \gamma_{i} = y_{i}(\frac{w}{\left \| w \right \|}*x_{i} + \frac煌妈{\left \| w \right \|})
  2. 超平面(w, b)關(guān)于訓(xùn)練集T的幾何間隔:
    \gamma =min_{1...N} \ \gamma_{i} =min_{1...N} \ \ \widehat{\frac{\gamma_{i}}{\left \| w \right \|} }
    即找到所有樣本點(diǎn)中距離超平面最近的那個(gè)點(diǎn)的幾何間隔作為整個(gè)訓(xùn)練集的幾何間隔 。

上面幾何間隔也給出了幾何間隔與函數(shù)間隔關(guān)系宣羊。w, b 成比例變化\widehat{\gamma}成比例變化璧诵,但是幾何間隔并不變化。

支持向量機(jī)學(xué)習(xí)的基本思想:求解能夠正確劃分訓(xùn)練集并且能夠最大化幾何間隔的超平面仇冯。
直觀來(lái)說(shuō)就是不僅要能夠正確分類而且還要把最難分的點(diǎn)也能分清楚之宿。比如圖3中H_{2},H_{3}都能正確劃分訓(xùn)練集苛坚,但是有部分樣本點(diǎn)距離H_{2}非常近容易劃分錯(cuò)誤比被,所以H_{3}是最好的選擇。

學(xué)習(xí)目標(biāo):最大化間隔
\max_{(w,b)} \quad \gamma\quad;\\ \gamma_{i} = y_{i}(\frac{w}{\left \| w \right \|}*x_{i} + \frac泼舱{\left \| w \right \|})>=\gamma

目標(biāo)是最大化幾何間隔等缀,同時(shí)該間隔要作為訓(xùn)練集的幾何間隔,這也是這個(gè)最優(yōu)化問(wèn)題的約束條件娇昙。
有了學(xué)習(xí)目標(biāo)尺迂,考慮構(gòu)建\gamma與w,b之間的關(guān)系,找到能夠最大化γ的w, b值噪裕,就可以確定超平面了蹲盘。因此,學(xué)習(xí)目標(biāo)可以轉(zhuǎn)化為

學(xué)習(xí)目標(biāo):最大化間隔
\max_{(w,b)} \quad \widehat{\frac{\gamma}{\left \| w \right \|} }\quad;\\ y_{i}(w*x_{i} + b)>=\widehat\gamma

之前說(shuō)過(guò)函數(shù)間隔\widehat{\gamma}變化并不影響幾何間隔膳音,即不影響最優(yōu)化的結(jié)果召衔。因此,這里可以設(shè)置\widehat{\gamma} = 1祭陷。至此苍凛,得到了最終的學(xué)習(xí)目標(biāo):

學(xué)習(xí)目標(biāo):最大化間隔
\max_{(w,b)} \quad {\frac{1}{\left \| w \right \|} }\quad;\\ y_{i}(w*x_{i} + b)>=1

求解最優(yōu)化問(wèn)題的方法,這里通過(guò)構(gòu)建拉格朗日函數(shù)求解最優(yōu)解颗胡。不使用梯度下降法的原因是此時(shí)解空間是受約束的毫深。接下來(lái)介紹最優(yōu)解的求解過(guò)程。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末毒姨,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子钉寝,更是在濱河造成了極大的恐慌弧呐,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嵌纲,死亡現(xiàn)場(chǎng)離奇詭異俘枫,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)逮走,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門鸠蚪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人师溅,你說(shuō)我怎么就攤上這事茅信。” “怎么了墓臭?”我有些...
    開封第一講書人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵蘸鲸,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我窿锉,道長(zhǎng)酌摇,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任嗡载,我火速辦了婚禮窑多,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘洼滚。我一直安慰自己埂息,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著耿芹,像睡著了一般崭篡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吧秕,一...
    開封第一講書人閱讀 51,692評(píng)論 1 305
  • 那天琉闪,我揣著相機(jī)與錄音,去河邊找鬼砸彬。 笑死颠毙,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的砂碉。 我是一名探鬼主播蛀蜜,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼增蹭!你這毒婦竟也來(lái)了滴某?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤滋迈,失蹤者是張志新(化名)和其女友劉穎霎奢,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體饼灿,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡幕侠,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了碍彭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片晤硕。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖庇忌,靈堂內(nèi)的尸體忽然破棺而出舞箍,到底是詐尸還是另有隱情,我是刑警寧澤漆枚,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布创译,位于F島的核電站,受9級(jí)特大地震影響墙基,放射性物質(zhì)發(fā)生泄漏软族。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一残制、第九天 我趴在偏房一處隱蔽的房頂上張望立砸。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)螺戳。三九已至搁宾,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間倔幼,已是汗流浹背盖腿。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留损同,地道東北人翩腐。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像膏燃,于是被迫代替她去往敵國(guó)和親茂卦。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容