〇、說明
支持向量機(Support Vector Machine,SVM)是監(jiān)督學(xué)習(xí)中非常經(jīng)典的算法快耿。筆者主要參考學(xué)習(xí)的是李航老師《統(tǒng)計學(xué)習(xí)方法(第二版)》[1]和周志華老師的西瓜書《機器學(xué)習(xí)》[2]。
如有錯誤疏漏仪媒,煩請指正迫像。如要轉(zhuǎn)載,請聯(lián)系筆者疫铜,hpfhepf@gmail.com。
一双谆、問題描述
提前說明一下壳咕,為什么把看起來這么簡單的東西,專門寫一篇筆記顽馋,因為我覺得這個很重要谓厘,相當(dāng)于理解支持向量機的一把鑰匙,只有理解了支持向量機是怎么來的寸谜,才有可能理解后面更復(fù)雜的內(nèi)容竟稳。
考慮一個二類問題。給定一個特征空間上的訓(xùn)練數(shù)據(jù)集
其中程帕,住练,地啰,愁拭。為第個特征向量,也稱為實例亏吝,為的類標(biāo)記岭埠。當(dāng)時,稱為正例;當(dāng)時惜论,稱為負例许赃。稱為樣本點。
假設(shè)訓(xùn)練數(shù)據(jù)集是線性可分的馆类。
學(xué)習(xí)的目標(biāo)是在特征空間找到一個分類超平面混聊,能將實例分到不同的類。分離超平面對應(yīng)于方程乾巧,它由法向量和截距決定句喜,可用表示。分離超平面將特征空間劃分為兩部分沟于,一部分是正類咳胃,一部分是負類。法向量指向的一側(cè)為正類旷太,另一側(cè)為負類展懈。
對于線性可分的訓(xùn)練數(shù)據(jù)集,存在無窮多個符合條件的分類超平面供璧,那到底哪一個是最好的呢存崖?
二、線性可分支持向量機
對于無窮多個分類超平面睡毒,直觀上來說金句,位于兩類樣本中間的那個超平面可能就是最好的超平面,如圖1中粗線條表示的分類超平面吕嘀。
樣本點到分類超平面的距離為违寞。因此可以定義求取此最優(yōu)超平面的問題為如下的最優(yōu)化問題
優(yōu)化問題一:
這樣的優(yōu)化問題比較直觀,但不容易求解偶房。
對于如上所述的訓(xùn)練數(shù)據(jù)集趁曼,我們可以構(gòu)造分類超平面,使得
進一步挡闰,,使得
這是推導(dǎo)過程中的關(guān)鍵一步掰盘,在周志華老師《機器學(xué)習(xí)》[2]書中的側(cè)邊欄給出摄悯,但不夠清晰。
式中愧捕,兩個不等式兩邊同時除以奢驯,縮放后的系數(shù)仍然用表示次绘,則有
如圖2所示瘪阁,距離超平面最近的幾個訓(xùn)練樣本使得式中等號成立撒遣,這些樣本被稱為“支持向量”。兩個不同類的支持向量到分類超平面的距離之和為管跺,稱之為“間隔”义黎。
此時,優(yōu)化問題一(式)等價于
優(yōu)化問題二:
等價于
優(yōu)化問題三:
這是支持向量機的基本型豁跑。
求得優(yōu)化問題三(式)的最優(yōu)解廉涕,就得到最優(yōu)分類超平面
?對應(yīng)的分類決策函數(shù)為
以上推導(dǎo)過程參考周志華老師《機器學(xué)習(xí)》的思路。李航老師《統(tǒng)計學(xué)習(xí)方法(第二版)》使用的是函數(shù)間隔和幾何間隔的思路來推導(dǎo)的艇拍。
三火的、附錄
A、參考
[1]淑倾、《統(tǒng)計學(xué)習(xí)方法(第二版)》馏鹤,李航著,清華大學(xué)出版社
[2]娇哆、《機器學(xué)習(xí)》湃累,周志華著,清華大學(xué)出版社
B碍讨、相關(guān)目錄
[a]治力、支持向量機(一)——線性可分支持向量機導(dǎo)出
[c]勃黍、支持向量機(三)——線性支持向量機
[d]宵统、支持向量機(四)——核方法
[e]、支持向量機(五)——SMO算法
C覆获、時間線
2020-05-27 第一次發(fā)布
2020-06-06 修改問題描述和圖片來源