二分類問題
這里我們考慮的是一個(gè)兩類的分類問題眉抬,數(shù)據(jù)點(diǎn)用來表示唐责,這是一個(gè)維向量暖途,而類別用來表示,可以取或者膏执,分別代表兩個(gè)不同的類:
? ??????????????????????????????????????????????????????
劃分超平面方程
一個(gè)線性分類器就是要在維的數(shù)據(jù)空間中找到一個(gè)分離超平面驻售,其方程可以表示為:
? ??????????????????????????????????????????????????????????
其中為法向量(控制超平面的旋轉(zhuǎn)方向),為截距(控制超平面離原點(diǎn)的位置)
我們令?更米,在進(jìn)行分類的時(shí)候欺栗,我們將數(shù)據(jù)點(diǎn)代入中塘揣,如果得到的結(jié)果虑瀑,則賦予其類別,如果則賦予類別:
幾何間隔
取任一樣本點(diǎn)到超平面的垂直距離為嚷兔,因向量垂直于超平面栏笆,單位法向量為类腮。
我們有:,且點(diǎn)在超平面上蛉加,滿足蚜枢,代入超平面方程:
;解得
如果樣本點(diǎn)在分類這一側(cè)的話针饥,距離為厂抽,如果在分類一側(cè),距離表示為丁眼。
如果分類正確筷凤,則與的符號(hào)一致(同正號(hào)或者同負(fù)號(hào)),把的負(fù)號(hào)消去苞七。
統(tǒng)一用表示任一樣本點(diǎn)到超平面的幾何距離:或者
約束條件
我們希望樣本全部分類正確藐守,并且分類間隔邊界(下圖虛線)上的樣本點(diǎn)為支持向量。
? ???????????????????????????????????????????
如果分類正確莽鸭,則與的符號(hào)一致(同正號(hào)或者同負(fù)號(hào))吗伤,上式可以合并為:
? ????????????????????????????????????????????????????????
最大化分類間隔
對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分類的時(shí)候,當(dāng)它的間隔越大的時(shí)候硫眨,置信度就越好足淆。于是,我們希望能夠最大化這個(gè)間隔礁阁。
支持向量到劃分超平面的距離:
? ?????????????????????????????????????????????????
因劃分超平面是間隔的中軸線:
? ??????????????????????????????????????????????????????????????
我們希望最大間隔巧号,并同時(shí)滿足于1.把兩個(gè)類正確給分開,2.分類間隔邊界上的樣本點(diǎn)為支持向量姥闭;這兩條約束:?
? ?????????????????????????????????????????????????????????????
? ??????????????????????????????
注意最大化間隔丹鸿,僅需最大化,等價(jià)于最小化(我在這里加上了平方和系數(shù)棚品,是為了以后進(jìn)行最優(yōu)化的過程中對(duì)目標(biāo)函數(shù)求導(dǎo)時(shí)比較方便靠欢,因?yàn)槲覀儾⒉魂P(guān)心最優(yōu)情況下目標(biāo)函數(shù)的具體數(shù)值)
? ?????????????????????????????????????????????????????????????
? ?????????????????????????????????