吃瓜學(xué)習(xí)5-第六章支持向量機(jī)(間隔與支持向量機(jī)歧斟、對(duì)偶問題、軟間隔偏形、支持向量回歸)

支持向量機(jī)基本概念

支持向量機(jī)的基本想法:

從幾何角度静袖,對(duì)于線性可分?jǐn)?shù)據(jù)集,支持向量機(jī)就是找位于兩類訓(xùn)練樣本"正中間"(或者說找距離正負(fù)樣本都最遠(yuǎn))的超平面俊扭,相比于感知機(jī)队橙,其解是唯一的,且不偏不倚萨惑,泛化性能更好(原因是這個(gè)超平面對(duì)訓(xùn)練樣本局部擾動(dòng)的"容忍性“最好捐康。)。如下圖庸蔼,最粗的那條直線解总。


存在多個(gè)劃分超平面將兩類訓(xùn)練樣本分開

n維超平面有幾個(gè)特性:(超平面w^Tx+b=0,其中w和x的維度相同)

超平面方程不唯一

法向量w和位移項(xiàng)b確定一個(gè)唯一超平面

法向量w垂直于超平面(縮放w,b時(shí),若縮放倍數(shù)為負(fù)數(shù)會(huì)改變法向量方向)

法向量w指向的那一半空間為正空間姐仅,另一半為負(fù)空間

任意點(diǎn)x到超平面的距離公式為r=\frac{|w^Tx+b|}{||w||}

幾何間隔:

假設(shè)超平面(w,b)能將訓(xùn)練樣本正確分類花枫,即對(duì)于(x_{i} ,y_{i})\epsilon D,若y_{i}=+1,則有w^Tx+b>0,y_{i}=-1萍嬉,則有w^Tx+b<0乌昔,如下

6.3

如圖6.2所示,距離超平面最近的這幾個(gè)訓(xùn)練樣本點(diǎn)使式(6.3)的等號(hào)成立,它們被稱為“支持向量”(support vector)隙疚,兩個(gè)異類支持向量到超平面的距離之和為

\gamma =\frac{2}{||w||}

\gamma 被稱為"間隔"


圖6.2 支持向量與間隔

那么到此壤追,支持向量機(jī)的基本概念已經(jīng)解說完畢。

支持向量機(jī)過程

支持向量機(jī)的模型策略就是:給定線性可分?jǐn)?shù)據(jù)集X供屉,支持向量機(jī)模型希望求得數(shù)據(jù)集X關(guān)于超平面的幾何間隔γ達(dá)到最大的那個(gè)超平面行冰,然后套上一個(gè)sign函數(shù)實(shí)現(xiàn)分類功能溺蕉。那如何求w和b?


以下是支持向量機(jī)的優(yōu)化:

支持向量機(jī)的主問題:

欲找到具有"最大間隔" 的劃分超平面悼做,也就是要找到能滿足式(6.3) 中約束的參數(shù)w 和b 疯特, 使得γ 最大,即

6.5

顯然,為了最大化間隔,僅需最大化|||w||^{-1}肛走,這等價(jià)于最小化||w||^2.于是,式(6.5)可重寫為

6.6

這就是支持向量機(jī)(Support Vector Machine,簡稱SVM)的基本型.

支持向量機(jī)的拉格朗日函數(shù)和對(duì)偶函數(shù):

備注:對(duì)偶函數(shù)是拉格朗日函數(shù)的最小值漓雅。而對(duì)偶函數(shù)實(shí)際上是求關(guān)于\alpha 的最大值。


關(guān)于公式6.11朽色,我們用SMO來解決邻吞。

軟間隔

以上模型是解決線性可分的數(shù)據(jù)集,但實(shí)際中葫男,更多解決線性不可分的數(shù)據(jù)集抱冷,因此我們?cè)试S向量機(jī)在一些樣本犯點(diǎn)錯(cuò)。為此引入了”軟間隔“概念梢褐。如下圖.

圖6.4軟間隔示意圖.紅色圈出了一些不滿足約束的樣本

從數(shù)學(xué)角度來說旺遮,軟間隔就是允許部分樣本(但要盡可能少〉不滿足下式中的約束條件

因此,可以將必須嚴(yán)格執(zhí)行的約束條件轉(zhuǎn)化為具有一定靈活性的“損失"盈咳,合格的損失函數(shù)要求如下:

(1)當(dāng)滿足約束條件時(shí)耿眉,損失為0

(2)當(dāng)不滿足約束條件時(shí),損失不為0鱼响,

(3)(可選)當(dāng)不滿足約束條件時(shí)跷敬,損失與其違反約束條件的程度成正比

只有滿足以上要求,才能保證在最小化 (min)損失的過程中,保證不滿足約束條件的樣本盡可能的少热押。

于是西傀,我們的優(yōu)化目標(biāo)寫為:

6.29

其中C>0是一個(gè)常數(shù), l_{0/1}是“0/1損失函數(shù)”,下面的z=y_i(w^Tx_i+b)-1

6.30

C用來調(diào)節(jié)損失的權(quán)重桶癣,顯然當(dāng)C→+oo時(shí)拥褂,會(huì)迫使所有樣本的損失為0,進(jìn)而退化為嚴(yán)格執(zhí)行的約束條件牙寞,退化為硬間隔饺鹃,因此,本式子可以看作支持向量機(jī)的一般化形式。總之间雀,C越大悔详,表示第二項(xiàng)影響值越小,樣本犯錯(cuò)很難惹挟,C越小茄螃,表示第二項(xiàng)影響值越大,更容易允許樣本犯錯(cuò)连锯。

然而l_{0/1}非凸归苍、非連續(xù),數(shù)學(xué)性質(zhì)不太好,使得式(6.29)不易直接求解.于是用狱,人們通常用其他一些函數(shù)來代替l_{0/1},稱為“替代損失”(surrogate loss).替代損失函數(shù)一般具有較好的數(shù)學(xué)性質(zhì),如它們通常是凸的連續(xù)函數(shù)且是l_{0/1}的上界.圖6.5給出了三種常用的替代損失函數(shù):

圖6.5 三種常見的替代損失函數(shù): hinge損失拼弃、指數(shù)損失夏伊、對(duì)率損失

若采用hinge損失,則式(6.29)變成

6.29

引入松弛變量\xi _i,上述優(yōu)化問題便和下述優(yōu)化問題等價(jià)吻氧。\xi _i=max(0,1-y_i(w^Tx_i+b))溺忧,理解損失值

6.35,

通過拉格朗日乘子法可得到式(6.35)的拉格朗日函數(shù)

6.36

其中\alpha _i≥ 0,u_i≥0是拉格朗日乘子.

支持向量回歸

對(duì)樣本(x, y)盯孙,傳統(tǒng)回歸模型通常直接基于模型輸出f(x)與真實(shí)輸出y之間的差別來計(jì)算損失,當(dāng)且僅當(dāng)f(x)與y 完全相同時(shí),損失才為零.

與此不同砸狞,支持向量回歸(Support Vector Regression,簡稱SVR)假設(shè)我們能容忍f(x)與y之間最多有\epsilon 的偏差,即僅當(dāng)f(x)與y之間的差別絕對(duì)值大于\epsilon 時(shí)才計(jì)算損失.如圖6.6所示,這相當(dāng)于以f(x)為中心,構(gòu)建了一個(gè)寬度為2\epsilon 的間隔帶,若訓(xùn)練樣本落入此間隔帶,則認(rèn)為是被預(yù)測正確的.

圖6.6支持向量回歸示意圖.紅色顯示出\epsilon -間隔帶.落入其中的樣本不計(jì)算損失.

于是,SVR問題可形式化為

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末镀梭,一起剝皮案震驚了整個(gè)濱河市刀森,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌报账,老刑警劉巖研底,帶你破解...
    沈念sama閱讀 218,036評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異透罢,居然都是意外死亡榜晦,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門羽圃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來乾胶,“玉大人,你說我怎么就攤上這事朽寞∈读” “怎么了?”我有些...
    開封第一講書人閱讀 164,411評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵脑融,是天一觀的道長喻频。 經(jīng)常有香客問我,道長肘迎,這世上最難降的妖魔是什么甥温? 我笑而不...
    開封第一講書人閱讀 58,622評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮妓布,結(jié)果婚禮上姻蚓,老公的妹妹穿的比我還像新娘。我一直安慰自己匣沼,他們只是感情好狰挡,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,661評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般圆兵。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上枢贿,一...
    開封第一講書人閱讀 51,521評(píng)論 1 304
  • 那天殉农,我揣著相機(jī)與錄音,去河邊找鬼局荚。 笑死超凳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的耀态。 我是一名探鬼主播轮傍,決...
    沈念sama閱讀 40,288評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼首装!你這毒婦竟也來了创夜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,200評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤仙逻,失蹤者是張志新(化名)和其女友劉穎驰吓,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體系奉,經(jīng)...
    沈念sama閱讀 45,644評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡檬贰,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,837評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了缺亮。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片翁涤。...
    茶點(diǎn)故事閱讀 39,953評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖萌踱,靈堂內(nèi)的尸體忽然破棺而出葵礼,到底是詐尸還是另有隱情,我是刑警寧澤并鸵,帶...
    沈念sama閱讀 35,673評(píng)論 5 346
  • 正文 年R本政府宣布章咧,位于F島的核電站,受9級(jí)特大地震影響能真,放射性物質(zhì)發(fā)生泄漏赁严。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,281評(píng)論 3 329
  • 文/蒙蒙 一粉铐、第九天 我趴在偏房一處隱蔽的房頂上張望疼约。 院中可真熱鬧,春花似錦蝙泼、人聲如沸程剥。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽织鲸。三九已至舔腾,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間搂擦,已是汗流浹背稳诚。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留瀑踢,地道東北人扳还。 一個(gè)月前我還...
    沈念sama閱讀 48,119評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像橱夭,于是被迫代替她去往敵國和親氨距。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,901評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容