機(jī)器學(xué)習(xí)第六章支持向量機(jī)學(xué)習(xí)筆記

1.如何為一個(gè)訓(xùn)練集找到可以劃分不同類別樣本的劃分超平面

? ? ? ? 劃分超平面那可以通過(guò)一個(gè)線性方程來(lái)描述

? ? ? ? 使劃分超平面的劃分結(jié)果正確的訓(xùn)練樣例稱為 支持向量

? ? ? ? 兩個(gè)異類(超平面兩邊的)支持向量(訓(xùn)練樣例)到超平面的距離之和為 間隔

找到使訓(xùn)練樣本具有最大間隔的劃分超平面陶缺,也就是找到滿足條件的參數(shù)w b于毙,使間隔最大

2

訓(xùn)練完成后只需保留支持向量(被正確劃分的向量)

對(duì)偶問(wèn)題

3.如何處理非線性問(wèn)題

1)高維映射

為了簡(jiǎn)化高維映射后對(duì)偶問(wèn)題的求解仔沿,我們構(gòu)造一個(gè)核函數(shù)

2)


為劃分超平面限定一個(gè)模型


X是多個(gè)不同屬性的值構(gòu)成的向量

W是為每個(gè)屬性賦予的權(quán)重值所構(gòu)成的向量

b為位移項(xiàng)蔽莱,決定了超平面與原點(diǎn)之間的距離

所以這個(gè)超平面可擴(kuò)展為

在能將訓(xùn)練樣本分類正確的前提下找到對(duì)訓(xùn)練樣本局部擾動(dòng)容忍性(最魯棒)的超平面

我們需要運(yùn)算一個(gè)條件極值

當(dāng)這個(gè)超平面使各類訓(xùn)練樣本集到它的距離之和最大時(shí)腾仅,該超平面作為閾值最合適,但為了使樣本被正確分類我們還需要一個(gè)約束條件腾窝。

樣本空間中任意點(diǎn)到超平面的距離可由平面內(nèi)點(diǎn)到直線的距離公式推廣而來(lái)


分母為向量w的模

我們?nèi)藶橐?guī)定被劃分為正類的標(biāo)志值為1岂却,負(fù)類為-1

所以兩個(gè)異類支持向量到超平面的距離和


被劃分正確的訓(xùn)練樣本滿足


(一個(gè)訓(xùn)練集線性可分)

當(dāng)我們令


該目標(biāo)超平面滿足條件

為了方便計(jì)算,等價(jià)于

(svm的基本型)


求解這個(gè)基本型可得到滿足條件的參數(shù)w和b捆昏,即正確且唯一的模型

二次規(guī)劃:目標(biāo)函數(shù)二次項(xiàng)赚楚,限制條件一次項(xiàng)

而svm的基本型很明顯就是一個(gè)二次規(guī)劃問(wèn)題,我們采用拉格朗日乘子法求解



因此我們可以得到關(guān)系式


把關(guān)系式代入原拉格朗日函數(shù)


因此求解原問(wèn)題就變成了求解對(duì)偶問(wèn)題



由于原問(wèn)題有不等式約束骗卜,所以其對(duì)偶問(wèn)題需要增加KKT條件

顯然,這個(gè)條件的解為


通用的二次規(guī)劃算法不夠高效左胞,在這里我們

采用SMO:先固定兩個(gè)乘子之外的所有參數(shù)寇仓,然后求這兩個(gè)乘子上的極值.為什么是兩個(gè)而不是一個(gè),因?yàn)槲覀冎坝?jì)算出 當(dāng)原函數(shù)值最大時(shí)所有乘子和其對(duì)應(yīng)標(biāo)志值的乘積之和為0烤宙,所以如果每次選擇一個(gè)作為變量遍烦,則這個(gè)乘子可由其他已經(jīng)被固定的乘子導(dǎo)出。

如何選取這兩個(gè)參數(shù)

直觀來(lái)看躺枕,KKT 條件違背的程度越大服猪,則 變量更新后可能導(dǎo)致的目標(biāo)函數(shù)值減幅越大.也就是逼近解的速度越快,


用約束條件

消去其中一個(gè)變量拐云,得到一個(gè)關(guān)于ai的單變量二次規(guī)劃問(wèn)題,求解得到ai aj




處理非線性問(wèn)題

如果樣本空間非線性可分,則svm基本型的限制條件不成立


將樣本高維映射可使樣本在這個(gè)特征空間內(nèi)線性可分(降維打擊)


例如:



映射后的模型可表示為


例如:


而我們要找的超平面則也從二維變成五維


針對(duì)處理非線性問(wèn)題改造svm基本型


同理可得其對(duì)偶問(wèn)題


為了簡(jiǎn)化運(yùn)算湖蜕,我們用核函數(shù)替換




核函數(shù):用一個(gè)函數(shù)通過(guò)低維的向量值直接計(jì)算出高維向量的內(nèi)積 而不需要知道高維向量的具體形態(tài)




核函數(shù)使高維映射又變回低維運(yùn)算

怎么確定核函數(shù)?

核函數(shù)成立的充要條件:

1.可替換

2.半正定



常用的核函數(shù)


由于在現(xiàn)實(shí)任務(wù) 中 往往很難確定合適的核函數(shù)使得訓(xùn) 練樣本在特征空 間 中線性可分;退一步說(shuō)提完,

即使恰好找到了 某個(gè)核函數(shù)使訓(xùn) 練集在特征空 間中 線性可分?也很難斷 定這個(gè) 貌似線性可分的 結(jié)果不是由于過(guò)擬合所造成的

所以我們?cè)试S支持向量機(jī)在一些樣本上出錯(cuò).


這種不要求所有樣本被正確分類的向量機(jī)形式被稱為軟間隔,即不滿足約束


因此我們?cè)瓉?lái)構(gòu)造的拉格朗日函數(shù)就不適用薇缅,但為了使優(yōu)化目標(biāo)變?yōu)?在最大化間隔的同時(shí)危彩,不滿足約束的樣本也要盡可能少,我們將原來(lái)的條件函數(shù)映射成一個(gè)損失函數(shù)泳桦,使其大小與不被正確分類的標(biāo)志數(shù)量成正比

因此優(yōu)化目標(biāo)可寫(xiě)為


顯然汤徽,求解該函數(shù)需要綜合考慮間隔大,出錯(cuò)少兩個(gè)條件灸撰,分別稱為結(jié)構(gòu)風(fēng)險(xiǎn)(間隔)和經(jīng)驗(yàn)風(fēng)險(xiǎn)(誤差)

為了易求解谒府,我們通常采用數(shù)學(xué)性質(zhì)更好的函數(shù)替代拼坎,稱為"替代損失"


被劃分錯(cuò)誤的樣本距離超平面越遠(yuǎn) 損失函數(shù)的自變量z越小,1-z越大



這個(gè)約束條件由損失函數(shù)的定義推導(dǎo)而來(lái)

這同樣是一個(gè)二次規(guī)劃問(wèn)題狱掂,同理可得到它的對(duì)偶問(wèn)題及KKT條件



由KKT條件用同樣的方法可推出軟間隔支持向量機(jī)的 最終模型僅與支持向量有關(guān)演痒。

同樣用smo求解得到超平面

優(yōu)化目標(biāo)由間隔大小和誤差程度構(gòu)成,可寫(xiě)為更一般的形式


稱為正則化問(wèn)題


支持向量回歸

假設(shè)我們能容忍 f(x) 與 y之間最多有 一定 的偏差趋惨,即僅當(dāng) f(x) 與 y 之間的差別絕對(duì)值大于 E 時(shí)才計(jì)算損 失

用不敏感損失函數(shù)衡量損失程度鸟顺,SVR 問(wèn)題可形式化為


引入松弛變量



同樣用拉格朗日乘子法得到對(duì)偶問(wèn)題和其KKT條件


由求偏導(dǎo)得到的關(guān)系式可將超平面擴(kuò)展為


考慮上面提到的非線性可分情況下的特征映射形式,則表示為








I

核方法

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末器虾,一起剝皮案震驚了整個(gè)濱河市讯嫂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌兆沙,老刑警劉巖欧芽,帶你破解...
    沈念sama閱讀 211,376評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異葛圃,居然都是意外死亡千扔,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門(mén)库正,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)曲楚,“玉大人,你說(shuō)我怎么就攤上這事褥符×埽” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,966評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵喷楣,是天一觀的道長(zhǎng)趟大。 經(jīng)常有香客問(wèn)我,道長(zhǎng)铣焊,這世上最難降的妖魔是什么逊朽? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,432評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮粗截,結(jié)果婚禮上惋耙,老公的妹妹穿的比我還像新娘。我一直安慰自己熊昌,他們只是感情好绽榛,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,519評(píng)論 6 385
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著婿屹,像睡著了一般灭美。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上昂利,一...
    開(kāi)封第一講書(shū)人閱讀 49,792評(píng)論 1 290
  • 那天届腐,我揣著相機(jī)與錄音铁坎,去河邊找鬼。 笑死犁苏,一個(gè)胖子當(dāng)著我的面吹牛硬萍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播围详,決...
    沈念sama閱讀 38,933評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼朴乖,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了助赞?” 一聲冷哼從身側(cè)響起买羞,我...
    開(kāi)封第一講書(shū)人閱讀 37,701評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎雹食,沒(méi)想到半個(gè)月后畜普,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,143評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡群叶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,488評(píng)論 2 327
  • 正文 我和宋清朗相戀三年吃挑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片街立。...
    茶點(diǎn)故事閱讀 38,626評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡儒鹿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出几晤,到底是詐尸還是另有隱情,我是刑警寧澤植阴,帶...
    沈念sama閱讀 34,292評(píng)論 4 329
  • 正文 年R本政府宣布蟹瘾,位于F島的核電站,受9級(jí)特大地震影響掠手,放射性物質(zhì)發(fā)生泄漏憾朴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,896評(píng)論 3 313
  • 文/蒙蒙 一喷鸽、第九天 我趴在偏房一處隱蔽的房頂上張望众雷。 院中可真熱鬧,春花似錦做祝、人聲如沸砾省。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,742評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)编兄。三九已至,卻和暖如春声登,著一層夾襖步出監(jiān)牢的瞬間狠鸳,已是汗流浹背揣苏。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留件舵,地道東北人卸察。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像铅祸,于是被迫代替她去往敵國(guó)和親坑质。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,494評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容