大數(shù)據(jù)經(jīng)典算法解析(3)一SVM算法

姓名:崔升? ? 學(xué)號(hào):14020120005

轉(zhuǎn)載自:http://www.cnblogs.com/en-heng/p/5965438.html

【嵌牛導(dǎo)讀】:SVM(Support Vector Machines)是分類算法中應(yīng)用廣泛豌研、效果不錯(cuò)的一類妹田。《統(tǒng)計(jì)學(xué)習(xí)方法》對(duì)SVM的數(shù)學(xué)原理做了詳細(xì)推導(dǎo)與論述聂沙,本文僅做整理秆麸。由簡(jiǎn)至繁SVM可分類為三類:線性可分(linear SVM in linearly separable case)的線性SVM、線性不可分的線性SVM及汉、非線性(nonlinear)SVM。

【嵌牛鼻子】:經(jīng)典大數(shù)據(jù)算法之SVM簡(jiǎn)單介紹

【嵌牛提問(wèn)】:SVM是一種怎么的算法屯烦,三種SVM分別是什么坷随?

【嵌牛正文】:

1. 線性可分

對(duì)于二類分類問(wèn)題,訓(xùn)練集T={(x1,y1),(x2,y2),?,(xN,yN)}T={(x1,y1),(x2,y2),?,(xN,yN)}驻龟,其類別yi∈{0,1}yi∈{0,1}温眉,線性SVM通過(guò)學(xué)習(xí)得到分離超平面(hyperplane):

w?x+b=0w?x+b=0

以及相應(yīng)的分類決策函數(shù):

f(x)=sign(w?x+b)f(x)=sign(w?x+b)

有如下圖所示的分離超平面,哪一個(gè)超平面的分類效果更好呢翁狐?


直觀上类溢,超平面B1B1的分類效果更好一些。將距離分離超平面最近的兩個(gè)不同類別的樣本點(diǎn)稱為支持向量(support vector)的露懒,構(gòu)成了兩條平行于分離超平面的長(zhǎng)帶闯冷,二者之間的距離稱之為margin。顯然懈词,margin更大蛇耀,則分類正確的確信度更高(與超平面的距離表示分類的確信度,距離越遠(yuǎn)則分類正確的確信度越高)坎弯。通過(guò)計(jì)算容易得到:

margin=2∥w∥margin=2‖w‖

從上圖中可觀察到:margin以外的樣本點(diǎn)對(duì)于確定分離超平面沒(méi)有貢獻(xiàn)纺涤,換句話說(shuō)译暂,SVM是有很重要的訓(xùn)練樣本(支持向量)所確定的。至此撩炊,SVM分類問(wèn)題可描述為在全部分類正確的情況下外永,最大化2∥w∥2‖w‖(等價(jià)于最小化12∥w∥212‖w‖2);線性分類的約束最優(yōu)化問(wèn)題:

minw,b12|w|2s.t.yi(w?xi+b)?1≥0(1)(2)(1)minw,b12|w|2(2)s.t.yi(w?xi+b)?1≥0

對(duì)每一個(gè)不等式約束引進(jìn)拉格朗日乘子(Lagrange multiplier)αi≥0,i=1,2,?,Nαi≥0,i=1,2,?,N拧咳;構(gòu)造拉格朗日函數(shù)(Lagrange function):

L(w,b,α)=12|w|2?∑i=1Nαi[yi(w?xi+b)?1](3)(3)L(w,b,α)=12|w|2?∑i=1Nαi[yi(w?xi+b)?1]

根據(jù)拉格朗日對(duì)偶性象迎,原始的約束最優(yōu)化問(wèn)題可等價(jià)于極大極小的對(duì)偶問(wèn)題:

maxαminw,bL(w,b,α)maxαminw,bL(w,b,α)

將L(w,b,α)L(w,b,α)對(duì)w,bw,b求偏導(dǎo)并令其等于0,則

?L?w=w?∑i=1Nαiyixi=0?w=∑i=1Nαiyixi?L?b=∑i=1Nαiyi=0?∑i=1Nαiyi=0?L?w=w?∑i=1Nαiyixi=0?w=∑i=1Nαiyixi?L?b=∑i=1Nαiyi=0?∑i=1Nαiyi=0

將上述式子代入拉格朗日函數(shù)(3)(3)中呛踊,對(duì)偶問(wèn)題轉(zhuǎn)為

maxα?12∑i=1N∑j=1Nαiαjyiyj(xi?xj)+∑i=1Nαimaxα?12∑i=1N∑j=1Nαiαjyiyj(xi?xj)+∑i=1Nαi

等價(jià)于最優(yōu)化問(wèn)題:

minαs.t.12∑i=1N∑j=1Nαiαjyiyj(xi?xj)?∑i=1Nαi∑i=1Nαiyi=0αi≥0,i=1,2,?,N(4)(5)(6)(4)minα12∑i=1N∑j=1Nαiαjyiyj(xi?xj)?∑i=1Nαi(5)s.t.∑i=1Nαiyi=0(6)αi≥0,i=1,2,?,N

線性可分是理想情形砾淌,大多數(shù)情況下,由于噪聲或特異點(diǎn)等各種原因谭网,訓(xùn)練樣本是線性不可分的汪厨。因此,需要更一般化的學(xué)習(xí)算法愉择。

2. 線性不可分

線性不可分意味著有樣本點(diǎn)不滿足約束條件(2)(2)劫乱,為了解決這個(gè)問(wèn)題,對(duì)每個(gè)樣本引入一個(gè)松弛變量ξi≥0ξi≥0锥涕,這樣約束條件變?yōu)椋?/p>

yi(w?xi+b)≥1?ξiyi(w?xi+b)≥1?ξi

目標(biāo)函數(shù)則變?yōu)?/p>

minw,b,ξ12∥w∥2+C∑i=1Nξiminw,b,ξ12‖w‖2+C∑i=1Nξi

其中衷戈,CC為懲罰函數(shù),目標(biāo)函數(shù)有兩層含義:

margin盡量大层坠,

誤分類的樣本點(diǎn)計(jì)量少

CC為調(diào)節(jié)二者的參數(shù)殖妇。通過(guò)構(gòu)造拉格朗日函數(shù)并求解偏導(dǎo)(具體推導(dǎo)略去),可得到等價(jià)的對(duì)偶問(wèn)題:

minα12∑i=1N∑j=1Nαiαjyiyj(xi?xj)?∑i=1Nαi(7)(7)minα12∑i=1N∑j=1Nαiαjyiyj(xi?xj)?∑i=1Nαi

s.t.∑i=1Nαiyi=00≤αi≤C,i=1,2,?,N(8)(9)(8)s.t.∑i=1Nαiyi=0(9)0≤αi≤C,i=1,2,?,N

與上一節(jié)中線性可分的對(duì)偶問(wèn)題相比破花,只是約束條件αiαi發(fā)生變化谦趣,問(wèn)題求解思路與之類似。

3. 非線性

對(duì)于非線性問(wèn)題座每,線性SVM不再適用了前鹅,需要非線性SVM來(lái)解決了。解決非線性分類問(wèn)題的思路峭梳,通過(guò)空間變換??(一般是低維空間映射到高維空間x→?(x)x→?(x))后實(shí)現(xiàn)線性可分舰绘,在下圖所示的例子中,通過(guò)空間變換葱椭,將左圖中的橢圓分離面變換成了右圖中直線捂寿。


在SVM的等價(jià)對(duì)偶問(wèn)題中的目標(biāo)函數(shù)中有樣本點(diǎn)的內(nèi)積xi?xjxi?xj,在空間變換后則是?(xi)??(xj)?(xi)??(xj)挫以,由于維數(shù)增加導(dǎo)致內(nèi)積計(jì)算成本增加者蠕,這時(shí)核函數(shù)(kernel function)便派上用場(chǎng)了,將映射后的高維空間內(nèi)積轉(zhuǎn)換成低維空間的函數(shù):

K(x,z)=?(x)??(z)K(x,z)=?(x)??(z)

將其代入一般化的SVM學(xué)習(xí)算法的目標(biāo)函數(shù)(7)(7)中掐松,可得非線性SVM的最優(yōu)化問(wèn)題:

minαs.t.12∑i=1N∑j=1NαiαjyiyjK(xi,xj)?∑i=1Nαi∑i=1Nαiyi=00≤αi≤C,i=1,2,?,N(10)(11)(12)(10)minα12∑i=1N∑j=1NαiαjyiyjK(xi,xj)?∑i=1Nαi(11)s.t.∑i=1Nαiyi=0(12)0≤αi≤C,i=1,2,?,N

4. 參考資料

[1] 李航踱侣,《統(tǒng)計(jì)學(xué)習(xí)方法》.

[2] Pang-Ning Tan, Michael Steinbach, Vipin Kumar,Introduction to Data Mining.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末粪小,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子抡句,更是在濱河造成了極大的恐慌探膊,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件待榔,死亡現(xiàn)場(chǎng)離奇詭異逞壁,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)锐锣,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)腌闯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人雕憔,你說(shuō)我怎么就攤上這事姿骏。” “怎么了斤彼?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵分瘦,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我琉苇,道長(zhǎng)嘲玫,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任并扇,我火速辦了婚禮去团,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拜马。我一直安慰自己渗勘,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布俩莽。 她就那樣靜靜地躺著,像睡著了一般乔遮。 火紅的嫁衣襯著肌膚如雪扮超。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天蹋肮,我揣著相機(jī)與錄音出刷,去河邊找鬼。 笑死坯辩,一個(gè)胖子當(dāng)著我的面吹牛馁龟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播漆魔,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼坷檩,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼却音!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起矢炼,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤系瓢,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后句灌,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體夷陋,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年胰锌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了骗绕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡资昧,死狀恐怖酬土,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情榛搔,我是刑警寧澤诺凡,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站践惑,受9級(jí)特大地震影響腹泌,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜尔觉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一凉袱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧侦铜,春花似錦专甩、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至贡未,卻和暖如春种樱,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背俊卤。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工嫩挤, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人消恍。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓岂昭,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親狠怨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子约啊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容