SVM之松弛變量和懲罰因子

這篇文章主要參考了如下兩篇博文层释,并加入了自己的理解。

SVM入門(八)松弛變量

SVM入門(九)松弛變量(續(xù))

前言

這篇文章首先探討了SVM為什么會(huì)對(duì)噪聲敏感的問(wèn)題笑陈,然后引出了解決辦法——軟間隔分類器际度,接著介紹了松弛變量和懲罰因子,并介紹了樣本偏斜的解決辦法新锈,最后有一個(gè)總結(jié)甲脏。

SVM為什么會(huì)對(duì)噪聲敏感?

之前看周志華老師的《機(jī)器學(xué)習(xí)》里說(shuō)SVM對(duì)噪聲敏感妹笆,后來(lái)查了一些資料块请,然后有了自己的理解,在這里做一個(gè)總結(jié)拳缠。

SVM的基本形態(tài)是一個(gè)硬間隔分類器墩新,它要求所有樣本都滿足硬間隔約束(即函數(shù)間隔要大于1),所以當(dāng)數(shù)據(jù)集有噪聲點(diǎn)時(shí)窟坐,SVM為了把噪聲點(diǎn)也劃分正確海渊,超平面就會(huì)向另外一個(gè)類的樣本靠攏绵疲,這就使得劃分超平面的幾何間距變小,降低模型的泛化性能臣疑。除此之外盔憨,當(dāng)噪聲點(diǎn)混入另外一個(gè)類時(shí),對(duì)于硬間隔分類器而言讯沈,這就變成了一個(gè)線性不可分的問(wèn)題郁岩,于是就使用核技巧,通過(guò)將樣本映射到高維特征空間使得樣本線性可分缺狠,這樣得到一個(gè)復(fù)雜模型问慎,并由此導(dǎo)致過(guò)擬合(原樣本空間得到的劃分超平面會(huì)是彎彎曲曲的,它確實(shí)可以把所有樣本都劃分正確挤茄,但得到的模型只對(duì)訓(xùn)練集有效)如叼。

如何克服?

為了解決上述問(wèn)題穷劈,SVM通過(guò)引入松弛變量構(gòu)造了軟間隔分類器笼恰,它允許分類器對(duì)一些樣本犯錯(cuò),允許一些樣本不滿足硬間隔約束條件囚衔,這樣做可以避免SVM分類器過(guò)擬合挖腰,于是也就避免了模型過(guò)于復(fù)雜,降低了模型對(duì)噪聲點(diǎn)的敏感性练湿,提升了模型的泛化性能猴仑。

因?yàn)樗沙谧兞渴欠秦?fù)的,因此樣本的函數(shù)間隔可以比1小肥哎。函數(shù)間隔比1小的樣本被叫做離群點(diǎn)辽俗,我們放棄了對(duì)離群點(diǎn)的精確分類,這對(duì)我們的分類器來(lái)說(shuō)是種損失篡诽。但是放棄這些點(diǎn)也帶來(lái)了好處崖飘,那就是超平面不必向這些點(diǎn)的方向移動(dòng),因而可以得到更大的幾何間隔(在低維空間看來(lái)杈女,分類邊界也更平滑)朱浴。顯然我們必須權(quán)衡這種損失和好處。

軟間隔分類器的優(yōu)化問(wèn)題如下所示达椰,后面開始介紹松弛變量和懲罰因子翰蠢。


軟間隔分類器的優(yōu)化問(wèn)題

松弛變量

松弛變量表示樣本離群的程度,松弛變量越大啰劲,離群越遠(yuǎn)梁沧,松弛變量為零,則樣本沒有離群蝇裤。

懲罰因子

懲罰因子表示我們有多重視離群點(diǎn)帶來(lái)的損失廷支,當(dāng)C取無(wú)窮大時(shí)频鉴,會(huì)迫使超平面將所有的樣本都劃分正確,這就退化成了硬間隔分類器恋拍。

懲罰因子是事先指定的值垛孔,對(duì)應(yīng)于libsvm庫(kù)的參數(shù)C。

每個(gè)松弛變量對(duì)應(yīng)的懲罰因子可以不一樣芝囤。

我們可以用懲罰因子來(lái)解決樣本偏斜的問(wèn)題似炎。

什么是樣本偏斜,這會(huì)帶來(lái)什么后果

樣本偏斜是指數(shù)據(jù)集中正負(fù)類樣本數(shù)量不均悯姊,比如正類樣本有10000個(gè),負(fù)類樣本只有100個(gè)贩毕,這就可能使得超平面被“推向”負(fù)類(因?yàn)樨?fù)類數(shù)量少悯许,分布得不夠廣),影響結(jié)果的準(zhǔn)確性辉阶。

如何解決

可以通過(guò)為正負(fù)類樣本設(shè)置不同的懲罰因子來(lái)解決樣本偏斜的問(wèn)題先壕。具體做法是為負(fù)類設(shè)置大一點(diǎn)的懲罰因子,因?yàn)樨?fù)類本來(lái)就少谆甜,不能再分錯(cuò)了垃僚,然后正負(fù)類的懲罰因子遵循一定的比例(如下文三種情況所述),具體值要通過(guò)實(shí)驗(yàn)確定规辱。

三種情況:

(1)首先谆棺,如果是因?yàn)椴蓸拥玫降臉颖?b>不夠多樣性或者數(shù)量不夠而導(dǎo)致的樣本偏斜(分布范圍不均),可以通過(guò)衡量正負(fù)類分布的程度來(lái)確定懲罰因子的比例罕袋。比如計(jì)算它們?cè)诳臻g中占據(jù)的體積改淑,例如給負(fù)類找一個(gè)超球(就是高維空間里的球),它要包含所有負(fù)類的樣本浴讯,再給正類找一個(gè)朵夏,比較兩個(gè)球的半徑,就可以大致確定分布的情況榆纽。顯然半徑大的分布比較廣仰猖,就給小一點(diǎn)的懲罰因子。

(2)但是奈籽,如果是因?yàn)檎?fù)類本身性質(zhì)所導(dǎo)致的分布范圍不均饥侵,此時(shí)即使超球半徑差異很大,也不應(yīng)該賦予兩個(gè)類別不同的懲罰因子唠摹。例如文本分類中爆捞,某些話題涉及的面很窄,例如計(jì)算機(jī)類的文章就明顯不如文化類的文章那么“天馬行空”勾拉,這就會(huì)導(dǎo)致它們的超球半徑差異很大煮甥,但這是由它們自身性質(zhì)決定的盗温,與樣本多樣性和數(shù)量多少無(wú)關(guān),換言之成肘,這個(gè)時(shí)候不存在樣本偏斜的問(wèn)題卖局。

(3)但是,實(shí)際中我們不會(huì)這么做双霍,因?yàn)閷?shí)在太麻煩了砚偶,當(dāng)正負(fù)類數(shù)量不均時(shí),比如正負(fù)類數(shù)量比為100:1洒闸,則懲罰因子的比例直接就定為1:100(libsvm中就是這么做的)染坯。

總結(jié)

SVM是一個(gè)使用核技巧的軟間隔分類器,它的完整形態(tài)如前式所示丘逸。

若令懲罰因子C為無(wú)窮大单鹿,則SVM退化為硬間隔分類器,此時(shí)使用線性核只能處理線性可分的樣本(因?yàn)閷?duì)于線性不可分的樣本深纲,無(wú)法找到一個(gè)超平面可以正確劃分所有樣本仲锄,于是模型參數(shù)不存在可行解);

若令懲罰因子C為適當(dāng)值湃鹊,則使用線性核的SVM可以處理線性或近線性的樣本(這是因?yàn)榇藭r(shí)允許分類器在某些樣本上出錯(cuò)儒喊,所以對(duì)于近線性的樣本,可以找到一個(gè)超平面將大部分樣本正確劃分)币呵。

我們當(dāng)然要令C為適當(dāng)值怀愧,畢竟軟間隔分類器對(duì)噪聲沒那么敏感。

轉(zhuǎn)載請(qǐng)注明如下內(nèi)容:

文章來(lái)自簡(jiǎn)書富雅,作者:就是楊宗

原文鏈接:http://www.reibang.com/p/8a499171baa9

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末掸驱,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子没佑,更是在濱河造成了極大的恐慌毕贼,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,807評(píng)論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蛤奢,死亡現(xiàn)場(chǎng)離奇詭異鬼癣,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)啤贩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門待秃,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人痹屹,你說(shuō)我怎么就攤上這事章郁。” “怎么了?”我有些...
    開封第一講書人閱讀 169,589評(píng)論 0 363
  • 文/不壞的土叔 我叫張陵暖庄,是天一觀的道長(zhǎng)聊替。 經(jīng)常有香客問(wèn)我,道長(zhǎng)培廓,這世上最難降的妖魔是什么惹悄? 我笑而不...
    開封第一講書人閱讀 60,188評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮肩钠,結(jié)果婚禮上泣港,老公的妹妹穿的比我還像新娘。我一直安慰自己价匠,他們只是感情好当纱,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,185評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著踩窖,像睡著了一般惫东。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上毙石,一...
    開封第一講書人閱讀 52,785評(píng)論 1 314
  • 那天,我揣著相機(jī)與錄音颓遏,去河邊找鬼徐矩。 笑死,一個(gè)胖子當(dāng)著我的面吹牛叁幢,可吹牛的內(nèi)容都是我干的滤灯。 我是一名探鬼主播,決...
    沈念sama閱讀 41,220評(píng)論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼曼玩,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼鳞骤!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起黍判,我...
    開封第一講書人閱讀 40,167評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤豫尽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后顷帖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體美旧,經(jīng)...
    沈念sama閱讀 46,698評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,767評(píng)論 3 343
  • 正文 我和宋清朗相戀三年贬墩,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了榴嗅。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,912評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡陶舞,死狀恐怖嗽测,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肿孵,我是刑警寧澤唠粥,帶...
    沈念sama閱讀 36,572評(píng)論 5 351
  • 正文 年R本政府宣布疏魏,位于F島的核電站,受9級(jí)特大地震影響厅贪,放射性物質(zhì)發(fā)生泄漏蠢护。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,254評(píng)論 3 336
  • 文/蒙蒙 一养涮、第九天 我趴在偏房一處隱蔽的房頂上張望葵硕。 院中可真熱鬧,春花似錦贯吓、人聲如沸懈凹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)介评。三九已至,卻和暖如春爬舰,著一層夾襖步出監(jiān)牢的瞬間们陆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工情屹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坪仇,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,359評(píng)論 3 379
  • 正文 我出身青樓垃你,卻偏偏與公主長(zhǎng)得像椅文,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子惜颇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,922評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容