SVM系列第十講--離群點處理

1、離群點

在最開始討論支持向量機的時候腺兴,我們就假定左电,數(shù)據(jù)是線性可分的,亦即我們可以找到一個可行的超平面將數(shù)據(jù)完全分開页响。后來為了處理非線性數(shù)據(jù)篓足,使用核方法對原來的線性 SVM 進行了推廣,使得非線性的的情況也能處理闰蚕。雖然通過映射 ?(?) 將原始數(shù)據(jù)映射到高維空間之后栈拖,能夠線性分隔的概率大大增加,但是對于某些情況還是很難處理没陡。例如可能并不是因為數(shù)據(jù)本身是非線性結構的涩哟,而只是因為數(shù)據(jù)有噪音。對于這種偏離正常位置很遠的數(shù)據(jù)點盼玄,我們稱之為離群點(outlier)贴彼,在我們原來的 SVM 模型里,離群點的存在有可能造成很大的影響埃儿,因為超平面本身就是只有少數(shù)幾個support vector 組成的器仗,如果這些 support vector 里又存在離群點的話,其影響就很大了蝌箍。例如下圖:


離群點

用黑圈圈起來的那個藍點是一個離群點青灼,它偏離了自己原本所應該在的那個半空間暴心,如果直接忽略掉它的話妓盲,原來的分隔超平面還是挺好的,但是由于這個離群點的出現(xiàn)专普,導致分隔超平面不得不被擠歪了悯衬,變成途中黑色虛線所示(這只是一個示意圖,并沒有嚴格計算精確坐標),同時間隔也相應變小了筋粗。當然策橘,更嚴重的情況是,如果這個離群點再往右上移動一些距離的話娜亿,我們將無法構造出能將數(shù)據(jù)分開的超平面來丽已。
那么SVM是如何處理這些離群點的呢?

2买决、離群點處理

為了處理這種情況沛婴,SVM 允許數(shù)據(jù)點在一定程度上偏離一下超平面。例如上圖中督赤,黑色實線所對應的距離嘁灯,就是該離群點偏離的距離,如果把它移動回來躲舌,就剛好落在原來的超平面上丑婿,而不會使得超平面發(fā)生變形了。具體來說没卸,原來的約束條件:


原約束條件

現(xiàn)在變成:


現(xiàn)約束條件

其中 ξi≥0 稱為松弛變量 (slack variable) 羹奉,對應數(shù)據(jù)點 xi 允許偏離的函數(shù)間隔的量。當然约计,如果我們運行 ξi 任意大的話尘奏,那任意的超平面都是符合條件的了。所以病蛉,我們在原來的目標函數(shù)后面加上一項炫加,使得這些 ξi 的總和也要最小:
現(xiàn)目標函數(shù)

其中 C 是一個參數(shù)铺然,用于控制目標函數(shù)中兩項(“尋找 間隔最大的超平面”和“保證數(shù)據(jù)點偏差量最小”)之間的權重俗孝。注意,其中 ξ 是需要優(yōu)化的變量(之一)魄健,而 C 是一個事先確定好的常量赋铝。完整地寫出來是這個樣子:



用之前的方法將限制加入到目標函數(shù)中,得到如下問題:

和原先求解方法一樣沽瘦,我們通過構造原問題的對偶問題來進行求解:
求解

將 w 帶回  并化簡革骨,得到和原來一樣的目標函數(shù):


目標函數(shù)

不過,由于我們得到 C?αi?ri=0 析恋,而又有 ri≥0 (作為 Lagrange multiplier 的條件)良哲,因此有 αi≤C ,所以整個 dual 問題現(xiàn)在寫作:



和之前的結果對比一下助隧,可以看到唯一的區(qū)別就是現(xiàn)在 dual variable α 多了一個上限 C 筑凫。而 Kernel 化的非線性形式也是一樣的,只要把 ?xi,xj? 換成 κ(xi,xj) 即可。這樣一來巍实,一個完整的滓技,可以處理線性和非線性并能容忍噪音和 離群點的支持向量機才終于介紹完畢了。
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末棚潦,一起剝皮案震驚了整個濱河市令漂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌丸边,老刑警劉巖洗显,帶你破解...
    沈念sama閱讀 211,348評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異原环,居然都是意外死亡挠唆,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評論 2 385
  • 文/潘曉璐 我一進店門嘱吗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來玄组,“玉大人,你說我怎么就攤上這事谒麦《矶铮” “怎么了?”我有些...
    開封第一講書人閱讀 156,936評論 0 347
  • 文/不壞的土叔 我叫張陵绕德,是天一觀的道長患膛。 經(jīng)常有香客問我,道長耻蛇,這世上最難降的妖魔是什么踪蹬? 我笑而不...
    開封第一講書人閱讀 56,427評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮臣咖,結果婚禮上跃捣,老公的妹妹穿的比我還像新娘。我一直安慰自己夺蛇,他們只是感情好疚漆,可當我...
    茶點故事閱讀 65,467評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著刁赦,像睡著了一般娶聘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上甚脉,一...
    開封第一講書人閱讀 49,785評論 1 290
  • 那天丸升,我揣著相機與錄音,去河邊找鬼宦焦。 笑死发钝,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的波闹。 我是一名探鬼主播酝豪,決...
    沈念sama閱讀 38,931評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼精堕!你這毒婦竟也來了孵淘?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,696評論 0 266
  • 序言:老撾萬榮一對情侶失蹤歹篓,失蹤者是張志新(化名)和其女友劉穎瘫证,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體庄撮,經(jīng)...
    沈念sama閱讀 44,141評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡背捌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,483評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了洞斯。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片毡庆。...
    茶點故事閱讀 38,625評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖烙如,靈堂內(nèi)的尸體忽然破棺而出么抗,到底是詐尸還是另有隱情,我是刑警寧澤亚铁,帶...
    沈念sama閱讀 34,291評論 4 329
  • 正文 年R本政府宣布蝇刀,位于F島的核電站,受9級特大地震影響徘溢,放射性物質發(fā)生泄漏吞琐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,892評論 3 312
  • 文/蒙蒙 一然爆、第九天 我趴在偏房一處隱蔽的房頂上張望顽分。 院中可真熱鬧,春花似錦施蜜、人聲如沸卒蘸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缸沃。三九已至,卻和暖如春修械,著一層夾襖步出監(jiān)牢的瞬間趾牧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工肯污, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留翘单,地道東北人吨枉。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像哄芜,于是被迫代替她去往敵國和親貌亭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,492評論 2 348

推薦閱讀更多精彩內(nèi)容