關(guān)于SVM類別選擇的一點思考

學(xué)習SVM時,關(guān)于類別選擇問題陷入了一個誤區(qū)驼侠,現(xiàn)在把這個過程記錄下來,希望有同樣疑問的童鞋也能注意一下谆吴。

圖1 二分類問題

如圖1所示倒源,直線方程為x+y-4=0,設(shè)直線上方的"o"為正例句狼,直線下方的"+"為負例笋熬。當樣本點被超平面正確分類時,滿足y_i(w \cdot x_i +b) > 0條件腻菇,但是這個前提是假設(shè)直線上方的點為正例胳螟,下方的點為負例昔馋。

現(xiàn)在換一種打標簽的方式,現(xiàn)在我設(shè)直線下方的點為正例糖耸,上方的點為負例秘遏,顯然y_i(w \cdot x_i +b) < 0(比如說取直線下方的點(0,0),代入直線方程得w \cdot x_i+b=0+0-4<0嘉竟,而此時y_i=+1邦危,所以y_i(w \cdot x_i +b) < 0),也就是說舍扰,即使我把數(shù)據(jù)點正確分類了倦蚪,但是此時滿足的是y_i(w \cdot x_i +b) < 0而不是y_i(w \cdot x_i +b) > 0。那豈不是說明妥粟,如果我這樣打標簽的話审丘,SVM理論就不成立了?

答案當然不是勾给,但看似這樣想也沒錯滩报,問題究竟出在哪呢?

這是因為我們先入為主了播急,想像一下脓钾,如果讓你自己解決這個分類問題,你怎么解決桩警?現(xiàn)在已知的是數(shù)據(jù)點和它對應(yīng)的標簽可训,但你并不知道這條直線方程,好捶枢,現(xiàn)在我們的目標當然是求這個直線方程握截。

(1)假設(shè)直線上方數(shù)據(jù)點是正例,下方的是負例烂叔,根據(jù)SVM算法谨胞,我們求出直線方程是x+y-4=0,此時數(shù)據(jù)點被正確分類蒜鸡,滿足y_i(w \cdot x_i +b) > 0胯努。

(2)再假設(shè)直線上方數(shù)據(jù)點是負例,下方的是正例逢防,根據(jù)SVM算法叶沛,我們求出直線方程是-x-y+4=0,注意忘朝,現(xiàn)在的直線方程雖然與x+y-4=0是一樣的灰署,但卻反映了不同的問題,此時數(shù)據(jù)點被正確分類,滿足y_i(w \cdot x_i +b) > 0氓侧。(讀者可以把正例點(0,0)代入驗證一下脊另。)

最后再舉一個簡單的例子來闡述一下這個問題:

引用李航老師《統(tǒng)計學(xué)習方法》中的例7.1:已知一個如圖1所示的訓(xùn)練數(shù)據(jù)集,其正例點是x_1=(3,3)^T约巷,x_2=(4,3)^T偎痛,負例點是x_3=(1,1)^T,試求最大間隔分離超平面独郎。

解:

根據(jù)訓(xùn)練數(shù)據(jù)集構(gòu)造約束優(yōu)化問題:

\min_{w,b}\frac{1}{2}(w^2_1+w^2_2) \\ s.t. \quad \ 3w_1+3w_2+b\geq1 \\ \quad \quad \quad 4w_1+3w_2+b\geq1 \\ \quad \quad \quad -w_1-w_2-b\geq1

解得:w_1=w_2=0.5踩麦,b=-2,所以最大間隔分離超平面為:0.5x_1+0.5x_2-2=0氓癌。數(shù)據(jù)點被正確分類谓谦。

現(xiàn)在把題目改動一下,設(shè)x_1,x_2為負例點贪婉,x_3為正例點反粥,則優(yōu)化問題變成:

\min_{w,b}\frac{1}{2}(w^2_1+w^2_2) \\ s.t. \quad \ -3w_1-3w_2-b\geq1 \\ \quad \quad \quad -4w_1-3w_2-b\geq1 \\ \quad \quad \quad w_1+w_2+b\geq1

解得:w_1=w_2=-0.5b=2疲迂,所以最大間隔分離超平面為:-0.5x_1-0.5x_2+2=0才顿。數(shù)據(jù)點被正確分類。

也就是說尤蒿,對于二分類問題郑气,不管選哪一類為正例,哪一類為負例腰池,都不影響分類的正確性尾组,分離超平面也是一樣的。不同的是示弓,一個超平面為w \cdot x+b=0讳侨,另一個超平面為-w \cdot x-b=0,雖然表示的都是同一個超平面奏属,但本質(zhì)是不同的爷耀。這個差別保證了超平面一側(cè)的點代入w \cdot x+b后的符號與相應(yīng)的標簽y是一致的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拍皮,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子跑杭,更是在濱河造成了極大的恐慌铆帽,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,743評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件德谅,死亡現(xiàn)場離奇詭異爹橱,居然都是意外死亡,警方通過查閱死者的電腦和手機窄做,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,296評論 3 385
  • 文/潘曉璐 我一進店門愧驱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來慰技,“玉大人,你說我怎么就攤上這事组砚∥巧蹋” “怎么了?”我有些...
    開封第一講書人閱讀 157,285評論 0 348
  • 文/不壞的土叔 我叫張陵糟红,是天一觀的道長艾帐。 經(jīng)常有香客問我,道長盆偿,這世上最難降的妖魔是什么柒爸? 我笑而不...
    開封第一講書人閱讀 56,485評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮事扭,結(jié)果婚禮上捎稚,老公的妹妹穿的比我還像新娘。我一直安慰自己求橄,他們只是感情好今野,可當我...
    茶點故事閱讀 65,581評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著谈撒,像睡著了一般腥泥。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上啃匿,一...
    開封第一講書人閱讀 49,821評論 1 290
  • 那天蛔外,我揣著相機與錄音,去河邊找鬼溯乒。 笑死夹厌,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的裆悄。 我是一名探鬼主播矛纹,決...
    沈念sama閱讀 38,960評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼光稼!你這毒婦竟也來了或南?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,719評論 0 266
  • 序言:老撾萬榮一對情侶失蹤艾君,失蹤者是張志新(化名)和其女友劉穎采够,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體冰垄,經(jīng)...
    沈念sama閱讀 44,186評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡蹬癌,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,516評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逝薪。...
    茶點故事閱讀 38,650評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡隅要,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出董济,到底是詐尸還是另有隱情步清,我是刑警寧澤,帶...
    沈念sama閱讀 34,329評論 4 330
  • 正文 年R本政府宣布感局,位于F島的核電站尼啡,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏询微。R本人自食惡果不足惜崖瞭,卻給世界環(huán)境...
    茶點故事閱讀 39,936評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望撑毛。 院中可真熱鬧书聚,春花似錦、人聲如沸藻雌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,757評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽胯杭。三九已至驯杜,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間做个,已是汗流浹背鸽心。 一陣腳步聲響...
    開封第一講書人閱讀 31,991評論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留居暖,地道東北人顽频。 一個月前我還...
    沈念sama閱讀 46,370評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像太闺,于是被迫代替她去往敵國和親糯景。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,527評論 2 349

推薦閱讀更多精彩內(nèi)容

  • 【概述】 SVM訓(xùn)練分類器的方法是尋找到超平面省骂,使正負樣本在超平面的兩側(cè)(分類正確性即“分得開”)蟀淮,且樣本到超平面...
    sealaes閱讀 11,044評論 0 7
  • 【概述】 1、感知機模型特征:感知機對應(yīng)于輸入空間中將實例劃分為正負兩類的分離超平面钞澳,屬于判別模型怠惶。 2、感知機策...
    sealaes閱讀 3,106評論 2 3
  • 本文純理論略贮,來源于 Andrew Ng 公開課和李航的《統(tǒng)計學(xué)習方法》。Support Vector Machin...
    董澤潤閱讀 1,221評論 0 0
  • 世界是什么?這個問題可以說一直為難著我們?nèi)祟愄友印H绻銓Υ藛栴}是明白而又篤定的览妖,只能說你很幸運!這無關(guān)學(xué)識揽祥,無關(guān)身份...
    雨子_閱讀 755評論 0 0
  • 本次學(xué)習內(nèi)容: 目標詞匯: Adjectives: tall, short, fat, thin, young, ...
    TimmySHENX閱讀 247評論 0 0