[分類] 感知機和支持向量機 (perceptron & SVM)

感知機是一個線性分類器腻要,是向量機的基礎复罐。

為了方便敘述,僅考慮2維問題雄家。如果數(shù)據是線性可分的話效诅,那么一定存在一些線f(x)=\beta_0+\beta x,使得線的兩側是兩個不同的類。

1. 感知機模型
Y={1,-1},如果\beta_0+\beta x>0填帽,則預測\hat{y}_i=1;如果\beta_0+\beta x<0蛛淋,則預測\hat{y}_i=-1。所以篡腌,如果出現(xiàn)誤分類的話褐荷,y_i(\beta_0+\beta x_i)<0
在這個模型中嘹悼,我們的目標是將誤分類點的個數(shù)->0,所以其實是在最小化一下這個loss function:
min D(\beta_0,\beta)= min -\sum_{i \in M} y_i(\beta_0+\beta x_i),其中M是誤分類點的index叛甫,用一些最優(yōu)化方法可以解得:
\frac{\partial D (\beta_0,\beta)}{\partial \beta_0}=-\sum_{i \in M} y_i x_i; \frac{\partial D (\beta_0,\beta)}{\partial \beta}=-\sum_{i \in M} y_i

但感知機模型有一些問題:

  1. 如果一個平面線性可分的話,那一定存在不止一條的線可以劃分這個平面杨伙,但我們顯然是想要找到一條最好的
  2. 如果這些點線性不可分其监,那這個算法可能不會收斂

為了解決問題1,我們想在模型1的基礎上加一些條件限制限匣,于是有了hard-margin SVM:

2.Hard-Margin SVM
hard-margin SVM是在尋找一條線性分割線的同時抖苦,找到一個可以最大間隔超平面的線。
\gamma_i = y_i(\frac{\beta_0}{||\beta||}+\frac{\beta x_i}{||\beta||}),如果點x_i是分類正確的話米死,那么\gamma_i是點到超平面的距離锌历。如果是誤分類點的話,那么\gamma_i<0,所以我們希望

max_{\beta,\beta_0,||beta||=1} \gamma
s.t. y_i(\beta_0+\beta x_i) \ge \gamma

這就保證了所有點到超平面的距離都大于\gamma,最大化\gamma使得我們能得到一個最大間隔超平面峦筒。

因為||\beta||=1,所以\frac{1}{||\beta||}y_i(\beta_0+\beta x_i) \ge \gamma ->y_i(\beta_0+\beta x_i) \ge ||\beta|| \gamma究西,令||\beta|| =\frac{1}{\gamma},則這個模型的優(yōu)化問題等價于:

min_{\beta,\beta_0} \frac{1}{2}||\beta||^2
s.t. y_i(\beta_0+\beta x_i) \ge 1

要求解這個問題,我們可以把這個優(yōu)化問題寫成最小化以下的拉格朗日方程:L_p=\frac{1}{2}||\beta||^2-\sum_{i=1}^N\alpha_i [y_i(\beta_0+\beta x_i) -1]物喷,令一階導為0求極值
\frac{\partial L_p}{\partial \beta}=\beta-\sum_{i=1}^N\alpha_i y_i x_i=0;\frac{\partial L_p}{\partial \beta_0}=\sum_{i=1}^N\alpha_i y_i=0
將這些值代入L_p=\frac{1}{2} \sum_i \sum_j \alpha_i \alpha_j x_i x_j y_i y_j-\sum_i \alpha_i y_i[(\sum_{j=1}^N\alpha_j y_j x_j)x_i]+\sum_i\alpha_i=\alpha_i - \frac{1}{2} \sum_i \sum_j \alpha_i \alpha_j y_i y_j x_i x_j
考慮L_P的對偶問題L_D=max_\alpha [\alpha_i - \frac{1}{2} \sum_i \sum_j \alpha_i \alpha_j y_i y_j x_i x_j]
s.t. \alpha_i \ge 0,\sum_{i=1}^N\alpha_i y_i=0

至于為什么這個方法要叫做Support Vector Machine,是因為我們會發(fā)現(xiàn)只有在兩條邊界線上的點對應的\alpha_i會大于0卤材,所以其實問題的解僅僅只和訓練集中的一部分點有關,那這些點就被稱為support vector峦失。

求解對偶問題與求解原問題等價扇丛,那為什么要引入對偶問題呢?一個是因為對偶問題的求解一般會比較簡單宠进,而且對偶問題改變了算法復雜度晕拆。
對于原問題藐翎,算法復雜度與feature數(shù)有關材蹬,而對于對偶問題,算法復雜度與樣本數(shù)有關吝镣。因為在SVM中有時會運用核函數(shù)進行升維堤器,并且升維后的樣本維度可能會大于樣本數(shù),所以對偶問題會更容易求解末贾。
而且對偶問題的形式更容易引入核函數(shù)的概念

為了解決問題2闸溃,又可以再hard-margin模型的基礎上加一些容忍度,使得模型可以容忍誤分類點的存在。

3.Soft-Margin SVM
min_{\beta,\beta_0} \frac{1}{2}||\beta||^2+C\sum_{i=1}^n \epsilon_i
s.t. y_i(\beta_0+\beta x_i) \ge 1-\epsilon_i; \epsilon_i \ge 0

\epsilon_i 的作用就是給一些容忍度辉川,對于誤判的點表蝙,\epsilon_i>1,對于正確判斷但在兩線之間的點乓旗,\epsilon_i<1府蛇,對于其他的點,\epsilon_i=0

ML-edx

我們一般會用cross-validation來選擇C屿愚,C越大汇跨,\gamma就會越小。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末妆距,一起剝皮案震驚了整個濱河市穷遂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌娱据,老刑警劉巖蚪黑,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異中剩,居然都是意外死亡祠锣,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進店門咽安,熙熙樓的掌柜王于貴愁眉苦臉地迎上來伴网,“玉大人,你說我怎么就攤上這事妆棒≡杼冢” “怎么了?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵糕珊,是天一觀的道長动分。 經常有香客問我,道長红选,這世上最難降的妖魔是什么澜公? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮喇肋,結果婚禮上坟乾,老公的妹妹穿的比我還像新娘。我一直安慰自己蝶防,他們只是感情好甚侣,可當我...
    茶點故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著间学,像睡著了一般殷费。 火紅的嫁衣襯著肌膚如雪印荔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天详羡,我揣著相機與錄音仍律,去河邊找鬼。 笑死实柠,一個胖子當著我的面吹牛染苛,可吹牛的內容都是我干的。 我是一名探鬼主播主到,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼茶行,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了登钥?” 一聲冷哼從身側響起畔师,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎牧牢,沒想到半個月后看锉,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡塔鳍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年伯铣,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片轮纫。...
    茶點故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡腔寡,死狀恐怖,靈堂內的尸體忽然破棺而出掌唾,到底是詐尸還是另有隱情放前,我是刑警寧澤,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布糯彬,位于F島的核電站凭语,受9級特大地震影響,放射性物質發(fā)生泄漏撩扒。R本人自食惡果不足惜似扔,卻給世界環(huán)境...
    茶點故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望搓谆。 院中可真熱鬧炒辉,春花似錦、人聲如沸挽拔。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽螃诅。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間术裸,已是汗流浹背倘是。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留袭艺,地道東北人搀崭。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像猾编,于是被迫代替她去往敵國和親瘤睹。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內容