從感知機到SVM的學習

感知機是SVM的基礎(chǔ)嘛,兩者都有線性二分類模型覆积,感知機原理比較簡單莲蜘,就是自變量是wx+b的符號函數(shù),優(yōu)化函數(shù)就是所有誤分類點的幾何距離;SVM擴展就多一些士复,優(yōu)化函數(shù)是參數(shù)的L2范數(shù)图谷,也就是結(jié)構(gòu)風險最小化的翩活,可以通過核函數(shù)把低維不可分數(shù)據(jù)映射到高維,從而線性可分便贵,所以SVM也有非線性分類器菠镇。

支持向量機(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本承璃、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢利耍,并能夠推廣應(yīng)用到函數(shù)擬合等其他機器學習問題中[10]。

支持向量機方法是建立在統(tǒng)計學習理論的VC 維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上的盔粹,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對特定訓練樣本的學習精度隘梨,Accuracy)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷,以期獲得最好的推廣能力[14](或稱泛化能力)舷嗡。

Vapnik是統(tǒng)計機器學習的大牛轴猎,這想必都不用說,他出版的《Statistical Learning Theory》是一本完整闡述統(tǒng)計機器學習思想的名著进萄。在該書中詳細的論證了統(tǒng)計機器學習之所以區(qū)別于傳統(tǒng)機器學習的本質(zhì)捻脖,就在于統(tǒng)計機器學習能夠精確的給出學習效果,能夠解答需要的樣本數(shù)等等一系列問題中鼠。與統(tǒng)計機器學習的精密思維相比可婶,傳統(tǒng)的機器學習基本上屬于摸著石頭過河,用傳統(tǒng)的機器學習方法構(gòu)造分類系統(tǒng)完全成了一種技巧援雇,一個人做的結(jié)果可能很好矛渴,另一個人差不多的方法做出來卻很差,缺乏指導和原則熊杨。

所謂VC維是對函數(shù)類的一種度量曙旭,可以簡單的理解為問題的復(fù)雜程度盗舰,VC維越高晶府,一個問題就越復(fù)雜。正是因為SVM關(guān)注的是VC維钻趋,后面我們可以看到川陆,SVM解決問題的時候,和樣本的維數(shù)是無關(guān)的(甚至樣本是上萬維的都可以蛮位,這使得SVM很適合用來解決文本分類的問題较沪,當然,有這樣的能力也因為引入了核函數(shù))失仁。

感知機是將線性二分類問題視為在特征空間中尋找切分面(線)尸曼,根據(jù)不同的初始值會有很多種結(jié)果,但是如何找到最優(yōu)的切分面萄焦?

最大化分類間隔

?直觀上最有效

?概率的角度控轿,就是使得置信度最小的點置信度最大

?即使我們在選邊界的時候犯了小錯誤冤竹,使得邊界有偏移,仍 然有很大概率保證可以正確分類絕大多數(shù)樣本 然有很大概率保證可以正確分類絕大多數(shù)樣本 ?

很容易實現(xiàn)交叉驗證茬射,因為邊界只與極少數(shù)的樣本點有關(guān) ?

有一定的理論支撐(如VC維) ?

實驗結(jié)果驗證了其有效性

SVM主要用在線性可分支持向量機鹦蠕,線性支持向量機,非線性支持向量機在抛。線性支持向量機的思路是是的誤分類點最小钟病。非線性支持向量機將原始數(shù)據(jù)向高維特征空間映射,使得數(shù)據(jù)在新空 間內(nèi)線性可分刚梭。?最初想解決線性不可分(非線性)問題的思路是向高維空間轉(zhuǎn)化肠阱,使其變得線 性可分而轉(zhuǎn)化最關(guān)鍵的部分就在于找到映射方法可是如何找 性可分。而轉(zhuǎn)化最關(guān)鍵的部分就在于找到映射方法望浩∠剿可是,如何找 到這個映射磨德,沒有系統(tǒng)性的方法缘回。而且高維空間和映射函數(shù)也并不 是唯一的,過于復(fù)雜典挑,并且會導致維度災(zāi)難酥宴! ?在線性SVM中的對偶形式中,目標函數(shù)和分離超平面都只需要計算 內(nèi)積您觉,只關(guān)心計算那個高維空間里內(nèi)積的值拙寡。不必顯式的給出映射 函數(shù)和值 函數(shù)和值。有沒有什么辦法只得到高維空間中向量的內(nèi)積呢琳水?答案是核函數(shù)(Kernel Function)肆糕。

SVM(支持向量機)的一般流程:

選擇一個核函數(shù)K(用以計算樣本內(nèi)積)

?選擇一個C值(參數(shù),控制軟間隔程度以及防止過擬合)

?利用訓練樣本在孝,求解二次規(guī)劃問題(可以使用大量軟件 ?利用訓練樣本诚啃,求解二次規(guī)劃問題(可以使用大量軟件 包)

?根據(jù)支持向量與切分面構(gòu)造切分函數(shù)sign()

?根據(jù)切分函數(shù),對測試樣本進行分類


SVM優(yōu)點

?有堅實理論基礎(chǔ)的新穎的小樣本學習方法 ?

平均而言私沮,在各類應(yīng)用中表現(xiàn)最佳 ?結(jié)果穩(wěn)定始赎、可重復(fù),且不依賴于特定的優(yōu)化算法仔燕、數(shù)據(jù) ?

結(jié)果穩(wěn)定造垛、可重復(fù),且不依賴于特定的優(yōu)化算法晰搀、數(shù)據(jù) ?

使用凸優(yōu)化可以得到全局解五辽,且使用2范數(shù)防止過擬合 ?

缺點 ?

?需要調(diào)節(jié)參數(shù)

核函數(shù)高維映射使得結(jié)果有時難以直觀理解 ?

有一定的計算復(fù)雜度

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市外恕,隨后出現(xiàn)的幾起案子杆逗,更是在濱河造成了極大的恐慌俄周,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,546評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件髓迎,死亡現(xiàn)場離奇詭異峦朗,居然都是意外死亡,警方通過查閱死者的電腦和手機排龄,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,224評論 3 395
  • 文/潘曉璐 我一進店門波势,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人橄维,你說我怎么就攤上這事尺铣。” “怎么了争舞?”我有些...
    開封第一講書人閱讀 164,911評論 0 354
  • 文/不壞的土叔 我叫張陵凛忿,是天一觀的道長。 經(jīng)常有香客問我竞川,道長店溢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,737評論 1 294
  • 正文 為了忘掉前任委乌,我火速辦了婚禮床牧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘遭贸。我一直安慰自己戈咳,他們只是感情好,可當我...
    茶點故事閱讀 67,753評論 6 392
  • 文/花漫 我一把揭開白布壕吹。 她就那樣靜靜地躺著著蛙,像睡著了一般。 火紅的嫁衣襯著肌膚如雪耳贬。 梳的紋絲不亂的頭發(fā)上踏堡,一...
    開封第一講書人閱讀 51,598評論 1 305
  • 那天,我揣著相機與錄音效拭,去河邊找鬼暂吉。 笑死胖秒,一個胖子當著我的面吹牛缎患,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播阎肝,決...
    沈念sama閱讀 40,338評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼挤渔,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了风题?” 一聲冷哼從身側(cè)響起判导,我...
    開封第一講書人閱讀 39,249評論 0 276
  • 序言:老撾萬榮一對情侶失蹤嫉父,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后眼刃,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绕辖,經(jīng)...
    沈念sama閱讀 45,696評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,888評論 3 336
  • 正文 我和宋清朗相戀三年擂红,在試婚紗的時候發(fā)現(xiàn)自己被綠了仪际。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,013評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡昵骤,死狀恐怖树碱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情变秦,我是刑警寧澤成榜,帶...
    沈念sama閱讀 35,731評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站蹦玫,受9級特大地震影響赎婚,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜樱溉,卻給世界環(huán)境...
    茶點故事閱讀 41,348評論 3 330
  • 文/蒙蒙 一惑淳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧饺窿,春花似錦歧焦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,929評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至肠套,卻和暖如春舰涌,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背你稚。 一陣腳步聲響...
    開封第一講書人閱讀 33,048評論 1 270
  • 我被黑心中介騙來泰國打工瓷耙, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人刁赖。 一個月前我還...
    沈念sama閱讀 48,203評論 3 370
  • 正文 我出身青樓搁痛,卻偏偏與公主長得像,于是被迫代替她去往敵國和親宇弛。 傳聞我的和親對象是個殘疾皇子鸡典,可洞房花燭夜當晚...
    茶點故事閱讀 44,960評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 機器學習是做NLP和計算機視覺這類應(yīng)用算法的基礎(chǔ),雖然現(xiàn)在深度學習模型大行其道枪芒,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡閱讀 20,507評論 4 65
  • 注:題中所指的『機器學習』不包括『深度學習』彻况。本篇文章以理論推導為主谁尸,不涉及代碼實現(xiàn)。 前些日子定下了未來三年左右...
    我偏笑_NSNirvana閱讀 39,980評論 12 145
  • 【概述】 SVM訓練分類器的方法是尋找到超平面纽甘,使正負樣本在超平面的兩側(cè)(分類正確性即“分得開”)良蛮,且樣本到超平面...
    sealaes閱讀 11,076評論 0 7
  • 考試說明 注重基礎(chǔ)知識和概念的理解,因此解題中的計算過程不會很復(fù)雜悍赢,但是會有推公式的過程背镇。本課程的重點知識包括:貝...
    藝術(shù)叔閱讀 2,842評論 0 3
  • ML & DM 集成學習 模型融合 ensemble http://wakemeup.space/?p=109 E...
    章魚哥呀閱讀 1,805評論 0 6