從零開始SVM算法(1)-SVM是什么


SVM存在的意義

要了解SVM存在的意義仆救,首先從下面一個(gè)簡(jiǎn)單的二維數(shù)據(jù)集例子開始翠桦。



上面是一個(gè)線性可分的數(shù)據(jù)集。所謂線性可分蒋川,就是可以用一條直線將兩類數(shù)據(jù)點(diǎn)完全分開惶翻。在圖中苹支,我們用圈圈表示負(fù)類嗜历,用加號(hào)表示正類。假設(shè)現(xiàn)在要用一條直線將正類和負(fù)類完全分開吨铸,顯然會(huì)有無窮多個(gè)解行拢,有無限多條直線可以完全分開正類和負(fù)類。

下圖顯示了其中一條可以完全區(qū)分兩類的直線



圖中的Decision Boundary既是決策邊界诞吱,在決策邊界右邊的點(diǎn)被分類為正類舟奠,在決策邊界左邊的點(diǎn)被分類為負(fù)類。既然有無窮多的直線可以區(qū)分訓(xùn)練集的兩類房维,那么是否有一個(gè)標(biāo)準(zhǔn)能夠度量決策邊界的優(yōu)劣沼瘫,從而在無窮多個(gè)直線當(dāng)中選擇一個(gè)最好的作為決策邊緣,區(qū)分未知的點(diǎn)呢咙俩?答案是肯定的耿戚,這也是SVM存在的意義。SVM可以用來度量決策邊界的優(yōu)劣阿趁,下面我們將介紹SVM(支持向量機(jī))對(duì)決策邊界的度量規(guī)則膜蛔,從而選出SVM認(rèn)為的最好的決策邊界。

SVM規(guī)則


這里我們還是以剛剛的決策邊界為例子脖阵。在這幅圖里皂股,我們?cè)黾恿艘粭l與決策邊界垂直,與最近的數(shù)據(jù)點(diǎn)相連的線段命黔。這條線段的長(zhǎng)度呜呐,我們稱之為Margin。換句話說悍募,Margin就是所有數(shù)據(jù)點(diǎn)到?jīng)Q策邊界的最短距離蘑辑。

SVM規(guī)定,在決策邊界能夠完全正確劃分正負(fù)類的前提下搜立,Margin的值越大越好以躯。SVM算法目的就是要找出找出滿足這兩個(gè)條件的直線槐秧。因此SVM也稱為L(zhǎng)arge-Margin算法啄踊。

Margin值越大越好的原因

下面我們用另一個(gè)Margin值比較小的決策邊界作為例子,對(duì)比說明Margin值較大的好處刁标。

假設(shè)現(xiàn)在用此決策邊界預(yù)測(cè)圖中綠色點(diǎn)的類別颠通,很明顯該點(diǎn)位于決策邊界的左邊,該點(diǎn)應(yīng)該被分為負(fù)類膀懈。但是顿锰,在收集數(shù)據(jù)的時(shí)候,可能會(huì)存在誤差。假設(shè)在數(shù)據(jù)收集的時(shí)候硼控,某一誤差使得綠色的點(diǎn)從原來的位置移動(dòng)到了紅色點(diǎn)的位置刘陶,即x1特征由于誤差從0.2變成0.4。此時(shí)牢撼,紅色點(diǎn)落在了決策邊界的右邊匙隔,決策邊界判定這個(gè)點(diǎn)為正類,因此分類錯(cuò)誤熏版。

現(xiàn)在我們重新看回之前一個(gè)較大Margin的決策邊界例子纷责。


我們對(duì)同樣的情況進(jìn)行分析,即綠色點(diǎn)由于誤差撼短,使其位置從原來的位置移動(dòng)到了紅色點(diǎn)的位置再膳。這個(gè)時(shí)候,紅色點(diǎn)依然在決策邊界的左邊曲横,決策邊界判定這個(gè)點(diǎn)為負(fù)類點(diǎn)喂柒,此時(shí)對(duì)該點(diǎn)分類正確。

從上面兩個(gè)例子可以看出禾嫉,越大的Margin對(duì)誤差的容忍度就越好胳喷。這能一定程度減小過擬合的問題。所以SVM規(guī)定夭织,Margin值越大吭露,決策邊界越優(yōu),能夠容忍更大的測(cè)量誤差尊惰。

為什么要命名為支持向量機(jī)

很多人必定對(duì)支持向量機(jī)這個(gè)名字感到很疑惑讲竿。要知道支持向量機(jī)的命名緣由,首先要弄清楚什么是支持向量弄屡。下面我們還是以原來的例子說明這個(gè)問題题禀。

在坐標(biāo)里的每一個(gè)點(diǎn)都由多個(gè)維度組成,任何一個(gè)點(diǎn)都可以寫成多維向量的形式膀捷,維度的值是每個(gè)特征對(duì)應(yīng)的值迈嘹。因此每一個(gè)點(diǎn)也可以稱作是一個(gè)向量。圖中的虛線是兩條邊緣全庸,兩條邊緣得到的方式是讓兩條平行于決策邊界的線向兩側(cè)平行移動(dòng)秀仲,直到任意一條邊緣與圖中任意一個(gè)點(diǎn)有交集的時(shí)候,停止移動(dòng)壶笼。

在支持向量機(jī)算法中神僵,我們最終需要得到的是在能百分百區(qū)分正負(fù)類的前提下,得到一條擁有最大Margin的直線覆劈。Margin的值就是其中一條邊緣到?jīng)Q策邊界的距離保礼。

我們很容易看出沛励,Margin的大小僅僅和落在兩條虛線上的數(shù)據(jù)點(diǎn)有關(guān)系,直線之外的點(diǎn)不管怎么變化炮障,Margin的值都不會(huì)改變目派。這個(gè)算法僅僅需要落在兩條虛線上的點(diǎn)的支持,其它點(diǎn)(圖中虛化的點(diǎn))可以不存在胁赢。因此我們可以把落在虛線上的點(diǎn)稱為支持點(diǎn)址貌。前面我們提到,一個(gè)點(diǎn)也可以稱為一個(gè)向量徘键,因此练对,我們或許可以把落在虛線上的點(diǎn)稱為支持向量。

然而吹害,落在虛線上的點(diǎn)僅僅能稱作支持向量候選(Support Vector Candidate), 支持向量候選和支持向量的區(qū)別在后續(xù)的章節(jié)會(huì)有說明螟凭。SVM算法其實(shí)就是靠支持向量來計(jì)算最大Margin的一個(gè)算法,因此將其命名為支持向量機(jī)它呀。

總結(jié)

在這一章簡(jiǎn)單介紹了SVM的存在意義螺男。在后續(xù)的章節(jié)里,將會(huì)用幾何以及高等數(shù)學(xué)的知識(shí)纵穿,推理SVM的計(jì)算過程下隧,得到一個(gè)最佳的決策邊界。在本章節(jié)里谓媒,只是介紹了線性SVM淆院,所謂線性SVM就是用SVM解決線性可分的數(shù)據(jù)集問題。對(duì)于線性不分的情況句惯,SVM也會(huì)有相應(yīng)的方法解決土辩,在后續(xù)的章節(jié)里也會(huì)有詳細(xì)的推導(dǎo)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末抢野,一起剝皮案震驚了整個(gè)濱河市拷淘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌指孤,老刑警劉巖启涯,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異恃轩,居然都是意外死亡结洼,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門详恼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來补君,“玉大人,你說我怎么就攤上這事昧互⊥焯” “怎么了?”我有些...
    開封第一講書人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵敞掘,是天一觀的道長(zhǎng)叽掘。 經(jīng)常有香客問我,道長(zhǎng)玖雁,這世上最難降的妖魔是什么更扁? 我笑而不...
    開封第一講書人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮赫冬,結(jié)果婚禮上浓镜,老公的妹妹穿的比我還像新娘。我一直安慰自己劲厌,他們只是感情好膛薛,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著补鼻,像睡著了一般哄啄。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上风范,一...
    開封第一講書人閱讀 52,268評(píng)論 1 309
  • 那天咨跌,我揣著相機(jī)與錄音,去河邊找鬼硼婿。 笑死锌半,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的寇漫。 我是一名探鬼主播拳喻,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼猪腕!你這毒婦竟也來了冗澈?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤陋葡,失蹤者是張志新(化名)和其女友劉穎亚亲,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腐缤,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡捌归,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了岭粤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片惜索。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖剃浇,靈堂內(nèi)的尸體忽然破棺而出巾兆,到底是詐尸還是另有隱情猎物,我是刑警寧澤,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布角塑,位于F島的核電站蔫磨,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏圃伶。R本人自食惡果不足惜堤如,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望窒朋。 院中可真熱鬧搀罢,春花似錦、人聲如沸侥猩。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)拭宁。三九已至洛退,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間杰标,已是汗流浹背兵怯。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留腔剂,地道東北人媒区。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像掸犬,于是被迫代替她去往敵國(guó)和親袜漩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容