經(jīng)過最近的學(xué)習(xí)了解了部分理論但是沒有實(shí)踐應(yīng)用,所以先寫下來帚屉,可能不準(zhǔn)確。
定義:
在reddit上看到一個(gè)很好的解釋更直觀和生動(dòng):
如何向一個(gè)五歲的孩子解釋SVM
知乎上也有人提到這個(gè)漾峡,而且已經(jīng)整理如下:中文
wiki定義:其實(shí)就是個(gè)監(jiān)督學(xué)習(xí)模型攻旦,用來分析回歸和分類,它巧妙的運(yùn)用非線性變換把低維的特征投影到高維生逸,可以執(zhí)行比較復(fù)雜的分類任務(wù)(升維打擊)牢屋,是一種二類分類模型。它的基本模型是定義在特征空間上的間隔最大的線性分類器槽袄,間隔最大使它有別于感知機(jī)烙无;
包含了構(gòu)建從簡(jiǎn)單到復(fù)雜的模型:線性可分支持向量機(jī)(linear support vector machine in linearly separable case)、線性支持向量機(jī)(linear support vector machine)及非線性支持向量機(jī)(non-linear support vector machine)遍尺。簡(jiǎn)單模型是復(fù)雜模型的基礎(chǔ)截酷,也是復(fù)雜模型的特殊情況。(具體可以看李航老師的《統(tǒng)計(jì)學(xué)習(xí)方法》)
1基本問題
在知錯(cuò)能改感知機(jī)中乾戏,學(xué)習(xí)到在線性可分的訓(xùn)練數(shù)據(jù)中迂苛,我們可以得到不能分分類界線
為了得到最大邊界間隔的超平面三热,將問題準(zhǔn)換為優(yōu)化問題,期中margin(b,w)表示超平面wx+b 離樣本的最小距離三幻,進(jìn)而讓這個(gè)最小距離最大化:
描述距離:
距離推導(dǎo)的結(jié)果:
將問題轉(zhuǎn)化為:
進(jìn)一步簡(jiǎn)化就漾,因?yàn)閣和b同時(shí)成倍的放縮不會(huì)影響超平面的變化,所以總可以找到一組w* 和b使得miny(wx+b *)=1,所以有
當(dāng)然可以用反正法證明一下念搬,假設(shè)
y(*wx+b *)>1抑堡, 我們可以通過放縮w,b得到更優(yōu)化的解朗徊,約束條件和下圖等價(jià)
最后得到上圖的優(yōu)化問題夷野,這個(gè)問題的形式和二次規(guī)劃(線性規(guī)劃的進(jìn)階版)一致,所以可以用二次規(guī)劃的方法解決荣倾。
2可行性
因?yàn)閟vm對(duì)噪聲的容忍性更強(qiáng)悯搔,所以從VC bound 角度講(超平面到底能產(chǎn)生多少圈圈叉叉分類的組合),對(duì)于PLA來說可以shatter所有組合舌仍,但svm會(huì)對(duì)margin有限制
linear hard SVM不能shatter任意三個(gè)inputs妒貌,說明有更少的維度,所以有更好的泛化能力铸豁。同時(shí)灌曙,使用特征轉(zhuǎn)化,可以使Linear hard SVM 進(jìn)行更精細(xì)分類节芥。
使用場(chǎng)景
SVM的典型使用場(chǎng)景如:
一在刺、房?jī)r(jià)估算
根據(jù)過去十年來房?jī)r(jià)和房屋面積、臥室數(shù)量头镊、當(dāng)?shù)叵M(fèi)水平等等各種因素?cái)?shù)據(jù)蚣驼,將房屋分為「豪宅」、「中等」相艇、「經(jīng)濟(jì)型住房」颖杏、「貧民窟」等幾類;
使用SVM訓(xùn)練這些數(shù)據(jù)得出一個(gè)模型坛芽,可以用來預(yù)測(cè)在新的條件下留储,某個(gè)住房可以被劃歸到哪種分類,價(jià)值區(qū)間多少咙轩。
二获讳、垃圾郵件分類器:
獲取可疑的spam email關(guān)鍵詞列表,例如:Buy活喊、now等(實(shí)際Spam Corpus可以參考使用Apache Spam Assassin)丐膝;
收集大量的spam和非spam郵件數(shù)據(jù),將其中包含的可疑spam關(guān)鍵詞找出并標(biāo)記在特征向量中,用SVM訓(xùn)練這些數(shù)據(jù)尤误,得出一個(gè)模型,用來判斷一封新的郵件是否為一個(gè)垃圾郵件结缚。
其實(shí)SVM最難的在于各種核函數(shù)损晤,包括選取,這個(gè)在后面的文章中再說红竭。
Reference:
臺(tái)大林老師《機(jī)器學(xué)習(xí)技法》
李航《統(tǒng)計(jì)學(xué)習(xí)方法》