日常復(fù)習(xí)SVM

? ? ? ? 支持向量機(jī)(supot vector machine)是機(jī)器學(xué)習(xí)中非常重要的一種算法皂岔,在神經(jīng)網(wǎng)絡(luò)普及之前,SVM在數(shù)據(jù)分類領(lǐng)域一直占據(jù)著主導(dǎo)地位复隆。特點(diǎn)是對(duì)于訓(xùn)練數(shù)據(jù)集的數(shù)量要求不多俱萍,并且能夠得出很好的效果宰缤。


1 線性SVM過程

? ??????決策邊界:作為分類數(shù)據(jù)的邊界立磁,如公式1.1所示呈队,W^t作為x(數(shù)據(jù))的法向量存在,應(yīng)與輸入數(shù)據(jù)的維度一致唱歧。

? F(X) = W^T ? X + B? 公式1.1

圖1 圖片來源百度百科

????????支持向量:一個(gè)標(biāo)準(zhǔn)的SVM模型宪摧,決定其分類效果的主要因素是決策邊界。如圖1所示颅崩,一個(gè)理想的SVM模型几于,其決策邊界要與其支持向量保持最大距離,而上文所提到的支持向量就是距離決策邊界最近的向量集合沿后。

????????優(yōu)化目標(biāo):首先找到一組支持向量沿彭,如公式1.2所示。根據(jù)找到的支持向量尖滚,結(jié)合點(diǎn)到超平面的距離公式喉刘,繼而選出一組W與b的值,可以使決策邊界與支持向量的距離最大化熔掺,如公式1.3所示饱搏。

Min_i (y_i?x_i+b)? ??公式1.2

Argmax_{w,b} \frac{Min_i(y_i?x_i+b)}{||W||}? ??公式1.3

? ??????根據(jù)公式1.1.2非剃,我們可以使用放縮變換使其值大于等于1置逻,所以支持向量到?jīng)Q策邊界的距離就為1,故此優(yōu)化目標(biāo)可以簡化到公式1.4所示备绽。

Max_W,_b \frac{1}{||W||} ? ??公式1.4

? ??????求解過程:由公式1.1.4轉(zhuǎn)化成極小值公式Min_{w,b}  \frac{ ||W||^2}{2}券坞,使用拉格朗日乘子法進(jìn)行求解,其簡化方程如公式1.5所示肺素。

L(W,b,a)=\frac{||W||^2-\sum\nolimits_{{i = 1}}^n  a_i[y_i(y_i?x_i + b) - 1]}{2}  ? ??公式1.5

? ??????對(duì)W與b求偏導(dǎo)恨锚,得到條件:Min_{w,b} Max_a L(w,b,a),根據(jù)KKT定義倍靡,將其轉(zhuǎn)換成如公式1.6所示條件猴伶。

Max_a Min_{w,b} L(w,b,a)? ???公式1.6

? ??????將求出的偏導(dǎo)分別代入公式5,轉(zhuǎn)換為求極小值公式,得出公式1.7他挎。

Min_a\frac{1}{2}  \sum\nolimits_{i = 1}^m \sum\nolimits_{j = 1}^m a_i a_j y_i y_j x_i x_j  - \sum\nolimits_{i = 1}^m a_i,且\left\{  \sum\nolimits_{i = 1}^m a_iy_i=0; a_i\geq 0\right\}? ??公式1.7

? ??????最終模型:接下來筝尾,我們僅需要將訓(xùn)練數(shù)據(jù)一一代入公式1.7中,計(jì)算得出一組a的值办桨,并將其代入至公式1.8中筹淫,得出我們的模型數(shù)據(jù)。

W=\sum\nolimits_{i = 1}^m a_i y_i x_n? ??公式1.8

2 非線性SVM過程

? ??????非線性變換:在原本維度的線性不可分?jǐn)?shù)據(jù)往往在更高的維度上變得線性可分呢撞,SVM就是利用這一特點(diǎn)將線性不可分?jǐn)?shù)據(jù)進(jìn)行分類的损姜。首先,對(duì)數(shù)據(jù)集做非線性變換Φ殊霞,利用核函數(shù)將其特征映射到更高的維度摧阅,得出修改公式1.3為公式2.1,后續(xù)求解過程一致不變绷蹲。

Argmax_{w,b} [\frac{1}{||W||} Min_i (y_i?Φ(x_i )+b) ]? ??公式2.1

? ??????函數(shù):是對(duì)數(shù)據(jù)做非線性變換的一系列算法逸尖,包括多項(xiàng)式核函數(shù)、高斯核函數(shù)等瘸右。

????????多項(xiàng)式核函數(shù):? ???k(x,x_i )=(x^T x_i+C)^d

? ??????高斯核函數(shù):? ??????

? ??????Sigmoid:? ??????????

3 實(shí)驗(yàn)與對(duì)比

????????數(shù)據(jù)集采用Kaggle數(shù)據(jù)集:泰坦尼克

????????數(shù)據(jù)文件:train.csv娇跟、test.csv

?????? 整體數(shù)據(jù)集包含891條訓(xùn)練集和418條測(cè)試集,每條包含十一位信息太颤,其中有部分缺失苞俘。

?????? 求解:補(bǔ)全測(cè)試集中的所有是否生存。


圖2 數(shù)據(jù)集信息分布

本文測(cè)試用例:

? ????????????船票等級(jí)??? 2???? Pclass???????????????? 891

????????????? 性別??????????? 4???? Sex? ? ? ? ? ? ? ? ? ? ?891

????????????? 年齡???????????? 5???? Age????????????????????714

????????????? 親友數(shù)量??? 6,7? SibSp龄章,Parch? ? ? 891

????????????? 船票價(jià)格??? 9???? Fare? ? ? ? ? ? ? ? ? ? ?891

????????????? 登錄港口??? 11?? Embarked? ? ? ? ? ??889

年齡缺失的均補(bǔ)充為27,登錄港口缺失均映射為0吃谣。


? ?Sklearn中創(chuàng)建SVM實(shí)例:

? ????from sklearn.svm import SVC

????? model = SVC(kernel,C,gamma)

????? kernel:String

??????? linear? :線性核函數(shù)

??????? poly? :多項(xiàng)式核函數(shù)

??????? rbf???? :徑像核函數(shù)/高斯核

??????? sigmod? :sigmod核函數(shù)

??????? precomputed:核矩陣


C:Float

? ????錯(cuò)誤項(xiàng)的懲罰系數(shù)做裙,C越大岗憋,即對(duì)分錯(cuò)樣本的懲罰程度越大,因此在訓(xùn)練樣本中準(zhǔn)確率越高锚贱,但是泛化能力會(huì)降低仔戈。


基于高斯核函數(shù)不同懲罰系數(shù)對(duì)數(shù)據(jù)集的精度影響(Y軸為測(cè)試集上的精度,X軸為懲罰系數(shù))? ??

gamma: float

? ? ? ? ? ? ?核函數(shù)系數(shù)拧廊,僅對(duì)‘rbf’,‘poly’,‘sigmod’有效


基于高斯核函數(shù)不同gamma值對(duì)數(shù)據(jù)集的精度影響(Y軸為測(cè)試集上的精度监徘,X軸為gamma值)


4 參考代碼

5?問題與思考

1、SVM的主要應(yīng)用場(chǎng)景是什么吧碾?

2凰盔、如何選取合適的核函數(shù)?

3倦春、SVM在什么情況下容易產(chǎn)生過擬合問題户敬?過擬合的根本原因是什么落剪?

4、神經(jīng)網(wǎng)絡(luò)算法是否可以替代傳統(tǒng)的SVM(SVM的關(guān)鍵優(yōu)勢(shì)是什么)尿庐?

5著榴、如何在盡量不損失召回率的情況下提高SVM的速度?

參考答案:

1屁倔、SVM的核心思想就是找到不同類別之間的分界面脑又,使得兩類樣本盡量落在面的兩邊,而且離分界面盡量遠(yuǎn)锐借。相對(duì)來說问麸,SVM更擅長處理樣本數(shù)量偏少且特征較多的數(shù)據(jù)。

2钞翔、選自吳恩達(dá):如果Feature的數(shù)量很大严卖,跟樣本數(shù)量差不多,這時(shí)候選用LR或者是Linear Kernel的SVM;如果Feature的數(shù)量比較小布轿,樣本數(shù)量一般哮笆,不算大也不算小,選用SVM+Gaussian Kernel; 如果Feature的數(shù)量比較小汰扭,而樣本數(shù)量很多稠肘,需要手工添加一些feature變成第一種情況

3、數(shù)據(jù)樣本有臟點(diǎn)(噪聲)萝毛,因?yàn)镾VM約束條件就是對(duì)于每個(gè)樣本要正確分類项阴,至于間隔最大是在這個(gè)約束條件的基礎(chǔ)上進(jìn)行的,所以如果約束條件成立就已經(jīng)導(dǎo)致模型非常復(fù)雜笆包,所以容易導(dǎo)致過擬合环揽。

4、SVM是結(jié)構(gòu)風(fēng)險(xiǎn)最小化庵佣,優(yōu)化目標(biāo)是最大化間隔歉胶,超參數(shù)很少,不容易過擬合巴粪,適合小樣本通今。而反觀神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)是需要海量數(shù)據(jù)去訓(xùn)練的验毡,且其非線性表征更強(qiáng)衡创、數(shù)據(jù)量更大使其在小樣本方面的效果并不理想。

5晶通、提高SVM速度分為兩方面:

(1)選取適當(dāng)?shù)暮撕瘮?shù),樣本數(shù)量較多且非線性一般的情況下可采取多項(xiàng)式核函數(shù)哟玷,注意控制好多項(xiàng)式的維度狮辽。

(2)提高懲罰一也,使支持向量減少,會(huì)很有效的提高速度且減少內(nèi)存開銷喉脖。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末椰苟,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子树叽,更是在濱河造成了極大的恐慌舆蝴,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,695評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件题诵,死亡現(xiàn)場(chǎng)離奇詭異洁仗,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)性锭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,569評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門赠潦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人草冈,你說我怎么就攤上這事她奥。” “怎么了怎棱?”我有些...
    開封第一講書人閱讀 168,130評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵哩俭,是天一觀的道長。 經(jīng)常有香客問我拳恋,道長携茂,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,648評(píng)論 1 297
  • 正文 為了忘掉前任诅岩,我火速辦了婚禮讳苦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘吩谦。我一直安慰自己鸳谜,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,655評(píng)論 6 397
  • 文/花漫 我一把揭開白布式廷。 她就那樣靜靜地躺著咐扭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪滑废。 梳的紋絲不亂的頭發(fā)上蝗肪,一...
    開封第一講書人閱讀 52,268評(píng)論 1 309
  • 那天,我揣著相機(jī)與錄音蠕趁,去河邊找鬼薛闪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛俺陋,可吹牛的內(nèi)容都是我干的豁延。 我是一名探鬼主播昙篙,決...
    沈念sama閱讀 40,835評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼诱咏!你這毒婦竟也來了苔可?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,740評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤袋狞,失蹤者是張志新(化名)和其女友劉穎焚辅,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體苟鸯,經(jīng)...
    沈念sama閱讀 46,286評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡同蜻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,375評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了倔毙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片埃仪。...
    茶點(diǎn)故事閱讀 40,505評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖陕赃,靈堂內(nèi)的尸體忽然破棺而出卵蛉,到底是詐尸還是另有隱情,我是刑警寧澤么库,帶...
    沈念sama閱讀 36,185評(píng)論 5 350
  • 正文 年R本政府宣布傻丝,位于F島的核電站,受9級(jí)特大地震影響诉儒,放射性物質(zhì)發(fā)生泄漏葡缰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,873評(píng)論 3 333
  • 文/蒙蒙 一忱反、第九天 我趴在偏房一處隱蔽的房頂上張望泛释。 院中可真熱鬧,春花似錦温算、人聲如沸怜校。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,357評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至碉输,卻和暖如春巩割,著一層夾襖步出監(jiān)牢的瞬間裙顽,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,466評(píng)論 1 272
  • 我被黑心中介騙來泰國打工宣谈, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留愈犹,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,921評(píng)論 3 376
  • 正文 我出身青樓蒲祈,卻偏偏與公主長得像甘萧,于是被迫代替她去往敵國和親萝嘁。 傳聞我的和親對(duì)象是個(gè)殘疾皇子梆掸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,515評(píng)論 2 359