問:SVM中什么時候用線性核什么時候用高斯核?
參考回答:
當(dāng)數(shù)據(jù)的特征提取的較好,所包含的信息量足夠大,很多問題是線性可分的那么可以采用線性核靖苇。若特征數(shù)較少,樣本數(shù)適中,對于時間不敏感,遇到的問題是線性不可分的時候可以使用高斯核來達(dá)到更好的效果蜗巧。
問:什么是支持向量機(jī),SVM與LR的區(qū)別?
參考回答:
支持向量機(jī)為一個二分類模型,它的基本模型定義為特征空間上的間隔最大的線性分類器版确。而它的學(xué)習(xí)策略為最大化分類間隔,最終可轉(zhuǎn)化為凸二次規(guī)劃問題求解萝喘。
LR是參數(shù)模型,SVM為非參數(shù)模型。LR采用的損失函數(shù)為logisticalloss,而SVM采用的是hingeloss。在學(xué)習(xí)分類器的時候,SVM只考慮與分類最相關(guān)的少數(shù)支持向量點。LR的模型相對簡單,在進(jìn)行大規(guī)模線性分類時比較方便弛房。
問:SVM的作用,基本實現(xiàn)原理而柑;
SVM可以用于解決二分類或者多分類問題文捶,此處以二分類為例荷逞。SVM的目標(biāo)是尋找一個最優(yōu)化超平面在空間中分割兩類數(shù)據(jù),這個最優(yōu)化超平面需要滿足的條件是:離其最近的點到其的距離最大化粹排,這些點被稱為支持向量颅围。
解析:建議練習(xí)推導(dǎo)SVM,從基本式的推導(dǎo)恨搓,到拉格朗日對偶問題。
問:拉格朗日對偶問題
問:SVM的硬間隔筏养,軟間隔表達(dá)式
硬間隔
軟間隔
解析:不同點在于有無引入松弛變量
問:SVM使用對偶計算的目的是什么斧抱,如何推出來的,手寫推導(dǎo)
目的有兩個:一是方便核函數(shù)的引入渐溶;二是原問題的求解復(fù)雜度與特征的維數(shù)相關(guān)辉浦,而轉(zhuǎn)成對偶問題后只與問題的變量個數(shù)有關(guān)。由于SVM的變量個數(shù)為支持向量的個數(shù)茎辐,相較于特征位數(shù)較少宪郊,因此轉(zhuǎn)對偶問題。通過拉格朗日算子發(fā)使帶約束的優(yōu)化目標(biāo)轉(zhuǎn)為不帶約束的優(yōu)化函數(shù)拖陆,使得W和b的偏導(dǎo)數(shù)等于零弛槐,帶入原來的式子,再通過轉(zhuǎn)成對偶問題依啰。
問:SVM的物理意義是什么
構(gòu)造一個最優(yōu)化的超平面在空間中分割數(shù)據(jù)
問:如果給你一些數(shù)據(jù)集乎串,你會如何分類(我是分情況答的,從數(shù)據(jù)的大小速警,特征叹誉,是否有缺失,分情況分別答的)
?
根據(jù)數(shù)據(jù)類型選擇不同的模型闷旧,如Lr或者SVM长豁,決策樹。假如特征維數(shù)較多忙灼,可以選擇SVM模型匠襟,如果樣本數(shù)量較大可以選擇LR模型,但是LR模型需要進(jìn)行數(shù)據(jù)預(yù)處理缀棍;假如缺失值較多可以選擇決策樹宅此。選定完模型后,相應(yīng)的目標(biāo)函數(shù)就確定了爬范。還可以在考慮正負(fù)樣例比比父腕,通過上下集采樣平衡正負(fù)樣例比。
解析:需要了解多種分類模型的優(yōu)缺點青瀑,以及如何構(gòu)造分類模型的步驟