SVM就是尋找分割線
最佳分割線——最大化了到最近點的距離
最大化了于左右兩分類最近點的距離——間隔
最大化了于左右兩分類最近點的距離——最健壯
SVM的內(nèi)部原理是最大限度地提升結(jié)果地穩(wěn)健性
SVM—正確分類標簽作為首要考慮掸驱,,然后對間隔進行最大化
分類
from sklearn import svm
from sklearn.metrics import accuracy_score
feature_train,feature_test,labels_train,labels_test
clf=svm.SVC()
clf.fit(feature_train,labels_train)
pred=predict(feature_test)
accuracy_score(pred,labels_test)
新特征
SVM核技巧:獲取低維度輸入空間或特征空間并將其映射到極高維度空間的函數(shù)——過去不可線性分離的內(nèi)容變?yōu)榭煞蛛x問題
linear——線性核
rbf——徑向基函數(shù)(曲折核 )
poly——多項式
SVM的參數(shù)——核+C+y(gamma)
y越大決策邊界越曲折
C——控制光滑決策邊界與正確分類所有訓練點之間的折衷
C值越大可以得到更多的訓練點-更復(fù)雜的決策邊界——問題過擬合
控制過度擬合的問題,調(diào)核、C盒揉、y參數(shù)
SVM的優(yōu)缺點:
優(yōu)點——在具有復(fù)雜領(lǐng)域和明顯的分割邊界的情況下泄朴,表現(xiàn)十分出色
缺點——在海量數(shù)據(jù)集中,表現(xiàn)不太好
——噪音過多的情況下郊供,效果也不太好
類嚴重重疊甸陌、需要考慮獨立證據(jù)時樸素貝葉斯分類器會更好
海量數(shù)據(jù)须揣,特征很多的數(shù)據(jù)集不太適合SVM
有時用SVM時需要進行特征的縮放