這一節(jié)挖藏,我們來講解一下什么叫做核技巧病瞳,也就是kernal trick
前面我們講的hard margin和soft margin分別是線性可分,線性不可分的情況腹泌,但是我們的支持向量機(jī)都是線性支持向量機(jī),但是還有一種情況就是:非線性可分
如圖尔觉,我們在低維情況下無法用超平面解決的分類問題凉袱。
所以,我們就要使用核技巧
所以,什么是核技巧
對于上面的非線性可分問題专甩,我們解決的思路钟鸵,就是通過映射函數(shù)將數(shù)據(jù)升維到高維空間,然后非線性可分問題就變成了線性可分問題涤躲。但是棺耍,我們需要知道一個概念:維數(shù)災(zāi)難
什么是維數(shù)災(zāi)難呢?
維數(shù)災(zāi)難(英語:curse of dimensionality篓叶,又名維度的詛咒)是一個最早由理查德·貝爾曼(Richard E. Bellman)在考慮優(yōu)化問題時首次提出來的術(shù)語烈掠,用來描述當(dāng)(數(shù)學(xué))空間維度增加時,分析和組織高維空間(通常有成百上千維)缸托,因體積指數(shù)增加而遇到各種問題場景左敌。這樣的難題在低維空間中不會遇到,如物理空間通常只用三維來建模俐镐。
舉例來說矫限,100個平均分布的點(diǎn)能把一個單位區(qū)間以每個點(diǎn)距離不超過0.01采樣;而當(dāng)維度增加到10后佩抹,如果以相鄰點(diǎn)距離不超過0.01小方格采樣一單位超正方體叼风,則需要1020 個采樣點(diǎn):所以,這個10維的超正方體也可以說是比單位區(qū)間大1018倍棍苹。(這個是理查德·貝爾曼所舉的例子)
所以无宿,并不是維度高了,我們就可以解決這個問題了枢里。
所以孽鸡,這里就體現(xiàn)出了核函數(shù)的重要性:
什么是核函數(shù)
簡單的說就是,低維的一個方法可以達(dá)到高維映射函數(shù)的效果栏豺,那么這個函數(shù)就是核函數(shù)彬碱。
所以采用核函數(shù),我們就可以在將數(shù)據(jù)升維的同時奥洼,避免了維度災(zāi)難帶來的巨大計算量巷疼。
舉個例子:
公式推導(dǎo)
首先,我們回憶一下前面的公式灵奖,在最后嚼沿,我們得到了:
現(xiàn)在,我們通過核技巧瓷患,將原來低維空間中數(shù)據(jù)的內(nèi)積變?yōu)楦呔S特征空間中的內(nèi)積伏尼,用核函數(shù)的形式表示:
常用核函數(shù)
多項式核函數(shù)
對應(yīng)的分類決策函數(shù):
高斯核函數(shù)
高斯徑向基函數(shù)分類器,分類決策函數(shù)為: