SVM,基于VC維理論和結(jié)構(gòu)化風(fēng)險(xiǎn)最小化原理。
何為VC維王暗,何為結(jié)構(gòu)化風(fēng)險(xiǎn)?
首先庄敛,應(yīng)該知道任何機(jī)器學(xué)習(xí)模型是對(duì)真實(shí)世界模型的一種近似俗壹。評(píng)價(jià)模型的好壞則需要給出這種近似所帶來的誤差。但是藻烤,沒有人能夠給出真實(shí)模型绷雏,或者說头滔,用數(shù)學(xué)、計(jì)算機(jī)去描述真實(shí)世界本身就已經(jīng)是一種近似涎显,存在誤差坤检。于是,人們引入訓(xùn)練集的概念期吓,并將模型在訓(xùn)練集上的表現(xiàn)作為對(duì)模型的評(píng)價(jià)早歇。這種依據(jù)模型在訓(xùn)練集上的性能來設(shè)計(jì)模型的思路稱為經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法。
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法存在一定的問題讨勤,人們發(fā)現(xiàn)箭跳,通過增加模型的復(fù)雜度(特征維度)在訓(xùn)練集上往往可以獲得100%的精度。但是潭千,這種模型在實(shí)際工作中谱姓,效果很差,這就是模型的泛化問題脊岳。為此,人們提出結(jié)構(gòu)風(fēng)險(xiǎn)的概念垛玻。其基本思路在于割捅,我們?cè)谟?xùn)練集上分析一個(gè)模型的性能時(shí),不能單純關(guān)注分類精度帚桩,還要將模型本身的特性考慮在內(nèi)(復(fù)雜度亿驾,樣本數(shù)量)。結(jié)構(gòu)風(fēng)險(xiǎn)定義如下:
泛化誤差界包括:樣本數(shù)量的描述和模型的VC維度账嚎。通常莫瞬,樣本數(shù)量越大,即訓(xùn)練集越接近于實(shí)際工況郭蕉,則模型越可靠疼邀。模型VC維越大,說明模型越加復(fù)雜召锈,則其泛化能力越差旁振,實(shí)際工況下狀態(tài)越差。