1嫌变、子集搜索與評價
我們能用很多屬性描述一個西瓜吨艇,例如色澤、根蒂腾啥、敲聲东涡、紋理等等。但有經(jīng)驗的人往往只需看根蒂倘待,聽聽敲聲就可以知道是否是好瓜疮跑,換言之,對于一個學(xué)習(xí)任務(wù)來說凸舵,給定屬性集祖娘,其中有些屬性可能很關(guān)鍵,而另一些則可能沒什么用啊奄,我們將這些屬性稱為特征的話渐苏,對當(dāng)前學(xué)習(xí)任務(wù)有用的特征稱為相關(guān)特征掀潮,而沒什么用的特征稱為無關(guān)特征,從給定的特征集選擇特征的過程整以,稱為特征選擇
為什么要進(jìn)行特征選擇呢胧辽?有兩個重要的原因,一個是避免維數(shù)災(zāi)難問題公黑,另一個是邑商,去除不相關(guān)的特征往往會降低學(xué)習(xí)任務(wù)的難度。
如果想從初始的特征集合中選取一個包含了所有重要信息的特征子集凡蚜,若沒有任何領(lǐng)域作為先驗知識人断,那就只好遍歷所有可能的子集了,然而這在計算上是不可能的朝蜘,特征個數(shù)稍多就無法進(jìn)行恶迈,可行的方法是產(chǎn)生一個候選子集,判斷它的好壞谱醇,基于評價結(jié)果產(chǎn)生下一個候選特征子集暇仲。顯然,有兩個環(huán)節(jié)需要注意:如何根據(jù)評價結(jié)果選取下一個子集副渴?如何評價特征子集的好壞奈附?
將特征子集搜索機(jī)制和子集評價機(jī)制相結(jié)合,即可得到特征選擇方法煮剧,例如將前向搜索與信息熵相結(jié)合斥滤,這顯然與決策樹算法非常相似。常見的特征選擇方法大致可分為三類:過濾式勉盅、包裹式和嵌入式
2佑颇、過濾式選擇
過濾式方法先對數(shù)據(jù)集進(jìn)行特張選擇,然后再訓(xùn)練學(xué)習(xí)器草娜,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)挑胸,這相當(dāng)于先用特征選擇過程對初識特征進(jìn)行“過濾”,然后再用過濾后的特征來訓(xùn)練模型宰闰。
Relief方法
3嗜暴、包裹式選擇
包裹式選擇特征不考慮后續(xù)學(xué)習(xí)器不同,包裹式特征選擇直接把最終將要使用的學(xué)習(xí)器的性能作為特征子集的評價準(zhǔn)則议蟆。換言之,包裹式特征選擇的目的就是為給定學(xué)習(xí)器選擇最有利于其性能萎战,量身定做的特征子集咐容。包裹式選擇比過濾式特征選擇更好,但是另一方面蚂维,計算開銷卻要大得多戳粒。
LVW方法
4路狮、嵌入式選擇與L1正則化
嵌入式特征選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個優(yōu)化過程中優(yōu)化蔚约,即在學(xué)習(xí)器訓(xùn)練過程中自動進(jìn)行了特征選擇奄妨。