p247 - p266
哈哈哈感覺今天看書的狀態(tài)不錯
看來有希望把欠的兩天都補(bǔ)上呀
不多說了進(jìn)入第11章
第11章 特征選擇與稀疏學(xué)習(xí)
11.1 子集搜索與評價
從給定的特征集合中選擇相關(guān)特征子集的過程,稱為“特征選擇”厅目。
特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程。
能降低“維數(shù)災(zāi)難”風(fēng)險路星,并有降維的效果堤尾。
處理高維數(shù)據(jù)的兩大主流技術(shù):“降維”掷漱、“特征選擇”。
“無關(guān)特征”,“冗余特征”畦攘?
如果“冗余特征”對應(yīng)了一個中間過程霸妹,那么這個“冗余過程”是有益的。
怎么選特征知押?
產(chǎn)生一個“候選子集”叹螟,評價出好壞鹃骂,基于評價產(chǎn)生下一個候選子集,再評價罢绽,直到收斂畏线。
兩個問題:
1)如何獲取候選子集?
“子集搜索問題”良价。前向(非常像決策樹)寝殴、后向、雙向明垢。
貪心策略蚣常,并不能全局最優(yōu)。
2)如何評價好壞痊银?
使用信息增益抵蚊。
實際上,特征子集對應(yīng)了一個對數(shù)據(jù)集D的劃分曼验,真實label對應(yīng)了一個劃分。想辦法比較這兩個劃分的差異就能評價好壞粘姜。
特征搜索+子集評價:特征選擇鬓照。
常見分為三類:過濾式、包裹式孤紧、嵌入式豺裆。
11.2 過濾式選擇
過濾式方法先對數(shù)據(jù)集進(jìn)行特征選擇,再訓(xùn)練學(xué)習(xí)器号显。特征選擇和學(xué)習(xí)器無關(guān)臭猜。
Relief:著名的特征選擇方法。
設(shè)計了一個“相關(guān)統(tǒng)計量”來度量特征的重要性押蚤。
對每個樣本先選擇最近的同類樣本蔑歌,在選擇最近的不同類樣本。
相關(guān)統(tǒng)計量對于每個屬性j的計算方法:p250 式11.3
FRelief:對多分類的擴(kuò)展揽碘。
11.3 包裹式選擇
包裹式選擇考慮學(xué)習(xí)器次屠,把學(xué)習(xí)器的性能作為評價指標(biāo)。
也就是要給學(xué)習(xí)器選擇最有利于其性能雳刺,量身定做的特征子集劫灶。
開銷自然會比過濾式大。
LVW:典型的包裹式選擇方法掖桦。(拉斯維加斯框架下)
偽碼見p251
LVW中特征子集搜索采用了隨機(jī)策略本昏,每次評價都得重新訓(xùn)練學(xué)習(xí)器,故計算開銷是很大的枪汪。
同時涌穆,由于是拉斯維加斯框架怔昨,故可能給不出解。
11.4 嵌入式選擇和L1正則化
嵌入式:學(xué)習(xí)器訓(xùn)練過程中自動進(jìn)行了特征選擇蒲犬。
當(dāng)維數(shù)較大樣本較少朱监,容易陷入過擬合。
故加入正則項原叮。
而L1范數(shù)是比L2更容易得到更稀疏的解的赫编,也就是說w中0更多。也就是選擇了特征奋隶。
p252 式11.7稱為LASSO
從而基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法
L1正則化問題的求解可使用近端梯度下降方法(PGD)擂送。詳細(xì)原理見p253-254。
PGD可以使LASSO和其他基于L1范數(shù)最小化的方法得以快速求解唯欣。