機(jī)器學(xué)習(xí) 西瓜書 Day15 特征選擇與稀疏學(xué)習(xí)

p247 - p266
哈哈哈感覺今天看書的狀態(tài)不錯
看來有希望把欠的兩天都補(bǔ)上呀
不多說了進(jìn)入第11章

第11章 特征選擇與稀疏學(xué)習(xí)

11.1 子集搜索與評價

從給定的特征集合中選擇相關(guān)特征子集的過程,稱為“特征選擇”厅目。
特征選擇是一個重要的數(shù)據(jù)預(yù)處理過程。
能降低“維數(shù)災(zāi)難”風(fēng)險路星,并有降維的效果堤尾。

處理高維數(shù)據(jù)的兩大主流技術(shù):“降維”掷漱、“特征選擇”。

“無關(guān)特征”,“冗余特征”畦攘?
如果“冗余特征”對應(yīng)了一個中間過程霸妹,那么這個“冗余過程”是有益的。

怎么選特征知押?
產(chǎn)生一個“候選子集”叹螟,評價出好壞鹃骂,基于評價產(chǎn)生下一個候選子集,再評價罢绽,直到收斂畏线。
兩個問題:
1)如何獲取候選子集?
“子集搜索問題”良价。前向(非常像決策樹)寝殴、后向、雙向明垢。
貪心策略蚣常,并不能全局最優(yōu)。

2)如何評價好壞痊银?
使用信息增益抵蚊。
實際上,特征子集對應(yīng)了一個對數(shù)據(jù)集D的劃分曼验,真實label對應(yīng)了一個劃分。想辦法比較這兩個劃分的差異就能評價好壞粘姜。

特征搜索+子集評價:特征選擇鬓照。
常見分為三類:過濾式、包裹式孤紧、嵌入式豺裆。

11.2 過濾式選擇

過濾式方法先對數(shù)據(jù)集進(jìn)行特征選擇,再訓(xùn)練學(xué)習(xí)器号显。特征選擇和學(xué)習(xí)器無關(guān)臭猜。

Relief:著名的特征選擇方法。
設(shè)計了一個“相關(guān)統(tǒng)計量”來度量特征的重要性押蚤。

對每個樣本先選擇最近的同類樣本蔑歌,在選擇最近的不同類樣本。
相關(guān)統(tǒng)計量對于每個屬性j的計算方法:p250 式11.3

FRelief:對多分類的擴(kuò)展揽碘。

11.3 包裹式選擇

包裹式選擇考慮學(xué)習(xí)器次屠,把學(xué)習(xí)器的性能作為評價指標(biāo)。
也就是要給學(xué)習(xí)器選擇最有利于其性能雳刺,量身定做的特征子集劫灶。

開銷自然會比過濾式大。

LVW:典型的包裹式選擇方法掖桦。(拉斯維加斯框架下)
偽碼見p251

LVW中特征子集搜索采用了隨機(jī)策略本昏,每次評價都得重新訓(xùn)練學(xué)習(xí)器,故計算開銷是很大的枪汪。
同時涌穆,由于是拉斯維加斯框架怔昨,故可能給不出解。

11.4 嵌入式選擇和L1正則化

嵌入式:學(xué)習(xí)器訓(xùn)練過程中自動進(jìn)行了特征選擇蒲犬。

當(dāng)維數(shù)較大樣本較少朱监,容易陷入過擬合。
故加入正則項原叮。

而L1范數(shù)是比L2更容易得到更稀疏的解的赫编,也就是說w中0更多。也就是選擇了特征奋隶。
p252 式11.7稱為LASSO

從而基于L1正則化的學(xué)習(xí)方法就是一種嵌入式特征選擇方法

L1正則化問題的求解可使用近端梯度下降方法(PGD)擂送。詳細(xì)原理見p253-254。
PGD可以使LASSO和其他基于L1范數(shù)最小化的方法得以快速求解唯欣。

11.5 稀疏表示與字典學(xué)習(xí)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嘹吨,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子境氢,更是在濱河造成了極大的恐慌蟀拷,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件萍聊,死亡現(xiàn)場離奇詭異问芬,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)寿桨,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門此衅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人亭螟,你說我怎么就攤上這事挡鞍。” “怎么了预烙?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵墨微,是天一觀的道長。 經(jīng)常有香客問我扁掸,道長欢嘿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任也糊,我火速辦了婚禮炼蹦,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘狸剃。我一直安慰自己掐隐,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著虑省,像睡著了一般匿刮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上探颈,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天熟丸,我揣著相機(jī)與錄音,去河邊找鬼伪节。 笑死光羞,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的怀大。 我是一名探鬼主播纱兑,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼化借!你這毒婦竟也來了潜慎?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤蓖康,失蹤者是張志新(化名)和其女友劉穎铐炫,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蒜焊,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡倒信,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了山涡。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片堤结。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡唆迁,死狀恐怖鸭丛,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情唐责,我是刑警寧澤鳞溉,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站鼠哥,受9級特大地震影響熟菲,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜朴恳,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一抄罕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧于颖,春花似錦呆贿、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽冒晰。三九已至,卻和暖如春竟块,著一層夾襖步出監(jiān)牢的瞬間壶运,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工浪秘, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留蒋情,地道東北人。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓秫逝,卻偏偏與公主長得像恕出,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子违帆,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 機(jī)器學(xué)習(xí)是做NLP和計算機(jī)視覺這類應(yīng)用算法的基礎(chǔ)浙巫,雖然現(xiàn)在深度學(xué)習(xí)模型大行其道,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡閱讀 20,487評論 4 65
  • 特征選擇與稀疏學(xué)習(xí) 原理 《機(jī)器學(xué)習(xí)》周志華 11.1 子集搜索與評價 對一個學(xué)習(xí)任務(wù)來說刷后,給定屬性集的畴,其中有些屬...
    hxiaom閱讀 1,463評論 0 1
  • sklearn含衔、XGBoost煎娇、LightGBM的文檔閱讀小記 文章導(dǎo)航 目錄 1.sklearn集成方法 1.1...
    nightwish夜愿閱讀 12,612評論 1 49
  • 因為偶然的原因,我就在剛才才看完這部電影贪染,平時不太看電影的缓呛。 因為初中有女生說我像愛德華,我也頗有興趣杭隙,看...
    怪言殘喘閱讀 354評論 0 0
  • 在家里哟绊,我的身體稍微有些胖,爸爸媽媽每天給我做痰憎,粗茶淡飯票髓,吃的我,看到那些綠油油的菜铣耘,我就感到洽沟,惡心。但是蜗细,今天的...
    李冠良閱讀 218評論 0 0