機(jī)器學(xué)習(xí)的特征選擇方法總結(jié)

特征選擇是機(jī)器學(xué)習(xí)非常重要的一環(huán)。之所以要考慮特征選擇蔬将,是因?yàn)闄C(jī)器學(xué)習(xí)經(jīng)常面臨過(guò)擬合的問(wèn)題。
過(guò)擬合的表現(xiàn)是模型參數(shù)太貼合訓(xùn)練集數(shù)據(jù),模型在訓(xùn)練集上效果很好而在測(cè)試集上表現(xiàn)不好屋休,也就是在高方差。簡(jiǎn)言之模型的泛化能力差备韧。過(guò)擬合的原因是模型對(duì)于訓(xùn)練集數(shù)據(jù)來(lái)說(shuō)太復(fù)雜劫樟,要解決過(guò)擬合問(wèn)題,一般考慮如下方法:

  1. 收集更多數(shù)據(jù)
  2. 通過(guò)正則化引入對(duì)復(fù)雜度的懲罰
  3. 選擇更少參數(shù)的簡(jiǎn)單模型
  4. 對(duì)數(shù)據(jù)降維
    其中第1條一般是很難做到的织堂,這篇我們主要梳理第2和第4點(diǎn)
  • 通過(guò)正則化:
    對(duì)于參數(shù)模型(parametric model)叠艳,最簡(jiǎn)單直接的方法是L1正則化來(lái)降維。參數(shù)模型是什么易阳?是可由公式表達(dá)的附较、有\betaw參數(shù)的模型。這種模型在訓(xùn)練集上學(xué)習(xí)得到一個(gè)公式表達(dá)式潦俺,對(duì)于新的測(cè)試數(shù)據(jù)拒课,可以直接由表達(dá)式算出預(yù)測(cè)結(jié)果,預(yù)測(cè)的時(shí)候不再需要訓(xùn)練集事示。參數(shù)模型的代表有邏輯回歸早像,線性回歸,神經(jīng)網(wǎng)絡(luò)等肖爵。正則化分為L(zhǎng)1和L2卢鹦, L1用L1范數(shù)最小化代價(jià)函數(shù)的SSE,可以把某些特征壓縮到0劝堪,相當(dāng)于特征選擇了法挨。而L2用L2范數(shù)最小化代價(jià)函數(shù)的SSE,只能把某些特征壓縮到很小的值幅聘,但不可能是0凡纳。

  • 對(duì)于非參數(shù)模型(nonparametric model) , 很有用的辦法是通過(guò)特征選擇來(lái)降維帝蒿。
    降維有兩種方式:特征選擇和特征抽取荐糜。特征選擇是直接選特征子集(本篇寫(xiě)的是特征選擇)。特征抽取是把特征映射到低維空間(PCA是代表之一,在另一篇里已經(jīng)寫(xiě)過(guò)了)暴氏。
    特征選擇有三個(gè)層面的方法:這里分別介紹延塑。

  1. Wrapper方法。屬于Wrapper的還有exhaustive search BFS (Breadth First Search), Non-exhaustive search (Branch and Bound Search), heuristic search(SFS, SBS, SDS), Random Search (RGSS) . 總體來(lái)講答渔,Wrapper的實(shí)現(xiàn)原理是:基于hold-out方法关带,對(duì)于每一個(gè)待選的特征子集,都在訓(xùn)練集上訓(xùn)練一遍模型沼撕,然后在測(cè)試集上根據(jù)誤差大小選擇出特征子集宋雏。
    這里重點(diǎn)寫(xiě)heuristic search(SFS, SBS, SDS)里的SBS。 heuristic search一般也被稱(chēng)為Sequential feature selection务豺。這是一種貪婪搜索算法磨总,可以將d維數(shù)據(jù)篩選到k維。它可以去除無(wú)關(guān)的特征或嗓音笼沥,保留對(duì)目標(biāo)最有用的特征蚪燕, 它的目標(biāo)就是減少誤差(模型方差),它其中又以Sequential Backward Selection(SBS)為代表奔浅。
    SBS的工作原理是:從特征全集里逐個(gè)去除單個(gè)特征馆纳,直至剩余的特征子集達(dá)到期望的維度。那么如何逐個(gè)去除呢汹桦?我們先定義一個(gè)標(biāo)準(zhǔn)函數(shù)J鲁驶,借助J的變化來(lái)判斷每一步應(yīng)該去除哪個(gè)特征。一般而言营勤,J就是模型的代價(jià)函數(shù)灵嫌,這里記住我們降維的最終目標(biāo)是讓代價(jià)函數(shù)最優(yōu)(最小化)壹罚。所以最簡(jiǎn)單的方法可以是:葛作,我們用 J_i-J_{i+1}作為判斷標(biāo)準(zhǔn),每一步的時(shí)候哪個(gè)特征讓這個(gè)標(biāo)準(zhǔn)最大化猖凛,我們就去除哪個(gè)標(biāo)準(zhǔn)赂蠢。或者可以這樣理解辨泳,我們?cè)诿恳徊綍r(shí)選擇去掉的是最不會(huì)導(dǎo)致模型變更差的那個(gè)特征虱岂。
    但是SBS在SKLEARN里沒(méi)有現(xiàn)成的包。這里給出偽代碼:

    Screen Shot 2018-09-05 at 10.19.28 AM.png

  2. Embedded 方法
    故名思義菠红,Embedded是指特征選擇算法是學(xué)習(xí)算法的一部分第岖,已經(jīng)被整合進(jìn)學(xué)習(xí)算法里了。最具代表性的如決策樹(shù)算法试溯,因?yàn)樗旧砭褪腔谛畔⒃鲆娴囊环N算法蔑滓,一個(gè)特征里包括的同一分類(lèi)的孩子節(jié)點(diǎn)越多,這個(gè)特征就越顯著(白種人里有美英法意等等,黃種人里有中日韓等等键袱,人的分類(lèi)可以根據(jù)膚色往下細(xì)分燎窘。所以膚色就是決策樹(shù)首先考慮的一個(gè)顯著特征)。所以蹄咖,決策樹(shù)本身的生成就是在做特征選擇褐健。決策樹(shù)有ID3, C4.5, CART樹(shù)。其中ID3只用于連續(xù)型變量澜汤,C4.5和CART樹(shù)可以用于連續(xù)變量也可以用于分類(lèi)變量蚜迅。

  3. Filter方法
    就是對(duì)特征打分,再根據(jù)閾值選擇特征银亲。Filter方法獨(dú)立于模型本身慢叨,它的結(jié)果比Wrapper方法更有普適性,計(jì)算性能好于Wrapper务蝠,所以有時(shí)候它被用于Wrapper方法之前的預(yù)處理拍谐。
    Filter方法包括:distance metrics, correlation, mutual information, and consistency metrics
    其中correlation方法是計(jì)算特征之間的獨(dú)立性。通常用皮爾遜相關(guān)系數(shù)為指標(biāo)馏段。mutual information比correlation更有普適性轩拨,它描述了p(x,y)和p(x)*p(y)有多么相關(guān)。consistency metrics通常用卡方檢驗(yàn)院喜,其思想是找出和預(yù)測(cè)目標(biāo)不相關(guān)的特征亡蓉,所以其過(guò)程是計(jì)算每個(gè)特征和預(yù)測(cè)目標(biāo)的卡方統(tǒng)計(jì)量。

福利:
貪婪搜索算法(greedy search)是局部最優(yōu)算法喷舀。與之對(duì)應(yīng)的是窮舉算法 (exhaustive search)砍濒,窮舉算法是遍歷所有可能的組合達(dá)到全局最優(yōu)級(jí),但是計(jì)算復(fù)雜度是2^n硫麻,一般是不太實(shí)際的算法爸邢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市拿愧,隨后出現(xiàn)的幾起案子杠河,更是在濱河造成了極大的恐慌,老刑警劉巖浇辜,帶你破解...
    沈念sama閱讀 217,826評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件券敌,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡柳洋,警方通過(guò)查閱死者的電腦和手機(jī)待诅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)熊镣,“玉大人卑雁,你說(shuō)我怎么就攤上這事立由。” “怎么了序厉?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,234評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵锐膜,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我弛房,道長(zhǎng)道盏,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,562評(píng)論 1 293
  • 正文 為了忘掉前任文捶,我火速辦了婚禮荷逞,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘粹排。我一直安慰自己种远,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,611評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布顽耳。 她就那樣靜靜地躺著坠敷,像睡著了一般。 火紅的嫁衣襯著肌膚如雪射富。 梳的紋絲不亂的頭發(fā)上膝迎,一...
    開(kāi)封第一講書(shū)人閱讀 51,482評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音胰耗,去河邊找鬼限次。 笑死,一個(gè)胖子當(dāng)著我的面吹牛柴灯,可吹牛的內(nèi)容都是我干的卖漫。 我是一名探鬼主播,決...
    沈念sama閱讀 40,271評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼赠群,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼羊始!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起乎串,我...
    開(kāi)封第一講書(shū)人閱讀 39,166評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤店枣,失蹤者是張志新(化名)和其女友劉穎速警,沒(méi)想到半個(gè)月后叹誉,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡闷旧,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,814評(píng)論 3 336
  • 正文 我和宋清朗相戀三年长豁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忙灼。...
    茶點(diǎn)故事閱讀 39,926評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡匠襟,死狀恐怖钝侠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情酸舍,我是刑警寧澤帅韧,帶...
    沈念sama閱讀 35,644評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站啃勉,受9級(jí)特大地震影響忽舟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜淮阐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,249評(píng)論 3 329
  • 文/蒙蒙 一叮阅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧泣特,春花似錦浩姥、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,866評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至膏孟,卻和暖如春缴饭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背骆莹。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,991評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工颗搂, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人幕垦。 一個(gè)月前我還...
    沈念sama閱讀 48,063評(píng)論 3 370
  • 正文 我出身青樓丢氢,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親先改。 傳聞我的和親對(duì)象是個(gè)殘疾皇子疚察,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,871評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容