特征選擇的方法

Filter

Filter這類方法是選定一個(gè)指標(biāo)來(lái)評(píng)估特征,根據(jù)指標(biāo)值來(lái)對(duì)特征排序,去掉達(dá)不到足夠分?jǐn)?shù)的特征。這類方法只考慮特征和目標(biāo)之間的關(guān)聯(lián)厨相,相對(duì)另兩類特征選擇方法Wrapper和Embedded計(jì)算開(kāi)銷最少。指標(biāo)的選擇對(duì)Filter方法至關(guān)重要余寥,下面我們就看幾種被大家通常使用的指標(biāo)领铐。

統(tǒng)計(jì)的視角:

相關(guān)系數(shù)(Correlation)悯森。統(tǒng)計(jì)課本里都講過(guò)的皮爾森相關(guān)系數(shù)是最常用的方法宋舷。需要注意的是當(dāng)樣本數(shù)很少或者特征的取值范圍更廣時(shí),更容易得出絕對(duì)值更大的皮爾森系數(shù)瓢姻,所以樣本量不同或者取值范圍不同的特征的之間相關(guān)系數(shù)不一定可以做比較祝蝠。另外皮爾森相關(guān)系數(shù)只能衡量線性相關(guān)性,隨機(jī)變量和不相關(guān)并不意味二者獨(dú)立幻碱。當(dāng)相關(guān)系數(shù)為0時(shí)我們知道的是線性分類器不能單利用這個(gè)特征的目前的形態(tài)做到將不同的類分開(kāi)绎狭,但通過(guò)特征本身的變換、和其它特征組合使用或者與其它特征結(jié)合出新的特征卻可能讓它煥發(fā)出生機(jī)發(fā)揮出價(jià)值褥傍。
假設(shè)檢驗(yàn)(Hypothesis Testing)儡嘶。將特征和目標(biāo)之間獨(dú)立作為H0假設(shè),選擇檢驗(yàn)方法計(jì)算統(tǒng)計(jì)量恍风,然后根據(jù)統(tǒng)計(jì)量確定值做出統(tǒng)計(jì)推斷蹦狂。
信息論的視角:

互信息(Mutual Information):,函數(shù)表示信息(負(fù)熵)朋贬,函數(shù) 表示概率凯楔。
信息增益(Information Gain):。
最小描述長(zhǎng)度(Minimum Description Length)锦募。

Wrapper

Wrapper方法和Filter不同摆屯,它不單看特征和目標(biāo)直接的關(guān)聯(lián)性,而是從添加這個(gè)特征后模型最終的表現(xiàn)來(lái)評(píng)估特征的好壞糠亩。Wrapper方法需要選定一種評(píng)估模型效果的指標(biāo)虐骑,如Area Under the Curve (AUC)、Mean Absolute Error (MAE)赎线、Mean Squared Error(MSE)廷没。假設(shè)我們有個(gè)特征,除去空集外這個(gè)特征可以組成個(gè)集合氛驮,最暴力的方法是分別用個(gè)特征集合訓(xùn)練得到模型做評(píng)估腕柜,最后選擇模型效果最好的集合。顯而易見(jiàn)當(dāng)很大時(shí)窮舉法計(jì)算開(kāi)銷驚人。所以前向特征選擇(Forward Feature Selection)和后向特征選擇(Backward Feature Selection)這樣的貪心策略更為大家平常所用盏缤。前向特征選擇從空集開(kāi)始砰蠢,每次在現(xiàn)有特征集合的基礎(chǔ)上添加一個(gè)讓模型效果最好的特征。相反唉铜,后向特征選擇一開(kāi)始包括所有的候選特征台舱,每次去掉一個(gè)讓模型指標(biāo)提升最多的特征。

離線評(píng)估結(jié)果是重要的參考指標(biāo)潭流,但在實(shí)際應(yīng)用中竞惋,往往最終還是通過(guò)線上A/B Test實(shí)驗(yàn)來(lái)判斷一個(gè)特征的效果。在實(shí)際應(yīng)用中離線評(píng)估不錯(cuò)的特征在線上表現(xiàn)不一定就好灰嫉,線上線下評(píng)估的一致性和影響因素是另一個(gè)可以值得研究的問(wèn)題拆宛。

Embedded

Filter方法和Wrapper方法都是和分類算法本身的實(shí)現(xiàn)無(wú)關(guān),可以與各種算法結(jié)合使用讼撒。而Embedded特征選擇方法與算法本身緊密結(jié)合浑厚,在模型訓(xùn)練過(guò)程中完成特征的選擇。例如:決策樹(shù)算法每次都優(yōu)先選擇分類能力最強(qiáng)的特征根盒;邏輯回歸算法的優(yōu)化目標(biāo)函數(shù)在log likelihood的基礎(chǔ)上加上對(duì)權(quán)重的L1或者L2等罰項(xiàng)后也會(huì)讓信號(hào)弱的特征權(quán)重很小甚至為0钳幅。

一些優(yōu)化算法天然就適合在每步判斷一個(gè)維度特征的好壞,所以可以在學(xué)習(xí)器在設(shè)計(jì)時(shí)就同時(shí)融合了特征選擇功能炎滞,在訓(xùn)練過(guò)程中自動(dòng)嘗試構(gòu)造特征和選擇特征敢艰。

小結(jié)

Filter、Wrapper册赛、Embedded三種方法各有不同钠导,但沒(méi)有孰好孰壞之分,在我們的實(shí)際工作中會(huì)結(jié)合使用击奶。Filter作為簡(jiǎn)單快速的特征檢驗(yàn)方法辈双,可以指導(dǎo)特征的預(yù)處理和特征的初選。Embedded特征選擇是我們學(xué)習(xí)器本身所具備的能力柜砾。通過(guò)Wrapper來(lái)離線和在線評(píng)估是否增加一個(gè)特征湃望。

原文:http://www.flickering.cn/ads/2014/08/%E8%BD%AC%E5%8C%96%E7%8E%87%E9%A2%84%E4%BC%B0-4%E7%89%B9%E5%BE%81%E9%80%89%E6%8B%A9%EF%BC%8D%E7%AE%80%E4%BB%8B/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市痰驱,隨后出現(xiàn)的幾起案子证芭,更是在濱河造成了極大的恐慌,老刑警劉巖担映,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件废士,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡蝇完,警方通過(guò)查閱死者的電腦和手機(jī)官硝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)矗蕊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人氢架,你說(shuō)我怎么就攤上這事傻咖。” “怎么了岖研?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵卿操,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我孙援,道長(zhǎng)害淤,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任拓售,我火速辦了婚禮窥摄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘邻辉。我一直安慰自己溪王,他們只是感情好腮鞍,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布值骇。 她就那樣靜靜地躺著,像睡著了一般移国。 火紅的嫁衣襯著肌膚如雪吱瘩。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,198評(píng)論 1 299
  • 那天迹缀,我揣著相機(jī)與錄音使碾,去河邊找鬼。 笑死祝懂,一個(gè)胖子當(dāng)著我的面吹牛票摇,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播砚蓬,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼矢门,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了灰蛙?” 一聲冷哼從身側(cè)響起祟剔,我...
    開(kāi)封第一講書(shū)人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎摩梧,沒(méi)想到半個(gè)月后物延,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡仅父,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年叛薯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了浑吟。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡耗溜,死狀恐怖买置,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情强霎,我是刑警寧澤忿项,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站城舞,受9級(jí)特大地震影響轩触,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜家夺,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一脱柱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拉馋,春花似錦榨为、人聲如沸肾砂。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)淮阐。三九已至蔓腐,卻和暖如春矩乐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背回论。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工散罕, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人傀蓉。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓欧漱,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親葬燎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子误甚,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354