深度挖掘?qū)W習(xí)之基于特征選擇的降維方法

在對(duì)海量數(shù)據(jù)或大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí)摊鸡,通常會(huì)面臨“維度災(zāi)難”献烦,原因是數(shù)據(jù)集的維度可以不斷增加直至無(wú)窮多掠抬,但計(jì)算機(jī)的處理能力和速度卻是有限的拔稳;另外聘鳞,數(shù)據(jù)集的大量維度之間可能存在共線性的關(guān)系薄辅,這會(huì)直接導(dǎo)致學(xué)習(xí)模型的健壯性不夠,甚至很多時(shí)候算法結(jié)果會(huì)失敗抠璃。因此站楚,我們需要降低維度數(shù)量并降低維度間共線性的影響。

數(shù)據(jù)降維也被稱(chēng)為數(shù)據(jù)規(guī)約或數(shù)據(jù)約減搏嗡,其目的是減少參與數(shù)據(jù)計(jì)算和建模維度的數(shù)量窿春。一種典型的數(shù)據(jù)降維思路是基于特征選擇的的降維。

基于特征的選擇指的是根據(jù)一定規(guī)則和經(jīng)驗(yàn)采盒,直接選取原有維度的部分參與到后續(xù)的計(jì)算和建模過(guò)程旧乞,用選擇的維度代替所有維度,這個(gè)過(guò)程不產(chǎn)生新的維度磅氨。這種方式的好處在于尺栖,所選擇的維度保留了原有維度的業(yè)務(wù)含義,可以用于后續(xù)的知識(shí)模式解讀和業(yè)務(wù)理解烦租,從而保證了最終的可應(yīng)用性延赌。

基于特征選擇的降維方法通常有四種,如下圖所示:

基于特征選擇的降維方法

經(jīng)驗(yàn)法:通過(guò)操作者的以往經(jīng)驗(yàn)叉橱、實(shí)際數(shù)據(jù)情況挫以、業(yè)務(wù)理解程度等綜合考慮選擇。

測(cè)算法:通過(guò)不斷測(cè)試多種維度選擇參與計(jì)算窃祝,通過(guò)結(jié)果來(lái)反復(fù)驗(yàn)證和調(diào)整并最終找到最佳特征方案掐松。

基于統(tǒng)計(jì)分析的方法:通過(guò)相關(guān)性分析不同維度間的線性相關(guān)性,從相關(guān)性高的維度中人工去除或篩選粪小;或者通過(guò)計(jì)算不同維度間的互信息量甩栈,找到具有較高信息量的特征集,然后把其中的一個(gè)特征去除或留下糕再。

機(jī)器學(xué)習(xí)算法:通過(guò)機(jī)器學(xué)習(xí)算法得到不同特征的特征值或權(quán)重量没,然后再根據(jù)權(quán)重來(lái)選擇較大的特征。例如突想,通過(guò)CART決策樹(shù)模型得到不同變量的重要程度殴蹄,然后可以根據(jù)實(shí)際權(quán)重值進(jìn)行選擇究抓。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市袭灯,隨后出現(xiàn)的幾起案子刺下,更是在濱河造成了極大的恐慌,老刑警劉巖稽荧,帶你破解...
    沈念sama閱讀 210,978評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件橘茉,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡姨丈,警方通過(guò)查閱死者的電腦和手機(jī)畅卓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蟋恬,“玉大人翁潘,你說(shuō)我怎么就攤上這事〖哒” “怎么了拜马?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,623評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)沐绒。 經(jīng)常有香客問(wèn)我俩莽,道長(zhǎng),這世上最難降的妖魔是什么乔遮? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,324評(píng)論 1 282
  • 正文 為了忘掉前任扮超,我火速辦了婚禮,結(jié)果婚禮上申眼,老公的妹妹穿的比我還像新娘瞒津。我一直安慰自己,他們只是感情好括尸,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,390評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布巷蚪。 她就那樣靜靜地躺著,像睡著了一般濒翻。 火紅的嫁衣襯著肌膚如雪屁柏。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,741評(píng)論 1 289
  • 那天有送,我揣著相機(jī)與錄音淌喻,去河邊找鬼。 笑死雀摘,一個(gè)胖子當(dāng)著我的面吹牛裸删,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播阵赠,決...
    沈念sama閱讀 38,892評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼涯塔,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼肌稻!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起匕荸,我...
    開(kāi)封第一講書(shū)人閱讀 37,655評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤爹谭,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后榛搔,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體诺凡,經(jīng)...
    沈念sama閱讀 44,104評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評(píng)論 2 325
  • 正文 我和宋清朗相戀三年践惑,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了腹泌。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,569評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡童本,死狀恐怖真屯,靈堂內(nèi)的尸體忽然破棺而出脸候,到底是詐尸還是另有隱情穷娱,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評(píng)論 4 328
  • 正文 年R本政府宣布运沦,位于F島的核電站泵额,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏携添。R本人自食惡果不足惜嫁盲,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,834評(píng)論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望烈掠。 院中可真熱鬧羞秤,春花似錦、人聲如沸左敌。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,725評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)矫限。三九已至哺哼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間叼风,已是汗流浹背取董。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,950評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留无宿,地道東北人茵汰。 一個(gè)月前我還...
    沈念sama閱讀 46,260評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像孽鸡,于是被迫代替她去往敵國(guó)和親蹂午。 傳聞我的和親對(duì)象是個(gè)殘疾皇子坡垫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,446評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容