數(shù)據(jù)降維的幾種方法

姓名:劉帆型奥;學(xué)號(hào):20021210609娘摔;學(xué)院:電子工程學(xué)院

轉(zhuǎn)載于:

https://blog.csdn.net/donghua_wu/article/details/45746569

【嵌牛導(dǎo)讀】以2009 KDD Challenge 大數(shù)據(jù)集來(lái)預(yù)測(cè)客戶流失量為例子囚企。 該數(shù)據(jù)集維度達(dá)到 15000 維。 大多數(shù)數(shù)據(jù)挖掘算法都直接對(duì)數(shù)據(jù)逐列處理寝殴,在數(shù)據(jù)數(shù)目一大時(shí)动遭,導(dǎo)致算法越來(lái)越慢。那么如何能實(shí)現(xiàn)在減少數(shù)據(jù)列數(shù)的同時(shí)保證丟失的數(shù)據(jù)信息盡可能少呢捏肢。

【嵌牛鼻子】數(shù)據(jù)降維

【嵌牛提問】如何實(shí)現(xiàn)數(shù)據(jù)降維

【嵌牛正文】

隨著數(shù)據(jù)集的增加奈籽,衍生出大數(shù)據(jù)平臺(tái)和并行數(shù)據(jù)分析算法,同時(shí)數(shù)據(jù)的降維過程的使用重要性也隨之凸顯鸵赫。數(shù)據(jù)的維度并不是越多越好衣屏,在數(shù)據(jù)分析的過程大量的數(shù)據(jù)也可能產(chǎn)生很差的表現(xiàn)效果。現(xiàn)在就自己最近看的一篇文章總結(jié)降維的幾種方法:

1.缺失值的比例

數(shù)據(jù)列如果存在太多的缺失值是不可能有太多的有用信息辩棒,因此設(shè)定一個(gè)閾值狼忱,如果數(shù)據(jù)列缺失的數(shù)據(jù)大于閾值時(shí)將數(shù)據(jù)列刪除,設(shè)定的閾值越大刪除的數(shù)據(jù)列越多隨之維度減少的幅度也越大

2.低方差過濾

和缺失值比例很相似一睁,數(shù)據(jù)列中的數(shù)據(jù)很小的變動(dòng)即方差過小時(shí)(低于預(yù)先設(shè)定的閾值)刪除數(shù)據(jù)列钻弄。特別注意的是:方差是依賴于范圍的,因此在應(yīng)用該方法前對(duì)數(shù)據(jù)正則化處理者吁。

3.高相關(guān)過濾

數(shù)據(jù)列中有相似趨勢(shì)往往也存在著相似的信息窘俺,這種情況下往往一個(gè)數(shù)據(jù)列就可以參與機(jī)器學(xué)習(xí)的模型的建立了,因此我們需要計(jì)算數(shù)值列之間的相關(guān)系數(shù)和標(biāo)稱列之間的皮爾遜積矩系數(shù)和皮爾遜卡方值砚偶,雙列的相關(guān)系數(shù)高于設(shè)定的閾值時(shí)可以減少到只有一個(gè)批销。提醒一下:相關(guān)量比較敏感,因此列的歸一化需要一個(gè)相對(duì)有意義的相關(guān)性比較染坯。

4.Random Forests / Ensemble Trees

決策樹的ensemble也成為RF(隨機(jī)森林)均芽,除了在做有效的分類器很有用外,在特征選擇方面也很有效果单鹿。一種降維的方法是針對(duì)目標(biāo)屬性生成一個(gè)大的和構(gòu)造的樹,然后使用每個(gè)屬性的使用統(tǒng)計(jì)數(shù)據(jù)發(fā)現(xiàn)大多數(shù)信息的特征子集掀宋。特別地,我們可以生成大量層次很低的樹(2層),與每棵樹正在訓(xùn)練總額的一小部分?jǐn)?shù)量的屬性劲妙。如果一個(gè)屬性經(jīng)常被選為最佳的湃鹊,它是最有可能被保留的一個(gè)有效特征。在RF中分?jǐn)?shù)計(jì)算的隨機(jī)屬性的使用統(tǒng)計(jì)數(shù)據(jù)告訴我們——相對(duì)于其他屬性——這是最有預(yù)測(cè)力的屬性镣奋。

5.PCA(主成分分析)

主成分分析(PCA)是一種正交統(tǒng)計(jì)過程,將一個(gè)數(shù)據(jù)集的原始n坐標(biāo)轉(zhuǎn)換成一個(gè)新的n組坐標(biāo)(叫做主成分)币呵。轉(zhuǎn)化的結(jié)果,第一個(gè)主成分具有最大可能的方差侨颈,在正交于(不相關(guān))先前的主成分的限制條件下余赢,每個(gè)成功轉(zhuǎn)化后的成分都具有最高可能的方差。只保留第一個(gè)m < n成分降低了數(shù)據(jù)的維度,同時(shí)保留大部分的數(shù)據(jù)信息也就是變化的數(shù)據(jù)哈垢。注意,PCA轉(zhuǎn)化對(duì)原始變量的變化比例很敏感妻柒。數(shù)據(jù)列(維度)范圍在應(yīng)用PCA之前需要正則化;同時(shí)也要注意新的坐標(biāo)系(PCs)不再是真正的系統(tǒng)變量了耘分;PCA在應(yīng)用到你的數(shù)據(jù)集產(chǎn)生新的維度時(shí)也就失去了它的可解釋性举塔,如果結(jié)果的可解釋性對(duì)于你的數(shù)據(jù)分析很重要,那么在針對(duì)你的項(xiàng)目分析時(shí)求泰,PCA不能作為你的首要選擇轉(zhuǎn)化方法央渣。

6.反向特征的消除

這個(gè)方法中,在給定的迭代次數(shù)下選定的分類算法對(duì)n個(gè)輸入特征進(jìn)行訓(xùn)練拜秧,然后我們每次刪除一個(gè)輸入特征用相同的模型對(duì)剩下的n-1個(gè)輸入特征訓(xùn)練n次痹屹,刪除的輸入特征在錯(cuò)誤率上已產(chǎn)生最小的增長(zhǎng)應(yīng)該就將其刪除章郁,留給我們將剩余的n-1個(gè)輸入特征枉氮。分類器接著使用n-2個(gè)特征作為輸入,等等…每次迭代k產(chǎn)生一個(gè)模型訓(xùn)練n-k特征和一個(gè)出錯(cuò)率e(k)暖庄;選擇一個(gè)最大可容許的錯(cuò)誤率聊替,我們定義的最小數(shù)量的特性必須達(dá)到所選的機(jī)器學(xué)習(xí)算法的分類器的性能。

7.正向特征的構(gòu)建

這種方法和反向特征消除方法具有相反的處理過程培廓。剛開始只處理一個(gè)特征惹悄,然后逐步每次添加一個(gè)特征,也就是說輸入特征即特征維度在分類器的性能上產(chǎn)生最大的增加肩钠。就這兩種算法而言泣港,計(jì)算特別耗時(shí)而且計(jì)算量也特別大,它們實(shí)際上只適用于一個(gè)數(shù)據(jù)集已經(jīng)相對(duì)具有較少的輸入列(特偵維度)价匠。

除了上面談到的幾種方法外当纱,隨機(jī)推測(cè)、NMF踩窖、自動(dòng)編碼器坡氯、卡方檢驗(yàn)或信息增益、多維度等級(jí)法、一致性分析箫柳、因子分析手形、聚類和貝葉斯模型在數(shù)據(jù)降維上表現(xiàn)也不錯(cuò)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末悯恍,一起剝皮案震驚了整個(gè)濱河市库糠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌涮毫,老刑警劉巖曼玩,帶你破解...
    沈念sama閱讀 218,122評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異窒百,居然都是意外死亡黍判,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,070評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門篙梢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)顷帖,“玉大人,你說我怎么就攤上這事渤滞”岫眨” “怎么了?”我有些...
    開封第一講書人閱讀 164,491評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵妄呕,是天一觀的道長(zhǎng)陶舞。 經(jīng)常有香客問我,道長(zhǎng)绪励,這世上最難降的妖魔是什么肿孵? 我笑而不...
    開封第一講書人閱讀 58,636評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮疏魏,結(jié)果婚禮上停做,老公的妹妹穿的比我還像新娘。我一直安慰自己大莫,他們只是感情好蛉腌,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,676評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著只厘,像睡著了一般烙丛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上羔味,一...
    開封第一講書人閱讀 51,541評(píng)論 1 305
  • 那天河咽,我揣著相機(jī)與錄音,去河邊找鬼介评。 笑死库北,一個(gè)胖子當(dāng)著我的面吹牛爬舰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播寒瓦,決...
    沈念sama閱讀 40,292評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼情屹,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了杂腰?” 一聲冷哼從身側(cè)響起垃你,我...
    開封第一講書人閱讀 39,211評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎喂很,沒想到半個(gè)月后惜颇,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,655評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡少辣,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,846評(píng)論 3 336
  • 正文 我和宋清朗相戀三年凌摄,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片漓帅。...
    茶點(diǎn)故事閱讀 39,965評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锨亏,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出忙干,到底是詐尸還是另有隱情器予,我是刑警寧澤,帶...
    沈念sama閱讀 35,684評(píng)論 5 347
  • 正文 年R本政府宣布捐迫,位于F島的核電站乾翔,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏施戴。R本人自食惡果不足惜反浓,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,295評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望暇韧。 院中可真熱鬧勾习,春花似錦浓瞪、人聲如沸懈玻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,894評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)涂乌。三九已至,卻和暖如春英岭,著一層夾襖步出監(jiān)牢的瞬間湾盒,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,012評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工诅妹, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留罚勾,地道東北人毅人。 一個(gè)月前我還...
    沈念sama閱讀 48,126評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像尖殃,于是被迫代替她去往敵國(guó)和親丈莺。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,914評(píng)論 2 355