在對(duì)海量數(shù)據(jù)或大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí)摊鸡,通常會(huì)面臨“維度災(zāi)難”献烦,原因是數(shù)據(jù)集的維度可以不斷增加直至無(wú)窮多掠抬,但計(jì)算機(jī)的處理能力和速度卻是有限的拔稳;另外聘鳞,數(shù)據(jù)集的大量維度之間可能存在共線性的關(guān)系薄辅,這會(huì)直接導(dǎo)致學(xué)習(xí)模型的健壯性不夠,甚至很多時(shí)候算法結(jié)果會(huì)失敗抠璃。因此站楚,我們需要降低維度數(shù)量并降低維度間共線性的影響。
數(shù)據(jù)降維也被稱(chēng)為數(shù)據(jù)規(guī)約或數(shù)據(jù)約減搏嗡,其目的是減少參與數(shù)據(jù)計(jì)算和建模維度的數(shù)量窿春。一種典型的數(shù)據(jù)降維思路是基于特征選擇的的降維。
基于特征的選擇指的是根據(jù)一定規(guī)則和經(jīng)驗(yàn)采盒,直接選取原有維度的部分參與到后續(xù)的計(jì)算和建模過(guò)程旧乞,用選擇的維度代替所有維度,這個(gè)過(guò)程不產(chǎn)生新的維度磅氨。這種方式的好處在于尺栖,所選擇的維度保留了原有維度的業(yè)務(wù)含義,可以用于后續(xù)的知識(shí)模式解讀和業(yè)務(wù)理解烦租,從而保證了最終的可應(yīng)用性延赌。
基于特征選擇的降維方法通常有四種,如下圖所示:
經(jīng)驗(yàn)法:通過(guò)操作者的以往經(jīng)驗(yàn)叉橱、實(shí)際數(shù)據(jù)情況挫以、業(yè)務(wù)理解程度等綜合考慮選擇。
測(cè)算法:通過(guò)不斷測(cè)試多種維度選擇參與計(jì)算窃祝,通過(guò)結(jié)果來(lái)反復(fù)驗(yàn)證和調(diào)整并最終找到最佳特征方案掐松。
基于統(tǒng)計(jì)分析的方法:通過(guò)相關(guān)性分析不同維度間的線性相關(guān)性,從相關(guān)性高的維度中人工去除或篩選粪小;或者通過(guò)計(jì)算不同維度間的互信息量甩栈,找到具有較高信息量的特征集,然后把其中的一個(gè)特征去除或留下糕再。
機(jī)器學(xué)習(xí)算法:通過(guò)機(jī)器學(xué)習(xí)算法得到不同特征的特征值或權(quán)重量没,然后再根據(jù)權(quán)重來(lái)選擇較大的特征。例如突想,通過(guò)CART決策樹(shù)模型得到不同變量的重要程度殴蹄,然后可以根據(jù)實(shí)際權(quán)重值進(jìn)行選擇究抓。