來(lái)自:Feature Selection: A Data Perspective
目的:
相對(duì)于算法本身的改進(jìn)锰瘸,特征工程往往對(duì)效果有更直接的提升。特征工程以降維為手段蹬碧,重點(diǎn)解決以下問(wèn)題:
1. 過(guò)擬合舱禽;
2. 隨著特征增加,稀疏性呈指數(shù)爆炸恩沽。由于大多數(shù)算法假設(shè)數(shù)據(jù)特征獨(dú)立同分布誊稚,稀疏性會(huì)干擾最終結(jié)果;
3. PAC Learning Theory:我們對(duì)實(shí)際問(wèn)題的假設(shè)在多大程度上背離目標(biāo)方程;
實(shí)際應(yīng)用中飒筑,針對(duì)具體問(wèn)題片吊,我們通常能找到最佳特征數(shù):
1. 特征提取:將數(shù)據(jù)從原始的高位空間投向低維协屡,得到的新特征通常沒(méi)有物理意義俏脊;
1.1 線性投影:PCA,ICA肤晓,LDA等爷贫;
1.2 非線性投影:ISOMAP,LLE等补憾;
2. 特征篩選:基于相關(guān)性和冗余性漫萄,從原始特征擇優(yōu);
從y值考慮盈匾,特征工程可分為有監(jiān)督腾务,無(wú)監(jiān)督和半監(jiān)督3類;從x考慮削饵,特征工程可分為wraper岩瘦,filter,embedder 3類窿撬。本文從數(shù)據(jù)角度启昧,對(duì)特征工程做如下分類:
1. Similarity based methods:基于相似性的方法通過(guò)保持原始數(shù)據(jù)相關(guān)性的能力評(píng)估特征的重要性。好特征不能導(dǎo)致數(shù)值大小的隨機(jī)性劈伴,同時(shí)好特征可以令鄰近的數(shù)據(jù)數(shù)值接近密末,鄰近由相關(guān)矩陣定義。假設(shè)相關(guān)矩陣在實(shí)數(shù)空間內(nèi),為了找到相關(guān)性最高的特征严里,需要最大化效用矩陣新啼,通常需要用最小二乘法得到其最大值。
優(yōu)點(diǎn):1. 特征得分計(jì)算簡(jiǎn)單田炭,2. 選出的的特征可直接用于后續(xù)學(xué)習(xí)任務(wù)师抄;
缺點(diǎn):沒(méi)有有效解決特征冗余;
1.1 Laplacian Score [He et al., 2005]
1.1.1 首先:這種方法搭建X的對(duì)角矩陣(構(gòu)建多樣性)和拉普拉斯矩陣(構(gòu)建相似性)教硫, 不考慮Y叨吮;
1.1.2 好的特征需要同時(shí)保證X的相似性特征(越小越好)和特征的多樣性(越大越好);
1.1.3 拉普拉斯得分越小越好瞬矩;
1.2 Spectral Feature Selection [Zhao and Liu, 2007]
1.2.1 相似矩陣的特征向量代表了X的分布茶鉴;
1.2.2 特征的相似性由特征向量的內(nèi)積衡量,特征值對(duì)X在該特征上的賦值由下圖灰度表示景用,鄰近的數(shù)據(jù)賦值相近涵叮;
1.2.3 譜特征得分越大越好;
1.3 Fisher Score [Duda et al., 2001]
1.3.1 這種方法考慮Y伞插,構(gòu)建類內(nèi)和類間拉普拉斯矩陣割粮,該矩陣每個(gè)元素越大,對(duì)應(yīng)的x越相似媚污;
1.3.2 好特征使不同類的數(shù)據(jù)相遠(yuǎn)舀瓢,使同類數(shù)據(jù)相近;
1.3.3 費(fèi)舍得分越大越好
1.4. Trace Ratio Criteria [Nie et al., 2008]
1.4.1. 費(fèi)舍得分單獨(dú)地衡量每個(gè)特征耗美,可能陷入局部最優(yōu)
1.4.2. 跡比準(zhǔn)則還衡量特征子集京髓;
1.4.3. 跡比得分越大越好,所得特征沒(méi)有物理意義商架;
2. Information Theoretical based Methods:使用啟發(fā)式篩選方法挑特征堰怨,以總體最優(yōu)為目標(biāo)。找到最好的特征子集是NP-難的問(wèn)題蛇摸,通潮竿迹基于熵,冗余性和信息增益赶袄,使用前向和后向搜索找特征诬烹。
優(yōu)點(diǎn):1. 兼顧相關(guān)性和冗余性,2. 選出的的特征可直接用于后續(xù)學(xué)習(xí)任務(wù)弃鸦;
缺點(diǎn):1. 大部分方法只能用于監(jiān)督學(xué)習(xí),2. 只能處理離散數(shù)據(jù)幢痘;
2.1. Information Gain [Lewis, 1992]
2.1.1. 信息增益僅通過(guò)衡量基于Y的X的相關(guān)性來(lái)衡量特征重要性唬格;
2.1.2. 僅考慮單個(gè)特征,且不考慮特征間的互信息;
2.1.3. 信息增益越大越好购岗;
2.2. Mutual Information Feature Selection [Battiti, 1994]
2.2.1. 信息增益僅考慮單個(gè)特征和Y的相關(guān)性汰聋;
2.2.2. 互信息還考慮特征間的信息冗余;
2.2.3. 互信息越大越好喊积;
2.3. Minimum Redundancy Maximum Relevance [Peng et al., 2005]
2.3.1. 直觀上烹困,MRMR基于相似矩陣,動(dòng)態(tài)減小信息冗余對(duì)特征集的影響乾吻;
2.3.2. 同時(shí)髓梅,增強(qiáng)特征子集對(duì)Y的相關(guān)性的影響;
2.3.3. MRMR得分越大越好绎签,所得特征沒(méi)有物理意義枯饿;
2.4.4. Conditional Infomax Feature Extraction [Lin and Tang, 2006]
2.4.1. 類內(nèi)相關(guān)性越大于總體類間相關(guān)性,相關(guān)特征越有用诡必;
2.4.2. 相關(guān)特征不一定冗余奢方;
2.4.3. 條件信息得分越大越好,所得特征沒(méi)有物理意義爸舒;
3. Sparse Learning based Methods:上述方法不一定適用于某一具體任務(wù)蟋字。稀疏學(xué)習(xí)方法通常用于嵌入。該方法通常使用損失項(xiàng)和懲罰項(xiàng)扭勉,有極強(qiáng)的理論支撐鹊奖,適用數(shù)據(jù)的類型較為廣泛,且使用靈活剖效。
優(yōu)點(diǎn):1. 數(shù)據(jù)利用充分嫉入,2. 直觀,可解釋性好璧尸;
缺點(diǎn):1. 泛化性弱咒林,2. 非平滑最優(yōu),計(jì)算量大爷光;
3.1. Lasso [Tibshirani, 1996]
3.1.1. 該方法基于特征權(quán)重的l1正則化項(xiàng)垫竞;
3.1.2. 該方法通過(guò)補(bǔ)償最小二乘法的損失確定得分大小蛀序;
3.1.3. Lasso得分越大越好欢瞪;
3.2. Multi-Cluster Feature Selection (MCFS) [Cai et al., 2011]
3.2.1. 該方法尋找X內(nèi)部聚類的向量,檢測(cè)其聚類結(jié)構(gòu)徐裸;
3.2.2. 對(duì)每個(gè)類計(jì)算lasso遣鼓,并組合類的特征系數(shù);
3.2.3. MCFS得分越大越好重贺;
3.3.3. Nonnegative Unsupervised Feature Selection (NDFS) [Li et al., 2012]
3.3.1. 該方法同時(shí)執(zhí)行聚類和特征選擇骑祟;
3.3.2. 類的權(quán)重矩陣由RBF核構(gòu)造回懦,之后將該矩陣嵌入特征選擇;
3.3.3. NDFS得分越大越好次企;
4. Statistical based Methods:基于一系列統(tǒng)計(jì)檢測(cè)怯晕,通常用于特征篩選,不考慮冗余性缸棵,在離散數(shù)據(jù)上效果較好舟茶。
優(yōu)點(diǎn):1. 直觀,2. 選出的特征可直接用于后續(xù)學(xué)習(xí)任務(wù)堵第;
缺點(diǎn):1. 沒(méi)解決特征冗余吧凉,2. 數(shù)據(jù)需要離散化,3. 在高維空間計(jì)算量大型诚;
4.1. T-Score [Davis and Sampson, 1986]
4.1.1. 用于二分類客燕;
4.1.2. 檢測(cè)特征對(duì)樣本間均值是否顯著;
4.1.3. T得分越高越好狰贯;
4.2. Chi-Square Score [Liu and Setiono, 1995]
4.2.1. 檢測(cè)特征對(duì)Y的獨(dú)立性也搓;
4.2.2. 不考慮類間關(guān)系;
4.2.3. 卡方得分越高越好涵紊;
5. FS with Structured Features:常見(jiàn)的數(shù)據(jù)結(jié)構(gòu)有時(shí)序傍妒,圖,群摸柄,樹(shù)等颤练。流行的方法是最小化因結(jié)構(gòu)正則化而受到懲罰的擬合誤差
優(yōu)點(diǎn):1. 提高學(xué)習(xí)效率,2. 提高可解釋性驱负;
缺點(diǎn):1. 需要統(tǒng)一的標(biāo)注規(guī)則嗦玖,2. 需要計(jì)算非凸優(yōu)化,計(jì)算量大跃脊;
5.1. Group Structure – Group Lasso [Yuan and Lin, 2006]
5.1.1. 該數(shù)據(jù)結(jié)構(gòu)常用于腦功能宇挫,基因組的編碼;
5.1.2. 需要全選或全不選某個(gè)群酪术;
5.1.3. 以群的損失和懲罰為依據(jù)器瘪;
5.2. Sparse Group Lasso [Friedman et al., 2010]
5.2.1. 用于挑選有代表性的群;
5.2.2. 同時(shí)基于群和特征構(gòu)建得分绘雁;
5.2.3. SGL得分越高越好橡疼;
5.3. Granger Causality Score [Granger, 2003]
5.3.1. 用于計(jì)量時(shí)序數(shù)據(jù),檢測(cè)過(guò)去信息對(duì)現(xiàn)在的最小二乘方差庐舟;
5.3.2. 檢測(cè)前提是通過(guò)平穩(wěn)檢測(cè)和協(xié)整檢測(cè)欣除;
5.3.3. 因果性得分越高越好;
5.4. Tree-Guided Group Lasso [Liu and Ye, 2010]
5.4.1. 樹(shù)狀結(jié)構(gòu)用于人臉識(shí)別挪略,基因表達(dá)耻涛,部分詞向量的編碼废酷;
5.4.2. 子葉節(jié)點(diǎn)是單獨(dú)特征,內(nèi)部節(jié)點(diǎn)是群特征抹缕,
5.4.3. 基于權(quán)重檢測(cè)和每個(gè)子樹(shù)的相關(guān)性;
5.5. Graph Lasso [Ye and Liu, 2012]
5.5.1. 圖結(jié)構(gòu)用于同義反義詞墨辛,基因的相互制約等場(chǎng)景的編碼卓研;
5.5.2. 如果兩個(gè)節(jié)點(diǎn)特征被連接,則這兩個(gè)特征可能會(huì)被同時(shí)選擇睹簇;
5.5.3. 節(jié)點(diǎn)權(quán)重需要加懲罰項(xiàng)奏赘;
5.6. Graph-Guided Fused Lasso (GFLasso) [Kim and Xing, 2009]
5.6.1. Graph Lasso假設(shè)連接的特征具有相近特征系數(shù),但是該系數(shù)可能為負(fù)太惠;
5.6.2. GFL顯示地構(gòu)造正相關(guān)和負(fù)相關(guān)磨淌,兩個(gè)相關(guān)項(xiàng)基于特征矩陣動(dòng)態(tài)調(diào)整;
5.6.3. GFL得分越高越好凿渊;
6. Feature Selection with Heterogeneous Data:傳統(tǒng)特征分析單一來(lái)源數(shù)據(jù)梁只,這些數(shù)據(jù)通常滿足獨(dú)立同分布假設(shè)。異構(gòu)數(shù)據(jù)來(lái)源廣泛埃脏,比如互聯(lián)網(wǎng)搪锣,物聯(lián)網(wǎng),天文觀測(cè)彩掐,基因測(cè)序构舟,人際網(wǎng)絡(luò)等。該方法主要應(yīng)對(duì)如何為關(guān)聯(lián)信息建模堵幽,如何融合異構(gòu)信息狗超,如何在標(biāo)簽缺失的問(wèn)題。
優(yōu)點(diǎn):適應(yīng)多中來(lái)源數(shù)據(jù)朴下;
缺點(diǎn):不同來(lái)源的數(shù)據(jù)可能有噪聲努咐,甚至相互矛盾;
6.1. Feature Selection on Networks (FSNet) [Gu and Han, 2011]
6.1.1. 使用線性分類器分別捕捉X和Y的關(guān)系桐猬;
6.1.2. 使用Graph lasso建立不同來(lái)源X之間的關(guān)系麦撵;
6.1.3. 以FSNet為目標(biāo)方程獲得權(quán)重矩陣;
6.2. Linked Feature Selection (LinkedFS) [Tang and Liu, 2012]
6.2.1. 以社交網(wǎng)絡(luò)行為:轉(zhuǎn)發(fā)溃肪,共同關(guān)注免胃,共同被關(guān)注,和關(guān)注來(lái)編碼數(shù)據(jù)惫撰;
6.2.2. 基于統(tǒng)制社交理論羔沙,假設(shè)這些行為的人具有相同興趣;
6.2.3. 以鏈接強(qiáng)度矩陣構(gòu)建特征得分厨钻,越高越好扼雏;
6.3.3. Personalized Feature Selection [Li et al., 2017]
6.3.1. 以社交網(wǎng)絡(luò)行為的不同來(lái)構(gòu)造特征坚嗜,關(guān)注不同興趣和相同內(nèi)同的不同含義‘蘋果降價(jià)了’;
6.3.2. 通過(guò)鼓勵(lì)群內(nèi)特征競(jìng)爭(zhēng)诗充,抑制群間特征競(jìng)爭(zhēng)來(lái)抑制過(guò)擬合苍蔬;
6.3.3. 目標(biāo)方程考慮節(jié)點(diǎn)連接的方向,組內(nèi)群內(nèi)權(quán)重和群間權(quán)重蝴蜓;
6.4. Linked Unsupervised Feature Selection (LUFS) [Tang and Liu, 2012]
6.4.1. 通過(guò)節(jié)點(diǎn)鏈接的權(quán)重碟绑,應(yīng)對(duì)標(biāo)注和特征定義不明的場(chǎng)景;
6.4.2. 通過(guò)社交維度的散布矩陣茎匠,最大化組內(nèi)相似性同時(shí)最小化組間相似性格仲,相似性由RBF核定義;
6.4.3. 目標(biāo):最小化Y的松弛譜同時(shí)對(duì)X各階施加正則化項(xiàng)诵冒;
6.5. Robust Unsupervised on Networks (NetFS) [Li et al., 2016]
6.5.1. LUFS對(duì)網(wǎng)絡(luò)構(gòu)建和特征選擇分開(kāi)處理凯肋,NetFS將網(wǎng)絡(luò)構(gòu)建嵌入到特征選擇中,對(duì)噪聲鏈接有更好的魯棒性汽馋;
6.5.2. 構(gòu)建潛在表達(dá)矩陣侮东,對(duì)網(wǎng)絡(luò)構(gòu)建和特征選擇形成互補(bǔ);
6.5.3. 使用Kmeans回溯NetFS和LUFS惭蟋,前者對(duì)干擾的魯棒性更好苗桂;
6.6. Feature Selection in Signed Networks (SignedFS) [Cheng et al., 2017]
6.6.1. 上述方法分析了社交網(wǎng)絡(luò)里正向的用戶互動(dòng),SignedFS獨(dú)立地添加負(fù)向互動(dòng)到目標(biāo)函數(shù)中告组,基于三個(gè)假設(shè):1. 正向互動(dòng)的用戶具有更高相似性煤伟,2. 朋友的朋友是朋友,3. 敵人的敵人是朋友木缝。
6.6.2. 同時(shí)嵌入正負(fù)項(xiàng)的潛在表示到特征選擇中便锨;
6.6.3. 最終得到的特征在T檢驗(yàn)下表現(xiàn)良好;
7. Multi-Source and Multi-View Feature Selection:前者選擇不同的特征F我碟,后者選擇不同的X放案;
優(yōu)點(diǎn):不同來(lái)源數(shù)據(jù)互補(bǔ),顯著提升后續(xù)訓(xùn)練任務(wù)矫俺;
缺點(diǎn):非凸優(yōu)化計(jì)算量大吱殉,且涉及高位空間矩陣;
7.1. Multi-Source Feature Selection [Zhao and Liu, 2008]
7.1.1. 基于不同來(lái)源的地理信息數(shù)據(jù)的鄰接矩陣厘托,構(gòu)建總體樣本友雳;
7.2.2. 對(duì)獨(dú)立的數(shù)據(jù)源構(gòu)建協(xié)方差矩陣來(lái)獲得相關(guān)性;
7.3.3. 可以通過(guò)協(xié)方差矩陣的對(duì)角矩陣對(duì)特征排序铅匹,也可以直接用PCA來(lái)提取該矩陣的特征押赊;
7.2. Multi-View Unsupervised Feature Selection (MVFS) [Tang et al., 2013]
7.2.1. MVFS兼顧聚類結(jié)構(gòu),相似性和相關(guān)性:
7.2.2. 對(duì)每個(gè)view考察其特征權(quán)重包斑,同時(shí)考察該特征權(quán)重矩陣內(nèi)部的稀疏性流礁;
7.3.3. 最后使用譜聚類尋找無(wú)效標(biāo)簽涕俗;
7.3. Multi-View Clustering and Feature Learning [Wang et al., 2013]
7.3.1. 每個(gè)view的貢獻(xiàn)需要區(qū)別對(duì)待,比如不同攝像頭同一時(shí)間的數(shù)據(jù)神帅;
7.3.2. 同時(shí)對(duì)view內(nèi)和view間的稀疏性以實(shí)現(xiàn)上述目標(biāo)再姑;
7.3.3. 在該任務(wù)的稀疏矩陣的懲罰項(xiàng)上,l1比l2效果好找御;
8. Feature Selection with Streaming Data Instances and Features:主要挑戰(zhàn)是數(shù)據(jù)流的大小和特征數(shù)量都未知询刹,對(duì)實(shí)時(shí)性要求高,且難以批處理萎坷。特征流選擇分兩步:1. 是否使用新特征,2. 是否放棄老特征沐兰。
8.1. Grafting [Perkins and Theiler, 2003]
8.1.1. 加入新特征時(shí)加入新的懲罰項(xiàng)哆档,當(dāng)loss的下降超過(guò)特征矩陣的權(quán)重時(shí),目標(biāo)方程減小住闯,此時(shí)加入新特征瓜浸;
8.1.2. 如果新特征被加入,通過(guò)更新所有權(quán)重的共軛梯度下降來(lái)更新模型比原;
8.1.3. 此時(shí)如果有些特征的權(quán)重被歸零插佛,刪掉;
8.2.2. Unsupervised Streaming Feature Selection (USFS) [Li et al., 2015]
8.2.1. 通過(guò)關(guān)聯(lián)信息解決標(biāo)注的缺失量窘;
8.2.2. 通過(guò)在線的特征子集的變化來(lái)確定新特征是否被加入雇寇;
8.2.3. 得到的特征通常比較穩(wěn)定;
8.3. Online Feature Selection (OFS) [Wang et al., 2014]
8.3.1. OFS基于線性分類器蚌铜,每個(gè)特征的數(shù)據(jù)量設(shè)限不超過(guò)閾值锨侯;
8.3.2. 如果新數(shù)據(jù)的特征預(yù)測(cè)錯(cuò)誤,則執(zhí)行特征權(quán)重的梯度下降冬殃,
8.3.3. 在懲罰項(xiàng)下尋找已有的總體的新特征囚痴;
8.4. Feature Selection on Data Streams (FSDS) [Huang et al., 2015]
8.4.1. 基于matrix sketching [Liberty. 2013]獲得低階的特征矩陣;
8.4.2. 權(quán)重更新使用MCFS
8.4.3. 如果新的X正交审葬,使用l2替換l1深滚;
總結(jié):