Abstract
- 特征選擇在機(jī)器學(xué)習(xí)中非常重要絮吵,尤其是在生物信息學(xué)任務(wù)中。
- 本文提出一種新的魯棒特征選擇方法枫甲,這一方法核心在于在損失函數(shù)核正則化項(xiàng)中聯(lián)合使用21范數(shù)源武。
- 基于21范數(shù)的損失函數(shù)對(duì)于數(shù)據(jù)點(diǎn)中的異常值具有較好的魯棒性,而基于21范數(shù)的正則化項(xiàng)則可以選擇所有數(shù)據(jù)點(diǎn)稀疏的特征想幻。
- 本文證明了算法的收斂性粱栖。同時(shí)通過實(shí)驗(yàn)結(jié)果證明了方法的性能。
Introduction
- 一般來說脏毯,特征選擇有三種模型:1.濾波方法闹究,通過獨(dú)立的分類器進(jìn)行特征選擇;2.包裝方法食店,將預(yù)測(cè)方法作為一個(gè)黑盒渣淤,對(duì)特征的子集進(jìn)行打分赏寇;3.嵌入式方法,將特征選擇的過程直接嵌入在訓(xùn)練過程中价认。
- 本文采用了基于21范數(shù)的損失函數(shù)來消除異常值嗅定,因?yàn)榛?范數(shù)的損失函數(shù)對(duì)異常值敏感。
- 提出了基于21范數(shù)的正則化項(xiàng)用踩,通過帶有連接稀疏性的數(shù)據(jù)點(diǎn)選擇特征渠退,即每個(gè)特征對(duì)于所有的數(shù)據(jù)點(diǎn)要么具有較小的分?jǐn)?shù)要么具有較大的分?jǐn)?shù)。
Notations and Definitions
-
給出了21范數(shù)的定義:
- 21范數(shù)對(duì)于行來說具有旋轉(zhuǎn)不變性:
-
將21范數(shù)推廣到了rp范數(shù):
Robust Feature Selection Based on 2,1-Norms
- 以最小二乘回歸為例脐彩,目標(biāo)函數(shù)如下:
- 正則化項(xiàng)R(W)有以下幾種選擇:
(關(guān)于正則化可以看這個(gè)https://blog.csdn.net/zouxy09/article/details/24971995) - R3的0范數(shù)是最理想的碎乃,但是本文使用R4代替,因?yàn)橐环矫鍾4的1范數(shù)是凸的并且很容易優(yōu)化(本文貢獻(xiàn))惠奸。另一方面0范數(shù)的結(jié)果與實(shí)際條件下的1范數(shù)結(jié)果相同或近似相同梅誓。
An Efficient Algorithm
Reformulation as A Constrained Problem
- 目標(biāo)函數(shù)轉(zhuǎn)化為如下形式:
- 現(xiàn)有算法通常將其重新表述為二階錐規(guī)劃(SOCP)或半定規(guī)劃(SDP)問題,進(jìn)而可以通過內(nèi)點(diǎn)法或約束法求解佛南。但是這些方法計(jì)算復(fù)雜梗掰。
- 也有文獻(xiàn)將問題重述為min-max問題,應(yīng)用近端梯度法解決共虑。這一方法更有效但是收斂速度非常慢愧怜,而且只能解決特定問題。
- 下文將提出一個(gè)簡(jiǎn)單而有效的方法來解決這一問題妈拌,同時(shí)可以保證收斂到全局最優(yōu)。
An Efficient Algorithm to Solve the Constrained Problem
- 算法主要基于拉格朗日方法蓬蝶,構(gòu)造拉格朗日函數(shù)如下:
-
進(jìn)一步推導(dǎo)如下:(懶得敲公式了哈哈哈)
-
注意到D是由U得到的尘分,因此給出了迭代求解的算法如下:
Algorithm Analysis
- 這一部分證明了算法將使目標(biāo)函數(shù)收斂到全局最優(yōu)值,證明略丸氛。
Experimental Results
- 通過實(shí)驗(yàn)證明了算法的有效性培愁,實(shí)驗(yàn)及結(jié)果略。
Conclusions
- 本文提出了一種全新的高效且具有魯棒性的特征選擇方法缓窜,通過在損失函數(shù)和正則化項(xiàng)中使用21范數(shù)并結(jié)合優(yōu)化定续,取得了較好的效果,同時(shí)具有較好的魯棒性禾锤。本文還給出了一種有效的優(yōu)化求解算法私股,并證明了這一算法將使目標(biāo)函數(shù)收斂到全局最優(yōu)值