KDD2018精選(4)有監(jiān)督矩陣完備化的主動特征獲取

1.? ? 原文:Active Feature Acquisition with Supervised Matrix Completion

作者來自南航序宦、理研和東大

關(guān)鍵詞:主動學(xué)習(xí)敬惦,特征獲取族操,矩陣完備化

1.1? 引言

在數(shù)據(jù)挖掘和機器學(xué)習(xí)任務(wù)中面睛,一組數(shù)據(jù)對象通常表示為特征矩陣痰滋,其中每行是一個對象酪惭,每列是特征的一個維度沪饺。如果特征值嚴(yán)重缺失,在該數(shù)據(jù)集上訓(xùn)練的分類模型的性能將顯著退化商佛。矩陣完備化將是用于恢復(fù)特征矩陣的缺失條目的有用工具喉钢,已被廣泛研究。類標(biāo)簽強烈依賴于特征表示良姆,會減小全部可能矩陣的選擇范圍肠虽,而且不同的特征可能對恢復(fù)缺失值以及改進(jìn)分類模型具有不同的貢獻(xiàn)。傳統(tǒng)的主動學(xué)習(xí)算法選擇信息量最大的未標(biāo)記實例來查詢其標(biāo)簽玛追,并且可以顯著降低注釋成本税课。這篇文章綜合了主動特征查詢和監(jiān)督矩陣完備化,以最小化數(shù)據(jù)獲得成本痊剖。理論分析給出了矩陣完備算法重構(gòu)誤差的上界伯复,同時在不同的數(shù)據(jù)集上進(jìn)行實驗以驗證所提出的方法的有效性。

1.2? 相關(guān)工作

主動學(xué)習(xí)已經(jīng)被廣泛研究以降低標(biāo)注成本邢笙,比如統(tǒng)計方法啸如,SVM,委員會選擇法等氮惯。與旨在降低標(biāo)簽成本的傳統(tǒng)主動學(xué)習(xí)不同叮雳,還有另一個研究分支采用相似性方法來降低特征獲取成本想暗,比如提出一個標(biāo)準(zhǔn)來估計每單位成本的準(zhǔn)確性的預(yù)期改進(jìn),然后迭代地獲得最具成本效益的特征值帘不,還有一種類似的方法说莫,其中學(xué)習(xí)任務(wù)是聚類而不是分類,因此相應(yīng)的標(biāo)準(zhǔn)估計了每單位成本的聚類質(zhì)量的預(yù)期改進(jìn)寞焙。這些方法的一個共同限制是它們不考慮可以從觀察到的條目中準(zhǔn)確地恢復(fù)一些缺失特征的情況储狭,因此可能浪費不必要的特征獲取成本〉方迹恢復(fù)缺失特征所使用的懲罰訓(xùn)練需要監(jiān)督學(xué)習(xí)辽狈,而矩陣完備是用于恢復(fù)部分觀察到的矩陣的缺失條目的經(jīng)典方法。在某些情況下呛牲,觀察到的條目不足以恢復(fù)其他條目刮萌,因此需要進(jìn)一步工作以獲取一些缺失條目的更多實實際值。雖然上述所有研究都沒有在理論上的完備性娘扩,但還是有著重于基于結(jié)果的自適應(yīng)查詢矩陣着茸。

1.3? 提出的方法

考慮特征缺失問題,其中僅部分觀察到X琐旁。本文用Ω表示觀察到的X條目的索引集涮阔。 在本節(jié)的其余部分,本文將首先提出一種監(jiān)督矩陣完成方法灰殴,然后提出一種主動特征獲取方法敬特。

1.3.1? ? ?監(jiān)督矩陣完備

我們關(guān)注監(jiān)督分類設(shè)置下的矩陣完成問題,其中任務(wù)是學(xué)習(xí)用于預(yù)測實例的類標(biāo)簽的函數(shù)f验懊。目標(biāo)函數(shù)一方面擅羞,通過低秩假設(shè)從X的部分觀察中準(zhǔn)確地恢復(fù)地面實況特征矩陣尸变,另一方面义图,用恢復(fù)的矩陣DX訓(xùn)練的分類模型f預(yù)期具有小的經(jīng)驗誤差。


對問題優(yōu)化如下:


得到等價問題:


1.3.2? ? ?主動特征獲取

如何積極地查詢地面實況值作為最具信息性的特征召烂,此處目標(biāo)問題是證明模型主要基于最小數(shù)量的查詢碱工。基于方差的選擇奏夫,如果模型對實例的預(yù)測不太確定怕篷,則該實例被認(rèn)為對于改進(jìn)模型更具信息性,并且更有可能被選擇用于標(biāo)簽查詢酗昼。需要提出的是廊谓,沒有必要根據(jù)所有迭代計算方差。一般來說麻削,獲得最近迭代中的條目變化更為重要蒸痹。最后春弥,獲取特征值的代價因不同的特征而異。同時叠荠,在每次迭代中匿沛,選擇一小部分缺失的特征矩陣條目來獲取它們的標(biāo)注值。進(jìn)一步說榛鼎,這里采用最近提出的帕累托優(yōu)化算法(POSS)來解決這個問題逃呼。 POSS是一種進(jìn)化風(fēng)格算法,它維護(hù)解決方案存檔者娱,并通過用更好的解決方案替換某些解決方案來迭代更新存檔抡笼。


1.3.3? ? ?理論分析

對于Xw和y之間的損失最小化問題,這里通過強制Xw和y相等來討論更嚴(yán)格的情況:對于SVD為M=UΣV?的秩-r矩陣M∈Rn×m肺然,我們使用以下值作為相干性蔫缸,相干性越低,條目的值的平均分布越均勻际起。假設(shè)aX∥2tr≤βrnd拾碌,f(X)= y并且Ω是在具有概率|Ω| /(nd)的二項式模型之后隨機獨立選擇的。 設(shè)DX *為優(yōu)化問題的解街望,μ=maxDX∈Gμ(DX)校翔,其中G?Rn×d為G =(XD∈Rn×d |∥DX∥2ndDX*? - X∥2tr ≤βrnd,f(DX)=y√F≤2*灾前。防症,C0μ2βsr(n + d)|Ω|)s對于某些r≤min{n,d}和β≥0哎甲。然后至少有概率 1 -C /(n + d)蔫敲,我們有


1.4? 實驗

在6個數(shù)據(jù)集上進(jìn)行實驗,即鮑魚炭玫,信件奈嘿,圖像,國際象棋吞加,HillValley和HTRU2裙犹。在實驗中,檢查矩陣完備和主動特征獲得后的分類的性能衔憨。主動特征獲取方法AFASMC也與以下方法進(jìn)行了比較叶圃,對于AFASMC,參數(shù)λ1和λ2在所有數(shù)據(jù)集上默認(rèn)固定為1践图。


對于不同的特征獲得代價掺冠,可以觀察到,考慮獲得代價的兩種策略都可以獲得比原始AFASMC更好的性能码党。


同時德崭,捕獲最近迭代中條目的變動更為重要悍及,即方差計算應(yīng)該更多地強調(diào)最近的迭代。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末接癌,一起剝皮案震驚了整個濱河市心赶,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缺猛,老刑警劉巖缨叫,帶你破解...
    沈念sama閱讀 212,454評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異荔燎,居然都是意外死亡耻姥,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,553評論 3 385
  • 文/潘曉璐 我一進(jìn)店門有咨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來琐簇,“玉大人,你說我怎么就攤上這事座享⊥裆蹋” “怎么了?”我有些...
    開封第一講書人閱讀 157,921評論 0 348
  • 文/不壞的土叔 我叫張陵渣叛,是天一觀的道長丈秩。 經(jīng)常有香客問我,道長淳衙,這世上最難降的妖魔是什么蘑秽? 我笑而不...
    開封第一講書人閱讀 56,648評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮箫攀,結(jié)果婚禮上肠牲,老公的妹妹穿的比我還像新娘。我一直安慰自己靴跛,他們只是感情好缀雳,可當(dāng)我...
    茶點故事閱讀 65,770評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著汤求,像睡著了一般俏险。 火紅的嫁衣襯著肌膚如雪严拒。 梳的紋絲不亂的頭發(fā)上扬绪,一...
    開封第一講書人閱讀 49,950評論 1 291
  • 那天,我揣著相機與錄音裤唠,去河邊找鬼挤牛。 笑死,一個胖子當(dāng)著我的面吹牛种蘸,可吹牛的內(nèi)容都是我干的墓赴。 我是一名探鬼主播竞膳,決...
    沈念sama閱讀 39,090評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼诫硕!你這毒婦竟也來了坦辟?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,817評論 0 268
  • 序言:老撾萬榮一對情侶失蹤章办,失蹤者是張志新(化名)和其女友劉穎锉走,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體藕届,經(jīng)...
    沈念sama閱讀 44,275評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡挪蹭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,592評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了休偶。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梁厉。...
    茶點故事閱讀 38,724評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖踏兜,靈堂內(nèi)的尸體忽然破棺而出词顾,到底是詐尸還是另有隱情,我是刑警寧澤碱妆,帶...
    沈念sama閱讀 34,409評論 4 333
  • 正文 年R本政府宣布计技,位于F島的核電站,受9級特大地震影響山橄,放射性物質(zhì)發(fā)生泄漏垮媒。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,052評論 3 316
  • 文/蒙蒙 一航棱、第九天 我趴在偏房一處隱蔽的房頂上張望睡雇。 院中可真熱鬧,春花似錦饮醇、人聲如沸它抱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,815評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽观蓄。三九已至,卻和暖如春祠墅,著一層夾襖步出監(jiān)牢的瞬間侮穿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,043評論 1 266
  • 我被黑心中介騙來泰國打工毁嗦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留亲茅,地道東北人。 一個月前我還...
    沈念sama閱讀 46,503評論 2 361
  • 正文 我出身青樓,卻偏偏與公主長得像克锣,于是被迫代替她去往敵國和親茵肃。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,627評論 2 350