Deep Neural Networks and Tabular Data: A Survey 深度神經(jīng)網(wǎng)絡(luò)與表格數(shù)據(jù):綜述 2022-04-18

論文地址 https://arxiv.org/pdf/2110.01889.pdf

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)是橫行于視覺以及自然語言處理領(lǐng)域菌羽,但是為什么在表格數(shù)據(jù)上卻表現(xiàn)平平呢掠械,

這篇論文——
啊 摘要的第一個單詞就看不懂,Heterogeneous 異質(zhì)性注祖。
說白了就是不一樣猾蒂,用在表格上指的就是數(shù)據(jù)類型是不一樣的,比如性別和年齡是晨,就是完全不同的信息肚菠,


因為不然的話把一張圖片用二維數(shù)據(jù)表式也是一張表格,所以這篇論文著重討論的是深度學(xué)習(xí)在異構(gòu)表格數(shù)據(jù)上的痛點罩缴。

  1. Inappropriate Training Data: missing values, outliers,
  2. Missing or Irregular Spatial Dependencies
  3. Extensive Preprocessing
  4. Model Sensitivity

作者針對從深度神經(jīng)網(wǎng)絡(luò)的角度出發(fā)列出了四個難點蚊逢,看到這就不難理解,為什么梯度提升樹樹模型還是要比深度神經(jīng)網(wǎng)絡(luò)更適合處理表格數(shù)據(jù)靴庆,因為這里的很多點,比如缺失值怒医,離群值炉抒,以及復(fù)雜的數(shù)據(jù)預(yù)處理,GBM都還是都比較容易拿捏稚叹。

而很不巧焰薄,深度神經(jīng)網(wǎng)絡(luò)十分強大的表征能力拿诸,卻因為表格數(shù)據(jù)缺失了規(guī)律性的空間依賴關(guān)系而受到了很大的限制。(自信監(jiān)督)

這也是為什么遷移學(xué)習(xí)難以在表格數(shù)據(jù)上奏效的原因塞茅。圖片無論是來自哪個數(shù)據(jù)集亩码,基礎(chǔ)的特征都是一些弧形直線等幾何圖形,而表格數(shù)據(jù)確是天差地別了野瘦。

接下來就是各個模型描沟。


論文對針對異構(gòu)表格的深度神經(jīng)網(wǎng)絡(luò)模型的分類
  • single-dimensional encoding:
    • 確定性地deterministic對每一列進(jìn)行編碼
  • multi-dimensional encoding:
    • 用模型自動對整個(也可以是局部?)輸入向量編碼
  • 混合模型
    • 完全可微分
      • 可進(jìn)行端對端訓(xùn)練
    • 局部可微分
      • 比如神經(jīng)網(wǎng)絡(luò)和梯度提升樹結(jié)合
  • 基于Transformer的模型
    • 對鞭光,又是那個無處不在的Transformer
  • 正則化模型
    • 通過特定的損失函數(shù)限制DNN的極度非線性和高復(fù)雜度造成的影響

      (雖然RLN表現(xiàn)墊底)

我們直接跳到最重要的(不是)準(zhǔn)確度


我不知道是我瞎了還是圖上沒有把LightGBM表示出來吏廉,但是lgb的準(zhǔn)確度應(yīng)該是最高的。

橫軸訓(xùn)練時間惰许,豎軸準(zhǔn)確度席覆,圓圈的半徑代表標(biāo)準(zhǔn)差。前三名都是梯度提升樹的不同實現(xiàn)汹买。

那未來的趨勢以及改進(jìn)方向有哪些佩伤,作者分享了一些觀點,

  • 模型魔改有一定優(yōu)勢晦毙,應(yīng)該是引入了有效的先驗

  • 正則化的重要性

  • 數(shù)據(jù)增強

    如果我們擁有數(shù)據(jù)應(yīng)該是怎么樣的概念生巡,這個還是很值得一試的

  • 模型的可解釋性,獲取反饋
    那未來的趨勢以及改進(jìn)方向有哪些结序,作者分享了一些觀點障斋,

  • 模型魔改有一定優(yōu)勢,應(yīng)該是引入了有效的先驗

  • 正則化的重要性

  • 數(shù)據(jù)增強

    如果我們擁有數(shù)據(jù)應(yīng)該是怎么樣的概念徐鹤,這個還是很值得一試的

  • 模型的可解釋性垃环,獲取反饋

    SHAP- values,不像GBM只能給出特征重要性的絕對值返敬,還能給出各個特征對模型輸出的影響方向遂庄,還能對單個樣本進(jìn)行解釋。

  • 自監(jiān)督以及遷移學(xué)習(xí)劲赠,參見上面第二條涛目,缺失或者不規(guī)則的空間依賴性。不像圖片凛澎,不管哪個數(shù)據(jù)集霹肝,基礎(chǔ)依賴都是一些基本的幾何圖形。

    但是另一方面塑煎,想搞出一個模型沫换,對著隨便一張缺漏的表,都能學(xué)得有模有樣也不太現(xiàn)實最铁,所以我覺得如果能有巨頭能分享一些維度比較高讯赏,數(shù)量又足夠龐大的表格數(shù)據(jù)垮兑,挑選出類似特征進(jìn)行遷移學(xué)習(xí),也許是一個可以考慮的方向吧漱挎。


    SHAP Values系枪,不像GBM只能給出特征重要性的絕對值,還能給出各個特征對模型輸出的影響方向磕谅,還能對單個樣本進(jìn)行解釋私爷。

  • 自監(jiān)督以及遷移學(xué)習(xí),參見上面第二條怜庸,缺失或者不規(guī)則的空間依賴性当犯。不像圖片,不管哪個數(shù)據(jù)集割疾,基礎(chǔ)依賴關(guān)系表示的都是一些基本的幾何圖形嚎卫。

    但是另一方面,想搞出一個模型宏榕,對著隨便一張缺漏的表拓诸,都能學(xué)得有模有樣也不太現(xiàn)實,所以我覺得如果能找到一個維度比較高麻昼,數(shù)量又足夠龐大的表格數(shù)據(jù)奠支,挑選出和目標(biāo)數(shù)據(jù)集類似特征進(jìn)行遷移學(xué)習(xí),也許是一個可以考慮的方向吧抚芦。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末倍谜,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子叉抡,更是在濱河造成了極大的恐慌尔崔,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件褥民,死亡現(xiàn)場離奇詭異季春,居然都是意外死亡,警方通過查閱死者的電腦和手機消返,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進(jìn)店門载弄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人撵颊,你說我怎么就攤上這事宇攻。” “怎么了倡勇?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵逞刷,是天一觀的道長。 經(jīng)常有香客問我,道長亲桥,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任固耘,我火速辦了婚禮题篷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘厅目。我一直安慰自己番枚,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布损敷。 她就那樣靜靜地躺著葫笼,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拗馒。 梳的紋絲不亂的頭發(fā)上路星,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天,我揣著相機與錄音诱桂,去河邊找鬼洋丐。 笑死,一個胖子當(dāng)著我的面吹牛挥等,可吹牛的內(nèi)容都是我干的友绝。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼肝劲,長吁一口氣:“原來是場噩夢啊……” “哼迁客!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起辞槐,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤掷漱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后催蝗,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體切威,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年丙号,在試婚紗的時候發(fā)現(xiàn)自己被綠了先朦。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,137評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡犬缨,死狀恐怖喳魏,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情怀薛,我是刑警寧澤刺彩,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響创倔,放射性物質(zhì)發(fā)生泄漏嗡害。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一畦攘、第九天 我趴在偏房一處隱蔽的房頂上張望霸妹。 院中可真熱鬧,春花似錦知押、人聲如沸叹螟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽罢绽。三九已至,卻和暖如春静盅,著一層夾襖步出監(jiān)牢的瞬間良价,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工蒿叠, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留棚壁,地道東北人。 一個月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓栈虚,卻偏偏與公主長得像袖外,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子魂务,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容