Not All Samples Are Created Equal: Deep Learning with Importance Sampling

Katharopoulos A, Fleuret F. Not All Samples Are Created Equal: Deep Learning with Importance Sampling[J]. arXiv: Learning, 2018.

@article{katharopoulos2018not,
title={Not All Samples Are Created Equal: Deep Learning with Importance Sampling},
author={Katharopoulos, Angelos and Fleuret, F},
journal={arXiv: Learning},
year={2018}}

本文提出一種刪選合適樣本的方法, 這種方法基于收斂速度的一個(gè)上界, 而并非完全基于gradient norm的方法, 使得計(jì)算比較簡單, 容易實(shí)現(xiàn).

主要內(nèi)容

設(shè)(x_i,y_i)為輸入輸出對, \Psi(\cdot;\theta)代表網(wǎng)絡(luò), \mathcal{L}(\cdot, \cdot)為損失函數(shù), 目標(biāo)為
\tag{1} \theta^* = \arg \min_{\theta} \frac{1}{N} \sum_{i=1}^N\mathcal{L}(\Psi(x_i;\theta),y_i),
其中N是總的樣本個(gè)數(shù).

假設(shè)在第t個(gè)epoch的時(shí)候, 樣本(被選中)的概率分布為p_1^t,\ldots,p_N^t, 以及梯度權(quán)重為w_1^t, \ldots, w_N^t, 那么P(I_t=i)=p_i^t
\tag{2} \theta_{t+1}=\theta_t-\eta w_{I_t}\nabla_{\theta_t} \mathcal{L}(\Psi(x_{I_t};\theta_t),y_{I_t}),
在一般SGD訓(xùn)練中p_i=1/N,w_i=1.

定義S為SGD的收斂速度為:
\tag{3} S :=-\mathbb{E}_{P_t}[\|\theta_{t+1}-\theta^*\|_2^2-\|\theta_t-\theta^*\|_2^2],
如果我們令w_i=\frac{1}{Np_i}

在這里插入圖片描述

定義
在這里插入圖片描述

我們自然希望能夠越大越好, 此時(shí)即負(fù)項(xiàng)越小越好.

定義\hat{G}_i \ge \|\nabla_{\theta_t} \mathcal{L}(\Psi(x_{i};\theta_t),y_{i})\|_2, 既然

在這里插入圖片描述

(7)式我有點(diǎn)困惑,我覺得(7)式右端和最小化(6)式的負(fù)項(xiàng)()是等價(jià)的.

于是有


在這里插入圖片描述

最小化右端(通過拉格朗日乘子法)可得p_i \propto \hat{G}_i, 所以現(xiàn)在我們只要找到一個(gè)\hat{G}_i即可.

這個(gè)部分需要引入神經(jīng)網(wǎng)絡(luò)的反向梯度的公式, 之前有講過,只是論文的符號不同, 這里不多贅訴了.

在這里插入圖片描述
在這里插入圖片描述

注意\rho的計(jì)算是比較復(fù)雜的, 但是p_i \propto \hat{G}_i, 所以我們只需要計(jì)算\|\cdot\|部分, 設(shè)此分布為g.

另外, 在最開始的時(shí)候, 神經(jīng)網(wǎng)絡(luò)沒有得到很好的訓(xùn)練, 權(quán)重大小相差無幾, 這個(gè)時(shí)候是近似正態(tài)分布的, 所以作者考慮設(shè)計(jì)一個(gè)指標(biāo)踢星,來判斷是否需要根據(jù)樣本分布g來挑選樣本. 作者首先衡量

在這里插入圖片描述

顯然當(dāng)這部分足夠大的時(shí)候我們可以采用分布而非正態(tài)分布, 但是這個(gè)指標(biāo)不易判斷, 作者進(jìn)步除以.

在這里插入圖片描述

顯然越大越好, 我們自然可以人為設(shè)置一個(gè). 算法如下
在這里插入圖片描述

最后, 個(gè)人認(rèn)為這個(gè)算法能減少計(jì)算量主要是因?yàn)闃颖旧倭? 少在一開始用正態(tài)分布抽取了一部分, 所以...

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末故源,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子账千,更是在濱河造成了極大的恐慌侥蒙,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件匀奏,死亡現(xiàn)場離奇詭異鞭衩,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)娃善,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進(jìn)店門论衍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人聚磺,你說我怎么就攤上這事饲齐。” “怎么了咧最?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵捂人,是天一觀的道長。 經(jīng)常有香客問我矢沿,道長滥搭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任捣鲸,我火速辦了婚禮瑟匆,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘栽惶。我一直安慰自己愁溜,他們只是感情好疾嗅,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著冕象,像睡著了一般代承。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上渐扮,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天论悴,我揣著相機(jī)與錄音,去河邊找鬼墓律。 笑死膀估,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的耻讽。 我是一名探鬼主播察纯,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼针肥!你這毒婦竟也來了捐寥?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤祖驱,失蹤者是張志新(化名)和其女友劉穎握恳,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捺僻,經(jīng)...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡乡洼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了匕坯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片束昵。...
    茶點(diǎn)故事閱讀 38,814評論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖葛峻,靈堂內(nèi)的尸體忽然破棺而出锹雏,到底是詐尸還是另有隱情,我是刑警寧澤术奖,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布礁遵,位于F島的核電站,受9級特大地震影響采记,放射性物質(zhì)發(fā)生泄漏佣耐。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一唧龄、第九天 我趴在偏房一處隱蔽的房頂上張望兼砖。 院中可真熱鬧,春花似錦、人聲如沸讽挟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽耽梅。三九已至薛窥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間褐墅,已是汗流浹背拆檬。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工洪己, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留妥凳,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓答捕,卻偏偏與公主長得像逝钥,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子拱镐,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內(nèi)容