@article{katharopoulos2018not,
title={Not All Samples Are Created Equal: Deep Learning with Importance Sampling},
author={Katharopoulos, Angelos and Fleuret, F},
journal={arXiv: Learning},
year={2018}}
概
本文提出一種刪選合適樣本的方法, 這種方法基于收斂速度的一個(gè)上界, 而并非完全基于gradient norm的方法, 使得計(jì)算比較簡單, 容易實(shí)現(xiàn).
主要內(nèi)容
設(shè)為輸入輸出對, 代表網(wǎng)絡(luò), 為損失函數(shù), 目標(biāo)為
其中是總的樣本個(gè)數(shù).
假設(shè)在第個(gè)epoch的時(shí)候, 樣本(被選中)的概率分布為, 以及梯度權(quán)重為, 那么且
在一般SGD訓(xùn)練中.
定義為SGD的收斂速度為:
如果我們令 則
定義
我們自然希望能夠越大越好, 此時(shí)即負(fù)項(xiàng)越小越好.
定義, 既然
(7)式我有點(diǎn)困惑,我覺得(7)式右端和最小化(6)式的負(fù)項(xiàng)()是等價(jià)的.
于是有
最小化右端(通過拉格朗日乘子法)可得, 所以現(xiàn)在我們只要找到一個(gè)即可.
這個(gè)部分需要引入神經(jīng)網(wǎng)絡(luò)的反向梯度的公式, 之前有講過,只是論文的符號不同, 這里不多贅訴了.
注意的計(jì)算是比較復(fù)雜的, 但是, 所以我們只需要計(jì)算部分, 設(shè)此分布為.
另外, 在最開始的時(shí)候, 神經(jīng)網(wǎng)絡(luò)沒有得到很好的訓(xùn)練, 權(quán)重大小相差無幾, 這個(gè)時(shí)候是近似正態(tài)分布的, 所以作者考慮設(shè)計(jì)一個(gè)指標(biāo)踢星,來判斷是否需要根據(jù)樣本分布來挑選樣本. 作者首先衡量
顯然當(dāng)這部分足夠大的時(shí)候我們可以采用分布而非正態(tài)分布, 但是這個(gè)指標(biāo)不易判斷, 作者進(jìn)步除以.
顯然越大越好, 我們自然可以人為設(shè)置一個(gè). 算法如下
最后, 個(gè)人認(rèn)為這個(gè)算法能減少計(jì)算量主要是因?yàn)闃颖旧倭? 少在一開始用正態(tài)分布抽取了一部分, 所以...