【優(yōu)化技巧】指數(shù)移動(dòng)平均（EMA）的原理及PyTorch實(shí)現(xiàn)

在深度學(xué)習(xí)中，經(jīng)常會(huì)使用EMA（指數(shù)移動(dòng)平均）這個(gè)方法對(duì)模型的參數(shù)做平均韩脏，以求提高測(cè)試指標(biāo)并增加模型魯棒脉让。

今天瓦礫準(zhǔn)備介紹一下EMA以及它的Pytorch實(shí)現(xiàn)代碼。

EMA的定義

指數(shù)移動(dòng)平均（Exponential Moving Average）也叫權(quán)重移動(dòng)平均（Weighted Moving Average）跷睦，是一種給予近期數(shù)據(jù)更高權(quán)重的平均方法筷弦。

假設(shè)我們有n個(gè)數(shù)據(jù)： $[\theta_1, \theta_2, ..., \theta_n]?$

普通的平均數(shù)： $\overline{v}=\frac{1}{n}\sum_{i=1}^n \theta_i$
EMA： $v_t = \alpha\cdot v_{t-1} + (1-\alpha)\cdot \theta_t$ ，其中抑诸， $v_t$ 表示前 $t$ 條的平均值 ( $v_0=0$ )烂琴， $\alpha$ 是加權(quán)權(quán)重值 (一般設(shè)為0.9-0.999)。

Andrew Ng在Course 2 Improving Deep Neural Networks中講到蜕乡，EMA可以近似看成過去 $1/(1-\alpha)$ 個(gè)時(shí)刻 $v$ 值的平均奸绷。

普通的過去 $n$ 時(shí)刻的平均是這樣的：
$v_t =\frac{(n-1)\cdot v_{t-1}+\theta_t}{n}$
類比EMA，可以發(fā)現(xiàn)當(dāng) $\alpha=\frac{n-1}{n}$ 時(shí)异希，兩式形式上相等健盒。需要注意的是，兩個(gè)平均并不是嚴(yán)格相等的称簿，這里只是為了幫助理解扣癣。

實(shí)際上，EMA計(jì)算時(shí)憨降，過去 $1/(1-\alpha)$ 個(gè)時(shí)刻之前的平均會(huì)decay到 $\frac{1}{e}$ 父虑，證明如下。

如果將這里的 $v_t$ 展開授药，可以得到：
$v_t = \alpha^n v_{t-n} + (1-\alpha)(\alpha^{n-1}\theta_{t-n+1}+ ... +\alpha^0\theta_t)$
其中士嚎， $n=\frac{1}{1-\alpha}$ ，代入可以得到 $\alpha^n=\alpha^{\frac{1}{1-\alpha}}\approx \frac{1}{e}$ 悔叽。

EMA的偏差修正

實(shí)際使用中莱衩，如果令 $v_0=0$ ，步數(shù)較少的情況下娇澎，ema的計(jì)算結(jié)果會(huì)有一定偏差笨蚁。

偏差

理想的平均是綠色的，因?yàn)槌跏贾禐?，所以得到的是紫色的括细。

因此可以加一個(gè)偏差修正（bias correction）伪很。
$v_t = \frac{v_t}{1-\alpha^t}$
顯然，當(dāng)t很大時(shí)奋单，修正近似于1锉试。

在深度學(xué)習(xí)的優(yōu)化中的EMA

上面講的是廣義的ema定義和計(jì)算方法，特別的览濒，在深度學(xué)習(xí)的優(yōu)化過程中呆盖， $\theta_t$ 是t時(shí)刻的模型權(quán)重weights， $v_t$ 是t時(shí)刻的影子權(quán)重（shadow weights）贷笛。在梯度下降的過程中絮短，會(huì)一直維護(hù)著這個(gè)影子權(quán)重，但是這個(gè)影子權(quán)重并不會(huì)參與訓(xùn)練昨忆《∑担基本的假設(shè)是，模型權(quán)重在最后的n步內(nèi)邑贴，會(huì)在實(shí)際的最優(yōu)點(diǎn)處抖動(dòng)席里，所以我們?nèi)∽詈髇步的平均，能使得模型更加的魯棒拢驾。

EMA為什么有效

網(wǎng)上大多數(shù)介紹EMA的博客奖磁，在介紹其為何有效的時(shí)候，只做了一些直覺上的解釋繁疤，缺少嚴(yán)謹(jǐn)?shù)耐评砜叩[在這補(bǔ)充一下，不喜歡看公式的讀者可以跳過稠腊。

令第n時(shí)刻的模型權(quán)重（weights）為 $v_n$ 躁染，梯度為 $g_n$ ，可得：
$\begin{align} \theta_n &= \theta_{n-1}-g_{n-1} \\\\ &=\theta_{n-2}-g_{n-1}-g_{n-2} \\\\ &= ... \\\\ &= \theta_1-\sum_{i=1}^{n-1}g_i \end{align}$
令第n時(shí)刻EMA的影子權(quán)重為 $v_n$ 架忌，可得：
$\begin{align} v_n &= \alpha v_{n-1}+(1-\alpha)\theta_n \\\\ &= \alpha (\alpha v_{n-2}+(1-\alpha)\theta_{n-1})+(1-\alpha)\theta_n \\\\ &= ... \\\\ &= \alpha^n v_0+(1-\alpha)(\theta_n+\alpha\theta_{n-1}+\alpha^2\theta_{n-2}+...+\alpha^{n-1}\theta_{1}) \end{align}$

代入上面 $\theta_n$ 的表達(dá)吞彤，令 $v_0=\theta_1$ 展開上面的公式，可得：
$\begin{align} v_n &= \alpha^n v_0+(1-\alpha)(\theta_n+\alpha\theta_{n-1}+\alpha^2\theta_{n-2}+...+\alpha^{n-1}\theta_{1})\\\\ &= \alpha^n v_0+(1-\alpha)(\theta_1-\sum_{i=1}^{n-1}g_i+\alpha(\theta_1-\sum_{i=1}^{n-2}g_i)+...+ \alpha^{n-2}(\theta_1-\sum_{i=1}^{1}g_i)+\alpha^{n-1}\theta_{1})\\\\ &= \alpha^n v_0+(1-\alpha)(\frac{1-\alpha^n}{1-\alpha}\theta_1-\sum_{i=1}^{n-1}\frac{1-\alpha^{n-i}}{1-\alpha}g_i) \\\\ &= \alpha^n v_0+(1-\alpha^n)\theta_1 -\sum_{i=1}^{n-1}(1-\alpha^{n-i})g_i\\\\ &= \theta_1 -\sum_{i=1}^{n-1}(1-\alpha^{n-i})g_i \end{align}$
對(duì)比兩式：
$\theta_n = \theta_1-\sum_{i=1}^{n-1}g_i$
$v_n = \theta_1 -\sum_{i=1}^{n-1}(1-\alpha^{n-i})g_i$
EMA對(duì)第i步的梯度下降的步長(zhǎng)增加了權(quán)重系數(shù) $1-\alpha^{n-i}?$ 叹放，相當(dāng)于做了一個(gè)learning rate decay饰恕。

PyTorch實(shí)現(xiàn)

瓦礫看了網(wǎng)上的一些實(shí)現(xiàn)，使用起來都不是特別方便井仰，所以自己寫了一個(gè)埋嵌。

class EMA():
    def __init__(self, model, decay):
        self.model = model
        self.decay = decay
        self.shadow = {}
        self.backup = {}

    def register(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                self.shadow[name] = param.data.clone()

    def update(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.shadow
                new_average = (1.0 - self.decay) * param.data + self.decay * self.shadow[name]
                self.shadow[name] = new_average.clone()
    
    def apply_shadow(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.shadow
                self.backup[name] = param.data
                param.data = self.shadow[name]
    
    def restore(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.backup
                param.data = self.backup[name]
        self.backup = {}

# 初始化
ema = EMA(model, 0.999)
ema.register()

# 訓(xùn)練過程中，更新完參數(shù)后俱恶，同步update shadow weights
def train():
    optimizer.step()
    ema.update()

# eval前雹嗦，apply shadow weights拌喉；eval之后，恢復(fù)原來模型的參數(shù)
def evaluate():
    ema.apply_shadow()
    # evaluate
    ema.restore()

References

機(jī)器學(xué)習(xí)模型性能提升技巧：指數(shù)加權(quán)平均（EMA）
Exponential Weighted Average for Deep Neutal Networks

最后編輯于：2019.07.27 16:01:25

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末俐银，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子端仰，更是在濱河造成了極大的恐慌捶惜，老刑警劉巖，帶你破解...
沈念sama閱讀 218,525評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件荔烧，死亡現(xiàn)場(chǎng)離奇詭異吱七，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)鹤竭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,203評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門踊餐，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人臀稚，你說我怎么就攤上這事吝岭。” “怎么了吧寺？”我有些...
開封第一講書人閱讀 164,862評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵窜管，是天一觀的道長(zhǎng)。經(jīng)常有香客問我稚机，道長(zhǎng)幕帆，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,728評(píng)論 1贊 294
?港島之戀（遺憾婚禮）
正文為了忘掉前任赖条，我火速辦了婚禮失乾，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘纬乍。我一直安慰自己碱茁，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,743評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布仿贬。她就那樣靜靜地躺著早芭，像睡著了一般。火紅的嫁衣襯著肌膚如雪诅蝶。梳的紋絲不亂的頭發(fā)上退个，一...
開封第一講書人閱讀 51,590評(píng)論 1贊 305
城市分裂傳說
那天，我揣著相機(jī)與錄音调炬，去河邊找鬼语盈。笑死，一個(gè)胖子當(dāng)著我的面吹牛缰泡，可吹牛的內(nèi)容都是我干的刀荒。我是一名探鬼主播代嗤，決...
沈念sama閱讀 40,330評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼缠借！你這毒婦竟也來了干毅？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,244評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤泼返，失蹤者是張志新（化名）和其女友劉穎硝逢，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绅喉，經(jīng)...
沈念sama閱讀 45,693評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡渠鸽，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,885評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柴罐。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片徽缚。...
茶點(diǎn)故事閱讀 40,001評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖革屠，靈堂內(nèi)的尸體忽然破棺而出凿试，到底是詐尸還是另有隱情，我是刑警寧澤似芝，帶...
沈念sama閱讀 35,723評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布红省，位于F島的核電站，受9級(jí)特大地震影響国觉，放射性物質(zhì)發(fā)生泄漏吧恃。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,343評(píng)論 3贊 330
男人毒藥：我在死后第九天來索命
文/蒙蒙一麻诀、第九天我趴在偏房一處隱蔽的房頂上張望痕寓。院中可真熱鬧，春花似錦蝇闭、人聲如沸呻率。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,919評(píng)論 0贊 22
一樁弒父案呻引，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽礼仗。三九已至，卻和暖如春逻悠，著一層夾襖步出監(jiān)牢的瞬間元践，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,042評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來泰國打工童谒，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留单旁，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,191評(píng)論 3贊 370
代替公主和親
正文我出身青樓饥伊，卻偏偏與公主長(zhǎng)得像象浑，于是被迫代替她去往敵國和親蔫饰。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,955評(píng)論 2贊 355