“馴估學”(上)

原題:Tips for Training Likelihood Models(似然模型的訓練建議)
作者:Eric Jang
譯者:尹肖貽

寫在前面

關于如何訓練直接優(yōu)化似然函數(shù)的生成式模型——例如自回歸模型標準化流模型捂齐,本文將給讀者提供一些實踐建議冯事。深度產(chǎn)成式建模領域正快速發(fā)展钉汗,我希望能為新手指南依溯,為此本文將介紹不同研究論文中一致使用的基本術語,尤其是在建模更復雜的概率分布(如RGB圖像時)也都通用的術語。

本文將討論數(shù)學形式最簡單的生成式模型(較易處理的密度估計模型),對建模圖像像素的場景毙芜,提供了設計要點(在“馴估學(中)”一文可以找到)。讀完本文后聪轿,你將了解定量地比較似然模型的方法爷肝,它們在比較網(wǎng)絡架構和像素建模方式上有所差異的模型時仍然成立。

散度最小化:產(chǎn)成式建模的一般框架

產(chǎn)成式建模的目標(實際上可以擴展到所有統(tǒng)計機器學習建模)是從一些(可能是條件分布的)概率分布中采樣數(shù)據(jù)p(x)并學習一個模型p_\theta(x)去近似p(x)。建模允許我們在給定的原始數(shù)據(jù)向外推斷的洞察力灯抛。以下是使用產(chǎn)成式模型的一些用途:

  • p(x)采樣數(shù)據(jù)金赦;
  • 學習一個隱變量z的層級模型,用以解釋x的現(xiàn)象对嚼;
  • 干預數(shù)據(jù)生成的過程夹抗,產(chǎn)生新的分布p_\theta(x|do(z))(請感興趣的讀者參看這篇文章)。注意纵竖,只有假設條件獨立漠烧,并控制變量后,變量之間真正存在因果關系z→x的情況下靡砌,干預才會成功已脓;
  • 對于某新樣本點x',查詢其是否服從我們的模型通殃,以檢測異常情況度液。

建模條件概率分布具有更廣泛的落地應用,因為我們可以將分類和回歸問題轉寫為學習生成式模型的問題:

  • 機器翻譯 p(英語句子|法語句子)
  • 機器起題名 p(題目|圖像)
  • 最小化回歸的目標損失 min. \frac{1}{2}(x-\mu)^2画舌,在數(shù)學上等價于最大化對角線協(xié)方差的高斯分布的log似然估計:max. -\frac{1}{2}(x-\mu)^2

為了使p_\theta(X)匹配P(X)堕担,我們首先要提出兩種分布之間距離的概念。 在統(tǒng)計學中曲聂,較常見的做法是設計一種較弱的“距離”概念霹购,稱為散度度量【度量或稱“度規(guī)”】。與通常的距離度量不同朋腋,它是不對稱的(D(P,Q)\neq D(Q,P))齐疙。 一旦我們在分布之間有形式化的散度度量,我們就可以嘗試通過優(yōu)化來最小化這個量乍丈。
有很多很多散度D(p_\theta||p)的形式化方法剂碴,通常合適的方法將被選做生成式建模算法的目標。這里列舉了其中少數(shù)幾種形式:

  • Maximum Mean Discrepancy (MMD)
  • Jensen-Shannon Divergence (JSD)
  • Kullback-Leibler divergence (KLD)
  • Reverse KLD
  • Kernelized Stein discrepancy (KSD)
  • Bregman Divergence
  • Hyv?rinen score
  • Chi-Squared Divergence
  • Alpha Divergence

與一般的度量函數(shù)不同轻专,兩個分布之間的散度不需要對稱。在無限數(shù)據(jù)和算力下察蹲,所有這些散度都得出相同的答案请垛,即D(p_\theta || p) = 0當且僅當p_\theta \equiv p。請注意洽议,這些散度的形式與主觀感知評估指標(如Inception Score 或 Fréchet Inception Distance)不同宗收,后者無法保證在無限數(shù)據(jù)時漸進收斂到相同的結果(如果你關心圖像的視覺質量,作為評價指標時它們是有用的)亚兄。

然而混稽,大多數(shù)實驗的數(shù)據(jù)和算力是有限的,因此度量的選擇很重要。實際上匈勋,不同的度量將會使生成分布p_\theta(X)學到不同的定性性質礼旅。例如,如果目標密度p是多模態(tài)的洽洁,而模型分布q的表達能力不夠痘系,最小化前向KL(p||q)將收斂到模式覆蓋。與此相對饿自,最小化反向KL(q||p)可能導致模式丟失汰翠。請參閱此文了解詳情。

我們應當在最小化散度的框架下昭雌,思考產(chǎn)生式建模的目標复唤,以恰當?shù)脑瓌t選擇散度的形式,將欲得的性質投射到散度上去烛卧。隱式密度模型(GAN)佛纫,特點是采樣容易,但得不到對數(shù)概率形式唱星■茫基于能量的模型,特點是不能采樣间聊,但可以得到(非歸一化的)對數(shù)概率形式攒盈。

本文將使用最直接的指標:Kullback-Leibler散度(KLD),涵蓋訓練和評估模型哎榴。這些模型包括自回歸模型型豁、標準化流和變分自動編碼器(類似的模型)。優(yōu)化KLD等價于優(yōu)化對數(shù)概率尚蝌,我們將在下一節(jié)中推導出二者等價的原因迎变。

平均對數(shù)概率和壓縮

我們想要建模P(X),通過隨機過程飘言,從這一概率分布生成數(shù)據(jù)衣形。 通常我們假設,從足夠大的數(shù)據(jù)集中采樣姿鸿,與從真實數(shù)據(jù)的生成過程中采樣的情況谆吴,大致相同。例如苛预,從MNIST數(shù)據(jù)集中采樣圖像句狼,等同于從創(chuàng)建MNIST數(shù)據(jù)集的真實手寫過程中繪制樣本。

給定一組測試圖像x^1,...,x^N热某,獨立同分布于p(x)腻菇,其似然模型p_\theta的參數(shù)為\theta胳螟,我們希望最大化下面這個量:
\mathcal{L}(\theta) = \frac{1}{N}\sum_{i=1}^{N}\log p_\theta(x^i) \approx \int p(x) \log p_\theta(x) dx = -H(p, p_\theta)
由此可見,平均對數(shù)概率值筹吐,和負交叉熵蒙特卡洛估計是相等的糖耸,交叉熵發(fā)生在真實似然函數(shù)p和模型似然函數(shù)p_\theta之間。由于我們無法在實際操作中枚舉所有的x^i骏令,所以使用了采樣的估計值蔬捷。用大白話說就是,我們把“最大化數(shù)據(jù)似然”榔袋,翻譯為“最小化真實分布與模型分布之間的負交叉熵”周拐。

多做一點代數(shù),負交叉熵可以被KL散度(相對熵)和p的絕對熵重寫:
\mathcal{L}(\theta) \approx \int p(x) \log p_\theta(x) dx = \int p(x) \log \frac{p_\theta(x)}{p(x)} dx + \int p(x) \log p(x)dx = -KL(p, p_\theta) - H(p)
香農(nóng)源編碼定理(1948)告訴我們凰兑,信息熵H(p)是傳遞p(x)的樣本時妥粟、構造的無損編碼之中、平均編碼長度的下限吏够。 更大的熵意味著更多的“隨機性”勾给,將是無法被【H(p)或更短長度的編碼】無損壓縮。 需要留意锅知,當我們使用自然對數(shù)log_e計算熵時播急,將以“自然信息單位”或nats做單位【“natural”的前三個字母】;以log_2計算熵時售睹,單位是我們熟悉的“bits”桩警。H(p)這一項獨立于\theta,最大化\mathcal{L}(\theta)實際上只相當于最小化KL(p,p_\theta)昌妹。這就是為什么最大似然等價于最小化KL散度的原因捶枢。

KL散度KL(p,p_\theta)或相對熵,等于編碼方案p_\theta(x)為基準飞崖、編碼p(x)數(shù)據(jù)所需消耗的“額外nats”數(shù)量的信息烂叔。 因此,負交叉熵的蒙特卡羅估計\mathcal{L}(\theta)也用nats作單位固歪。

將兩者【相對熵和絕對熵】放在一起【考慮】蒜鸡,交叉熵只不過是基于傳輸p_\theta的碼本【即編碼規(guī)則】、編碼p的樣本所需的平均編碼長度牢裳。 我們首先必須支付至少H(p)nats這么多的“基本費”(因為它是最短編碼)术瓮,而后再支付額外的“罰款”KL(p, p_\theta) nats用來抵付從pp_\theta的任何偏差。

我們可以用一種非撤〗。可解釋的方式比較兩種不同模型的交叉熵:假設模型\theta_1的平均似然損失\mathcal{L}({\theta_1})、模型\theta_2的平均似然損失\mathcal{L}({\theta_2})恬汁。二者相減\mathcal{L}({\theta_1})-\mathcal{L}({\theta_2})導致熵項H(p)抵消伶椿,只剩下KL(p,p_{\theta_2}) - KL(p,p_{\theta_1})【譯者按:原文寫反了】辜伟。 此數(shù)量表示“從編碼p_{\theta_1}切換到編碼p_{\theta_2}時需要支付的懲罰”。
\mathcal{L}({\theta_1})-\mathcal{L}({\theta_2})=-KL(p, p_{\theta_1}) - H(p)-(-KL(p, p_{\theta_2}) - H(p))=KL(p,p_{\theta_2}) - KL(p,p_{\theta_1})
表達力脊另、優(yōu)化和泛化是優(yōu)秀生成式模型的三個重要特性导狡。似然值提供了可解釋的度量,用于調試模型的這些特性偎痛。如果生成式模型不能記憶訓練集旱捧,則會表現(xiàn)出優(yōu)化(卡住)或表現(xiàn)力(欠擬合)方面的困難踩麦。

Cifar10圖像數(shù)據(jù)集有50000個訓練樣本枚赡,因此記憶全部數(shù)據(jù)的模型將為訓練數(shù)據(jù)集中的每個圖像分配恰好1/50000的概率值,從而實現(xiàn)負信息熵log_2(\frac{1}{50000})谓谦,或每個圖像15.6bits(這與圖像有多少像素無關F冻取)。當然反粥,我們通常不希望我們的生成式模型過度擬合這種極端情況卢肃,但在調試模型時,將它作為上限才顿,檢查模型的健全性是有用的莫湘。

比較訓練集和測試集之間的似然差異,可以告訴我們網(wǎng)絡是在記憶訓練集郑气,還是具備到了推廣到測試集的能力幅垮;或者可以用以檢查模型是否存在缺漏,模型是否捕獲到語義上有意義【但未必顯式地體現(xiàn)在訓練集中】的模式竣贪。

【1.正字是“訓詁學”军洼,用通俗的語言解釋詞義叫“訓”;用當代的話解釋古代的語言叫“詁”演怎,合起來就是指傳統(tǒng)研究古書中詞義的學科匕争。“馴估學”的“馴”指訓練爷耀,“估”指似然函數(shù)甘桑。
2.對于似然函數(shù)在圖像領域的問題感興趣的讀者,敬請參看“馴估學”(中)(下)歹叮∨芎迹】

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市咆耿,隨后出現(xiàn)的幾起案子德谅,更是在濱河造成了極大的恐慌,老刑警劉巖萨螺,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件窄做,死亡現(xiàn)場離奇詭異愧驱,居然都是意外死亡,警方通過查閱死者的電腦和手機椭盏,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進店門组砚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人掏颊,你說我怎么就攤上這事糟红。” “怎么了乌叶?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵盆偿,是天一觀的道長。 經(jīng)常有香客問我枉昏,道長陈肛,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任兄裂,我火速辦了婚禮句旱,結果婚禮上,老公的妹妹穿的比我還像新娘晰奖。我一直安慰自己谈撒,他們只是感情好,可當我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布匾南。 她就那樣靜靜地躺著啃匿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蛆楞。 梳的紋絲不亂的頭發(fā)上溯乒,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天,我揣著相機與錄音豹爹,去河邊找鬼裆悄。 笑死,一個胖子當著我的面吹牛臂聋,可吹牛的內容都是我干的光稼。 我是一名探鬼主播,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼孩等,長吁一口氣:“原來是場噩夢啊……” “哼艾君!你這毒婦竟也來了?” 一聲冷哼從身側響起肄方,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤冰垄,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后权她,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體播演,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡冀瓦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了写烤。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡拾徙,死狀恐怖洲炊,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情尼啡,我是刑警寧澤暂衡,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站崖瞭,受9級特大地震影響狂巢,放射性物質發(fā)生泄漏。R本人自食惡果不足惜书聚,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一唧领、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧雌续,春花似錦斩个、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至鸽心,卻和暖如春滚局,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背顽频。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工藤肢, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人冲九。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓谤草,卻偏偏與公主長得像,于是被迫代替她去往敵國和親莺奸。 傳聞我的和親對象是個殘疾皇子丑孩,可洞房花燭夜當晚...
    茶點故事閱讀 43,612評論 2 350