一. 引述
-
傳統(tǒng)深度網(wǎng)絡(luò):
數(shù)據(jù)驅(qū)動(dòng)
大量迭代
遇到新數(shù)據(jù)重新訓(xùn)練
低效 -
神經(jīng)圖靈機(jī) (Neural Turing Machine):
極少量樣本便可以進(jìn)行有效學(xué)習(xí)
強(qiáng)大的推理能力
人類水平的學(xué)習(xí)
人們可以從僅僅一個(gè)或一小撮樣本中學(xué)習(xí)一個(gè)新的概念,而機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)算法需要成百上千個(gè)類似的樣本
二. 人類水平的概念學(xué)習(xí)(Human Level Concept Learning掐暮;one-shot learning)
- 給定一個(gè)單一的對(duì)象蝎抽,人類可以:
分類新樣本;
生成類似類型的新樣本路克;
把它解析成部分樟结,并理解它們的關(guān)系养交。
三. Background
人類善于僅憑單個(gè)例子對(duì)新概念和經(jīng)驗(yàn)進(jìn)行推理。
人類擁有單次泛化的能力:遭遇新概念瓢宦,理解其結(jié)構(gòu)碎连,然后生成這個(gè)概念的有意義的變型。
Salakhutdinov et al.(2013)發(fā)展了一個(gè)結(jié)合了玻耳茲曼機(jī)和等級(jí)狄利克雷過程的概率模型驮履,可以學(xué)習(xí)層級(jí)概念類別鱼辙,并且提供了強(qiáng)大的生成模型.
Lake et al.(2015)等人利用基于組合性(Compositionality)、因果關(guān)系(Causality)和學(xué)會(huì)學(xué)習(xí)(Learning to learn)的貝葉斯程序?qū)W習(xí)完成了基于貝葉斯推斷的單點(diǎn)學(xué)習(xí)
四. Contribution
結(jié)合了深度學(xué)習(xí)的表達(dá)能力和貝葉斯推斷的推測(cè)能力
展示了結(jié)合注意力機(jī)制與推斷對(duì)生成模型帶來的明顯提高
模型可以在僅僅看一次實(shí)例的情況下生成有意義且多樣的樣本玫镐,提供了一類重要的單點(diǎn)機(jī)器學(xué)習(xí)的一般性模型倒戏。
五. Attention機(jī)制
從源信息中有選擇性地篩選出一部分信息被進(jìn)一步利用的機(jī)制。
人腦的注意力模型摘悴,就是說你看到了整幅畫面峭梳,但在特定的時(shí)刻t,你的意識(shí)和注意力的焦點(diǎn)是集中在畫面中的某一個(gè)部分上蹂喻,其它部分雖然還在你的眼中葱椭,但是你分配給它們的注意力資源是很少的
- Reading attention:分類等判別式任務(wù),從圖像或者文字中篩選出一部分我們需要的信息口四。
- Writing attention:是指對(duì)輸出變量的選擇性更新
generative process(生成過程)使用了writing attention機(jī)制孵运,在inference process(推理過程)使用了reading attention機(jī)制。
兩個(gè)機(jī)制在概念上有區(qū)分蔓彩,但實(shí)際運(yùn)用過程中遵從一樣的計(jì)算原理治笨,這篇文章中采用了spatial attention,使用參數(shù) λ 處理輸入圖像 x 以生成輸出
Attention是很神奇的東西,想仔細(xì)了解更卒,可以閱讀下面的論文:
- Recurrent Models of Visual Attention (2014.06.24)
- Show, Attend and Tell: Neural Image Caption Generation with Visual Attention (2015.02.10)
- DRAW: A Recurrent Neural Network For Image Generation (2015.05.20)
- Teaching Machines to Read and Comprehend (2015.06.04)
- Learning Wake-Sleep Recurrent Attention Models (2015.09.22)
- Action Recognition using Visual Attention (2015.10.12)
- Recursive Recurrent Nets with Attention Modeling for OCR in the Wild (2016.03.09)
- Sequence to Sequence Learning using Neural Networks
- Reasoning about Neural Attention
- A Neural Attention Model for Abstractive Sentence Summarization
- Neural Machine Translation by Jointly Learning to Align and Translate
六. 高斯隱變量模型和變分推斷
隱變量:具有不可直接觀測(cè)特征的綜合性變量
概率模型的中心任務(wù):給定觀測(cè)(可見)數(shù)據(jù)變量X的條件下等孵,計(jì)算潛在變量Z的后驗(yàn)概率分布P(Z | X)
EM算法:計(jì)算完整數(shù)據(jù)對(duì)數(shù)似然函數(shù)關(guān)于潛在變量后驗(yàn)概率分布的期望
實(shí)際應(yīng)用中計(jì)算后驗(yàn)概率分布或者后驗(yàn)概率分布的期望是不可?的 :
- 潛在空間的維度太?,以?于?法直接計(jì)算
- 后驗(yàn)概率分布的形式特別復(fù)雜蹂空,從?期望?法解析地計(jì)算
- 隱含狀態(tài)的數(shù)量可能有指數(shù)多個(gè)俯萌,從?精確的計(jì)算所需的代價(jià)?
從公式角度:
- 如果變量維度過高,積分就會(huì)變得非常困難
- 分布p非常復(fù)雜時(shí)上枕,積分就完全不可能了
選擇合適的分布q來逼近真實(shí)的后驗(yàn)概率分布p咐熙!!
七. 變分推斷(variational inference)變分貝葉斯(variational Bayes)
- Gibbs Sampling這一類Monte Carlo算法,它們的做法就是通過抽取大量的樣本估計(jì)真實(shí)的后驗(yàn)分布辨萍;
- 當(dāng)后驗(yàn)分布難于求解的時(shí)候我們就希望選擇一些簡(jiǎn)單的分布q來近似這些復(fù)雜的后驗(yàn)分布p棋恼;
- 變分推斷限制近似分布的類型,從而得到一種局部最優(yōu),但具有確定解的近似后驗(yàn)分布蘸泻。
現(xiàn)在問題變成了如何選擇一個(gè)q(X),使得估算的效率最高:
1.考慮概率分布q是?個(gè)受限制的類別
2.充分限制q可以取得的概率分布的類別范圍琉苇,使得這個(gè)范圍中的所有概率分布都是我們可以處理
3.這個(gè)范圍充分?、充分靈活悦施,使它對(duì)真實(shí)后驗(yàn)概率分布的?個(gè)?夠好的近似
簡(jiǎn)單的分布怎么選:(假設(shè)各個(gè)變量之間相互獨(dú)立砍斷了所有變量之間的依賴關(guān)系)
1.Bethe自由能近似
2.平均場(chǎng)定理近似(復(fù)雜的多元積分變成簡(jiǎn)單的多個(gè)一元積分)
八. 變分自編碼器(Variational Auto-Encoder并扇,VAE)
想仔細(xì)了解變分自編碼穷蛹,變分推斷,高斯隱變量的可以閱讀下面文獻(xiàn):
- Kingma et al. Auto-Encoding Variational Bayes.
- Rezende et al. Stochastic Backpropagation and Approximate Inference in Deep Generative Models.
- Kingma and Rezende et al. Semi-supervised Learning with Deep Generative Models.
- Bishop. Pattern Recognition and Machine Learning.
- Young et al. HTK handbook.
- Blei et al. Variational Inference: A Review for Statisticians.
- Doersch. Tutorial on Variational Autoencoders.
- Kevin Frans. Variational Autoencoders Explained.
- Sridharan. Gaussian mixture models and the EM algorithm.
- Blei et al. Variational Inference: Foundations and Modern Methods.
- Durr. Introduction to variational autoencoders .
- Xu et al. Variational Autoencoders for Semi-supervised Text Classification.
此外昼汗,《PRML》《MLAPP》《Deep Learning》分別花了一個(gè)或兩個(gè)大章介紹隱變量模型肴熏、變分推斷、變分貝葉斯顷窒、變分自編碼器
九. Sequential Generative Model(順序生成模型)
順序生成模型是VAE模型的一個(gè)自然延伸蛙吏,用T時(shí)間段內(nèi)的一系列隱變量來描述觀測(cè)變量
- z(t)表示隱變量,x表示觀測(cè)數(shù)據(jù)
- 隱狀態(tài)h(t)由前一時(shí)刻隱狀態(tài)h(t-1)和當(dāng)前時(shí)刻隱變量z(t)轉(zhuǎn)化
- 論文里采用的轉(zhuǎn)化機(jī)制是LSTM單元
- c(t)也是一種隱變量(hiddenvariables)鞋吉,可以把它稱為“隱容器”(hidden canvas)
- ct利用writing attention鸦做,reading attention則被利用在z(t)的inference階段中。
十. result
評(píng)價(jià)指標(biāo)NLL
不同難度的推理任務(wù)實(shí)驗(yàn)
(1)生成新樣本
a) weak shot-geralization
b) strong shot-geralization
(2)生成新類型