MONet: Unsupervised Scene Decomposition and Representation
1 .總的來說,這邊論文講了如上圖的事情比庄,與傳統(tǒng)VAE不同的地方是唉工,多了一個(gè)注意力網(wǎng)絡(luò)產(chǎn)生出mask研乒。
2. 注意力網(wǎng)絡(luò)部分用的U-net網(wǎng)絡(luò)。
3. VAE decoder部分用的是spatial broadcast decoder淋硝。
4.具體細(xì)節(jié)和MASK的表示形式在論文中有詳細(xì)說明雹熬。
這里探討一下這個(gè)論文的誕生過程:
我看的時(shí)候遍歷了整篇文章都沒有找到一個(gè)理論依據(jù):說明整個(gè)loss函數(shù)的優(yōu)化方向會(huì)往 注意力網(wǎng)絡(luò)輸出正確的mask的方向 流動(dòng)。對(duì)谣膳!完全沒有給出數(shù)學(xué)證明竿报,而且mask和vae decoder輸出這兩部分都是在變化的,你不確定它們的流動(dòng)方向参歹。
那么仰楚,它是怎么整的呢?
首先犬庇,他們(論文作者)只有一個(gè)直覺僧界,于是提出這個(gè)假設(shè):
, if a networkperforming some task can be repeatedly reused across scene elements with commonstructure (such as objects and other visual entities), its available capacity(limited for example by its architecture and weights) will be more e?ectivelyutilised and thus will be more e?cient than the same network processing theentire scene at once.
也就是說,讓一個(gè)圖片被掩碼成多個(gè)圖片臭挽,這些圖片有共同的一些結(jié)構(gòu)捂襟,再讓這些圖片通過同一個(gè)vae網(wǎng)絡(luò),這樣重建的結(jié)果比單獨(dú)就一張圖片通過vae網(wǎng)絡(luò)更好欢峰。因?yàn)樗麄冇X得網(wǎng)絡(luò)的容量得到更好的利用葬荷。
本著這個(gè)想法他們開始做實(shí)驗(yàn):
看左上角的圖:藍(lán)色不用mask涨共,綠色是別的圖片的mask,也就是錯(cuò)誤的mask宠漩,紅色是給出正確的mask举反。這個(gè)實(shí)驗(yàn)就證明了:如果你讓loss最小化,他會(huì)朝著正確mask的方向流動(dòng)扒吁,因?yàn)槿鐖D這個(gè)正確的mask是最小的火鼻。
總結(jié):這個(gè)論文的實(shí)驗(yàn)思路是很棒的,在你給不出嚴(yán)密數(shù)學(xué)證明的時(shí)候雕崩。