Xu J, Ren Y, Tang H, et al. Multi-VAE: Learning disentangled view-common and view-peculiar visual representations for multi-view clustering[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 9234-9243.
摘要導(dǎo)讀
作者表示當(dāng)前的多視圖聚類任務(wù)經(jīng)常通過融合多個(gè)視圖表示或在一個(gè)共同的特征空間中處理聚類榆纽,這可能會(huì)導(dǎo)致各種特征糾纏在一起,特別是在視覺表示中。本文提出了一個(gè)基于VAE的多視圖聚類框架來學(xué)習(xí)視圖表示,總體來說在生成模型中引入了一個(gè)視圖共有變量和多個(gè)視圖特有變量灭衷。具體來說垮衷,視圖共有變量先驗(yàn)近似服從離散的Gumbel Softmax分布冈闭,用于抽取多個(gè)視圖中共享的類簇因子稼稿。同時(shí)佃却,視圖特有變量先驗(yàn)服從連續(xù)高斯分布者吁,以學(xué)習(xí)各視圖的特定的視覺特征。通過控制互信息來解耦視圖共享表示和視圖特有表示饲帅,這樣離散的類簇信息和連續(xù)的視圖信息將會(huì)被很好的挖掘复凳。
模型淺析
問題聲明
給定多視圖圖像數(shù)據(jù)集,每個(gè)樣本包含
個(gè)視圖分別包含不同的視覺信息灶泵,
是數(shù)據(jù)集的大小育八。多視圖聚類的目的是將綜合給定的視圖特征降樣本分配到
個(gè)類簇中。
網(wǎng)絡(luò)結(jié)構(gòu)
整體的動(dòng)機(jī)是通過VAE學(xué)習(xí)解耦的多視圖表示赦邻,具體做法是引入相互獨(dú)立的視圖共有變量和視圖特有變量
來建模多視圖數(shù)據(jù)髓棋。也就是說,整個(gè)模型需要考慮如下的生成模型(聯(lián)合概率):
其中惶洲,
對(duì)應(yīng)數(shù)據(jù)的類簇信息按声,由所有視圖共享。
則是每個(gè)視圖對(duì)應(yīng)的不同的特征恬吕。由此签则,可以得出,
和
的后驗(yàn)分別可以寫成
和
铐料,考慮到在VAE中難以計(jì)算后驗(yàn)的積分渐裂。在模型中使用
和
參數(shù)化
和
來近似真正的后驗(yàn)。
-
推斷過程
在推斷過程中钠惩,所有視圖的嵌入表示被拼接到一起以學(xué)習(xí)數(shù)據(jù)的共有信息芯义。隨后,通過(i.e.
)個(gè)神經(jīng)元獲取視圖共有向量
妻柒。具體地說扛拨,為了輕松地表示數(shù)據(jù)的聚類分配,期望
是一個(gè)one-hot表示举塔。然而绑警,離散隨機(jī)變量對(duì)于神經(jīng)網(wǎng)絡(luò)的參數(shù)是不可微的。因此央渣,本文中计盒,
被表示為相互獨(dú)立均勻的Gumbel Softmax分布的乘積
,其中
芽丹。因此北启,近似后驗(yàn)
表示為如下:
。為了讓整個(gè)過程變得可微,本文引入了Gumbel-Max重參數(shù)技巧:
和
是溫度參數(shù)场钉。
不同于類簇信息,模型假設(shè)其他的視圖特有信息是連續(xù)的懈涛,每個(gè)變量的先驗(yàn)是標(biāo)準(zhǔn)正太分布逛万,。
被參數(shù)化為高斯因子乘積:
-
生成過程
在生成的過程中,視圖共有特征和視圖特有特征
拼接在一起生成對(duì)應(yīng)的樣本
埋心。即指郁,給定視圖
的生成如下:
是部分共享的拷呆。
-
Multi-VAE-C:
由于是one-hot表示的近似值闲坎,因此第
個(gè)樣本的類簇預(yù)測可以通過:
Multi-VAE-CZ:
鑒于多個(gè)視圖的視覺信息可能是類簇信息的補(bǔ)充,分離出的視圖表示被縮放到[0,1]洋腮,并將它們拼接起來形成一個(gè)全局潛在表示, 然后將其喂入
-means得到聚類分配。
- 變分下界
變分推理的目的是最大化觀察到的多視圖數(shù)據(jù)的似然函數(shù)手形。和
是相互獨(dú)立的啥供,這一點(diǎn)我有點(diǎn)不理解。