Ke G, Chao G, Wang X, et al. A Clustering-guided Contrastive Fusion for Multi-view Representation Learning[J]. arXiv preprint arXiv:2212.13726, 2022.
摘要導(dǎo)讀
在過去的二十年里袭景,多視圖表示學(xué)習(xí)領(lǐng)域取得了越來越快的進展,多視圖方法可以從不同的領(lǐng)域提取有用的信息闭树,促進了其應(yīng)用程序的發(fā)展耸棒。然而,該社區(qū)面臨著兩個挑戰(zhàn): i)如何從大量的未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)魯棒的表示报辱,以對抗噪聲或不完整視圖的情況与殃;ii)在各種下游任務(wù)中,如何平衡視圖的一致性和互補性。為此奈籽,本文利用深度融合網(wǎng)絡(luò)饥侵,將各視圖特定的表示融合到視圖公共表示中,提取高級語義來獲得魯棒表示衣屏。此外躏升,采用了一個聚類任務(wù)來指導(dǎo)融合網(wǎng)絡(luò),以防止得出平凡的解決方案狼忱。為了平衡一致性和互補性膨疏,提出的模型中設(shè)計了一個非對稱的對比策略,來對齊視圖公共表示和每個視圖的特定表示钻弄。以上這些模塊被納入到一個統(tǒng)一的框架中佃却,稱為 Clustering-guided Contrastive Fusion(CLOVEN)。在不完全視圖數(shù)據(jù)的情況下窘俺,提出的方法可以更好地抵抗噪聲干擾饲帅。可視化分析表明瘤泪,CLOVEN可以保留視圖特定表示的內(nèi)在結(jié)構(gòu)灶泵,同時提高了視圖表示的緊湊性。
模型淺析
從模型圖的設(shè)計可以看出对途,該模型將多視圖融合的過程也做成了深度融合的形式赦邻。簡單來說,設(shè)計了一個相對復(fù)雜的融合模塊实檀,而在融合模塊之后也是一個常規(guī)的聚類驅(qū)動的反調(diào)惶洲。因為前序的View-specific Encoders都是常規(guī)操作,這里對其所用的結(jié)構(gòu)不進行贅述膳犹,各位可移步到實現(xiàn)細(xì)節(jié)的部分看各個視圖編碼器的結(jié)構(gòu)恬吕。這里主要對融合模塊,以及所采用的非對稱對比策略進行分析镣奋。
- 融合模塊的結(jié)構(gòu)
多視圖融合的目標(biāo)是將視圖特定的表示集成到一個緊湊的表示空間中币呵,得到視圖公共表示怀愧。與淺層融合(直接拼接或者帶權(quán)相加)不同侨颈,該模塊的設(shè)計是為了逐層提取有價值的特征信息。假設(shè)這種方法可以產(chǎn)生語義更豐富芯义、更緊湊哈垢、更有表達的視圖公共表示。
- 最簡單的方式是使用堆疊的全連接層(vanilla MLP)扛拨,將視圖特定的表示映射到低維的語義表示空間中:
- 為提高的表示能力渴频,作者設(shè)計了兩個子模塊ScaleBlock和LatentBlock分別用于將中間層升維為輸入的2倍然后再映射到輸入維度以及將輸入降維到一半再映射到輸入維度芽丹。升維的過程可以看成是稀疏編碼的過程榄融,將會增加嵌入表示的多樣性尾菇,而降維表示等價于information bottleneck,會增強中間層的表示能力艾疟。兩個模塊所對應(yīng)的操作分別可以形式化為如下:
- 非對稱對比策略
最終的策略為: - 聚類驅(qū)動
最終的任務(wù)型驅(qū)動使用的是deep divergence-based clustering 損失: -
Total Loss
整個模型中較為出彩的模塊就是融合模塊的設(shè)計,即保留了各視圖之間的表示罢防,也學(xué)習(xí)了視圖共用表示艘虎。改觀了筆者對融合模塊的映像。后續(xù)可以添加將其作為一個額外的映射空間做對齊融合咒吐。