摘要:
作為一種新興的無監(jiān)督方法间驮,多視圖聚類為研究多視圖數(shù)據(jù)中的隱藏結(jié)構(gòu)提供了一種好方法挣饥,并在機器學(xué)習和數(shù)據(jù)挖掘領(lǐng)域引起了廣泛關(guān)注。一種流行的方法是識別用于捕獲多視圖信息的公共潛在子空間排宰。但是褐鸥,由于不受監(jiān)督的學(xué)習過程线脚,這些方法仍然受到限制,并且從不同的角度來看叫榕,它們受到大量嘈雜信息的困擾浑侥。為了解決此問題,我們提出了一種新穎的多視圖子空間聚類方法晰绎,稱為自監(jiān)督深度多視圖子空間聚類(S2DMVSC)寓落。它將頻譜聚類和相似性學(xué)習無縫集成到深度學(xué)習框架中。S2DMVSC有兩個主要優(yōu)點荞下。一種是可以充分利用聚類結(jié)果來監(jiān)督每個視圖的潛在表示學(xué)習(通過分類損失)和多個視圖的公共潛在子空間學(xué)習(通過頻譜聚類損失)伶选。另一個是數(shù)據(jù)對象之間的親和度矩陣是根據(jù)high-level和聚類驅(qū)動的表示自動計算的。在包括原始功能和多個手工功能在內(nèi)的兩種情況下進行的實驗尖昏,證明了所提出方法相對于最新基準的優(yōu)越性仰税。
by fully exploiting the complementary and consistency among different views
focus on multi-view clustering(no supervised information to guide the learning process)
- S2DMVSC具有通過設(shè)計自我監(jiān)督框架來獲得更好的潛在表示的能力。
- 通過在編碼器和解碼器之間設(shè)計一個自表達層抽诉,S2DMVSC可以無縫捕獲多個視圖之間的關(guān)系陨簇。
- S2DMVSC將親和性學(xué)習和頻譜聚類集成到一個統(tǒng)一的框架中,可以消除不完善的相似性指標并進一步提高最終聚類性能迹淌。
- S2DMVSC模型的實驗在多個圖片數(shù)據(jù)集上進行河绽,并取得了很好的效果。
模型拆分理解:
-關(guān)于多視圖數(shù)據(jù)的子空間聚類的自表示方法應(yīng)用:
在關(guān)于自表示的過程中唉窃,作者首先引入的是關(guān)于多視圖數(shù)據(jù)中子視圖的自表示學(xué)習耙饰,為了更好的利用來自多個視圖間的補充信息,改而去學(xué)習“view-shared self-expressive”見公式(2)纹份。這部分對應(yīng)于S2DMVSC中的“view-shared self-expressive layer”榔幸。從模型的示意圖中可以看到,在此layer中矮嫉,輸入是來自AE不同視圖encoder的輸出削咆,通過學(xué)習子空間統(tǒng)一表示的C矩陣,再將輸出喂入AE的decoder中蠢笋。
-AE:encoder & decoder
利用AE的重構(gòu)性質(zhì)來學(xué)習關(guān)于特定視圖v的潛在表示z拨齐,并且將關(guān)于v的重構(gòu)誤差加入損失函數(shù)中。在訓(xùn)練過程中昨寞,這部分需要進行預(yù)訓(xùn)練來保證模型參數(shù)初始化的可行性瞻惋。通過AE關(guān)于特定視圖的學(xué)習以及對共享視圖的自表示學(xué)習,可以學(xué)習到統(tǒng)一子空間的表示形式C援岩,以此構(gòu)造親和力矩陣S用于譜聚類得到聚類結(jié)果進行整個模型的自監(jiān)督部分歼狼。
這部分對應(yīng)于S2DMVSC中的“Representation learning part”,以及連接“view-shared self-expressive layer”的部分享怀,并且通過“view-shared self-expressive layer”可以得出本輪的C矩陣羽峰,從而提供給“Spectral clustering part”用于自監(jiān)督信息的生成。
-監(jiān)督信息的生成和使用
同時這部分的計算需要添加“spectral clustering part”的結(jié)果進行監(jiān)督搀愧,而這部分的信息來自之前所提到的“view-shared self-expressive layer”輸出的C計算得到“spectral clustering part”的輸入--親和力矩陣S惰聂。
通過這個部分的算法,我們可以學(xué)習到矩陣Q咱筛。作者在得到Q的基礎(chǔ)上用于監(jiān)督“view-shared self-expressive”搓幌,并且通過對Q的每一行使用了k-means算法來得到“binary clustering label”,這里來對應(yīng)“unified FC classifier”的輸出Y眷蚓。因此我們可以生成自監(jiān)督分類部分的損失函數(shù)CEC鼻种,
第一個交叉熵損失項可確保偽標記Y和聚類標記Q保持一致,第二個中心損失項可最大程度地減少集群內(nèi)變化沙热。
整體的模型圖分析就是這樣叉钥。
模型訓(xùn)練過程:
- 對于多視圖AE的部分先進行預(yù)訓(xùn)練,并初始化網(wǎng)絡(luò)參數(shù)篙贸。
- 隨機初始化模型的其余part
- 利用約束式對模型進行更新