S. Wei, J. Wang, G. Yu, C. Domeniconi and X. Zhang, "Deep Incomplete Multi-view Multiple Clusterings," 2020 IEEE International Conference on Data Mining (ICDM), 2020, pp. 651-660, doi: 10.1109/ICDM50108.2020.00074.
摘要導(dǎo)讀
多視圖聚類旨在利用來(lái)自多個(gè)異構(gòu)視圖的信息來(lái)促進(jìn)聚類酪穿。以往的大多數(shù)工作只基于預(yù)定義的聚類標(biāo)準(zhǔn)尋找一個(gè)最優(yōu)聚類刊咳,但設(shè)計(jì)這樣一個(gè)能夠捕獲用戶需要的標(biāo)準(zhǔn)是困難的禁炒。由于多視圖數(shù)據(jù)的多樣性蚌堵,我們可以探索有意義的alternative聚類芍秆。此外都伪,不完全多視圖數(shù)據(jù)問(wèn)題在現(xiàn)實(shí)世界中是普遍存在的最欠,但尚未對(duì)多重聚類進(jìn)行研究示罗。為了解決這些問(wèn)題惩猫,本文引入了一個(gè)深度不完全多視圖多聚類(DiMVMC)框架,該框架通過(guò)優(yōu)化多組解碼器深度網(wǎng)絡(luò)蚜点,實(shí)現(xiàn)了同時(shí)對(duì)數(shù)據(jù)視圖和多個(gè)共享表示的學(xué)習(xí)轧房。此外,它最小化了一個(gè)冗余項(xiàng)绍绘,以同時(shí)控制這些表示之間和不同網(wǎng)絡(luò)參數(shù)之間的多樣性奶镶。然后,從每個(gè)共享表示中生成一個(gè)獨(dú)立的聚類陪拘。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí)厂镇,DiMVMC在生成具有高多樣性和高質(zhì)量的多個(gè)聚類方面優(yōu)于最先進(jìn)的對(duì)比方法。
- 現(xiàn)有的多視圖聚類算法關(guān)注于多視圖數(shù)據(jù)的多樣性左刽,但是聚焦于只產(chǎn)生一個(gè)單一的聚類結(jié)果捺信。但是多視圖中涉及到的多樣性完全可以支持產(chǎn)生多個(gè)有意義的聚類結(jié)果。
例如欠痴,一堆具有異質(zhì)視角的面部圖像可以從身份残黑、性別和情感的角度單獨(dú)分組。
所有這些分組都是不同的斋否,但都很有意義梨水。
- 除了關(guān)注聚類的質(zhì)量,multiple clusterings還追求聚類結(jié)果的多樣性茵臭。因此疫诽,越來(lái)越多人關(guān)注到多視圖多聚類(MVMC)任務(wù)。一般來(lái)說(shuō)旦委,這類方法利用自表示對(duì)多視圖數(shù)據(jù)的個(gè)體信息和共享信息進(jìn)行挖掘奇徒,然后對(duì)個(gè)體特征和共性特征的組合進(jìn)行分解,以得到多個(gè)聚類結(jié)果缨硝。但這類方法并沒(méi)有考慮多視圖數(shù)據(jù)缺失的情況摩钙。
在本文中綜合考慮上述問(wèn)題,提出了一個(gè)深度不完整多視圖多聚類框架(deep incomplete multi-view multiple clusterings framework 查辩,DiMVMC)胖笛。
模型淺析
在給定共享多視圖表示的情況下,每個(gè)視圖都是相互獨(dú)立的宜岛。該框架首先初始化一組共享的子空間长踊,然后使用通過(guò)解碼器來(lái)重構(gòu)觀察到的缺失數(shù)據(jù)視圖。在重構(gòu)操作之后萍倡,生成個(gè)表示空間身弊,并且那些缺失的數(shù)據(jù)被填完整。進(jìn)一步使用HSIC(希爾伯特-施密特獨(dú)立準(zhǔn)則)來(lái)減少這些子空間之間的重疊,從而產(chǎn)生不同的聚類阱佛。
A. 產(chǎn)生多表示子空間
假設(shè)一個(gè)包含個(gè)視圖的多視圖數(shù)據(jù)集共有個(gè)樣本帖汞。表示第個(gè)視圖的第個(gè)樣本的特征向量,是特征的維度凑术。缺失指示矩陣:
在本文中,以一種靈活的方式將具有任意視圖缺失模式的樣本投影到共享的子空間中壮莹,其中子空間包括可觀測(cè)視圖的信息翅帜。在這種情況下,每個(gè)視圖都可以通過(guò)獲得的共享表示來(lái)進(jìn)行重建:
根據(jù)多視圖的多樣性诈唬,多視圖數(shù)據(jù)一般具有不同的分布韩脏,多個(gè)不同的子空間及聚類結(jié)果是共存的。為獲取多個(gè)()聚類結(jié)果铸磅,上式可以擴(kuò)展為學(xué)習(xí)個(gè)不同的子空間赡矢,
在不喪失一般性的情況下八酒,假設(shè)數(shù)據(jù)是獨(dú)立且同分布的空民,可以推導(dǎo)出對(duì)數(shù)似然函數(shù)如下:
與傳統(tǒng)基于自動(dòng)編碼器的方案不同耸棒,DiMVMC跳過(guò)了編碼器網(wǎng)絡(luò),并以共享子空間表示作為第個(gè)解碼器的輸入來(lái)學(xué)習(xí)完整的多視圖數(shù)據(jù)报辱。
B. 減少子空間之間的冗余性
對(duì)于多個(gè)聚類,除了不同聚類的質(zhì)量外,聚類之間的多樣性也很重要碍现。多樣性通常是通過(guò)最小化這些子空間之間的冗余來(lái)近似獲得的幅疼。
在本模型中,作者采用的是HSIC來(lái)度量希爾伯特子空間和的交叉協(xié)方差算子來(lái)估計(jì)兩個(gè)子空間的依賴性昼接。形式化為如下:
C. 統(tǒng)一模型
通過(guò)對(duì)前兩個(gè)優(yōu)化目標(biāo)的整合漂辐,DiMVMC的損失函數(shù)綜合為如下:
在子空間聚類中,期望子空間學(xué)出的表示是稀疏并且可以捕獲類簇語(yǔ)義信息按声。這里可以選擇在深度模型中添加dropout層膳犹。為了直觀地實(shí)現(xiàn),可以在上述損失函數(shù)中添加了一個(gè)稀疏誘導(dǎo)的正則化签则,并定義了一個(gè) Sparse DiMVMC:
使用多個(gè)Decoder來(lái)構(gòu)造個(gè)共享子空間须床,類似于多頭注意力機(jī)制對(duì)不同語(yǔ)義空間的學(xué)習(xí)。另外關(guān)于Multiple Clustering評(píng)價(jià)指標(biāo)也很有趣渐裂,值得探究豺旬。