Wen J, Zhang Z, Xu Y, et al. Cdimc-net: Cognitive deep incomplete multi-view clustering network[C]//Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence. 2021: 3230-3236.
摘要導(dǎo)讀
近年來隧土,不完整多視圖聚類受到了越來越多的關(guān)注涡贱。針對(duì)這個(gè)任務(wù),很多研究學(xué)者已經(jīng)提出了不少方法明吩。但作者認(rèn)為現(xiàn)有的方法還存在以下兩個(gè)問題:1)現(xiàn)有方法都是基于淺層模型的,很難學(xué)習(xí)到具有辨別性的共同特征筷弦,2)由于負(fù)樣本被視為同樣重要的樣本幔妨,因此這些方法通常對(duì)噪聲或異常值很敏感闻镶。在本文中斥滤,提出了一個(gè)認(rèn)知深度不完整多視圖聚類網(wǎng)絡(luò)(CDIMC-Net)來解決這些問題将鸵。具體來說,它通過將特定視圖的深度編碼器和圖嵌入策略合并到一個(gè)框架中佑颇,來捕獲每個(gè)視圖的高級(jí)特征和局部結(jié)構(gòu)顶掉。此外,基于人類的認(rèn)知:從易到難的進(jìn)行學(xué)習(xí)
挑胸,還引入一種 self-paced的策略來選擇置信度高的樣本來進(jìn)行模型訓(xùn)練痒筒,以減少異常值的負(fù)面影響。
- 不同形式的特征學(xué)習(xí)編碼器獲取高級(jí)特征和局部特征
- 以基于認(rèn)知的方式剔除邊際樣本的負(fù)面影響
https://github.com/DarrenZZhang/CDIMC-Net
模型淺析
模型結(jié)構(gòu):視圖特定的深度編碼器茬贵,self-paced的k-means聚類層凸克,多圖嵌入約束。該模型可以實(shí)現(xiàn)對(duì)任意不完整視圖的聚類闷沥。
1)數(shù)據(jù)定義
給定包含個(gè)視圖的不完整多視圖數(shù)據(jù)集,每個(gè)視圖的數(shù)據(jù)表示為
咐容,缺失的樣本標(biāo)注為“NaN”舆逃。視圖
的缺失標(biāo)記矩陣為對(duì)角矩陣
,
代表即第
個(gè)樣本是可見的,其余的
路狮。
2)任務(wù)定義
IMC的目標(biāo)是將個(gè)樣本劃分到
個(gè)不相交的類簇中虫啥。
3)模型結(jié)構(gòu)
CDIMC-net通過兩個(gè)階段對(duì)不完整的多視圖數(shù)據(jù)進(jìn)行劃分:預(yù)訓(xùn)練和微調(diào),其中一個(gè)基于自動(dòng)編碼器的訓(xùn)練前階段用于初始化網(wǎng)絡(luò)參數(shù)奄妨,微調(diào)階段的目的是獲得聚類友好的表示涂籽,同時(shí)為所有輸入樣本生成聚類標(biāo)記。
- 預(yù)訓(xùn)練網(wǎng)絡(luò)
基于欠完備卷積自編碼砸抛,針對(duì)不完全多視圖情況评雌,本文開發(fā)了一種圖正則化不完全多視圖自編碼器,其中引入圖嵌入技術(shù)來保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)直焙,并引入加權(quán)融合層來消除缺失視圖的負(fù)面影響景东。
1)View-specific encoders and decoders
編碼器網(wǎng)絡(luò)作為基本的自動(dòng)編碼器,從高維數(shù)據(jù)中捕獲最顯著的特征奔誓,解碼器網(wǎng)絡(luò)的目的是從編碼的特征中恢復(fù)數(shù)據(jù)斤吐。模型中為每個(gè)視圖都配備了對(duì)應(yīng)的編碼器和解碼器結(jié)構(gòu),分別為和
2)Fusion layer
根據(jù)多視圖數(shù)據(jù)的特點(diǎn):所有視圖都共享同一樣本的公共語(yǔ)義信息厨喂,例如common表示或聚類標(biāo)簽和措。作者采用簡(jiǎn)單的權(quán)重加和的策略來構(gòu)建關(guān)于樣本的common表示:考慮了視圖的缺失性蜕煌。
這個(gè)加權(quán)融合層位于編碼器和解碼器的中間派阱,通過減少缺失視圖的負(fù)面影響來解決學(xué)習(xí)視圖不完全的問題。
3)Graph embedding
在子空間學(xué)習(xí)領(lǐng)域中幌绍,一個(gè)公認(rèn)的manifold assumption是颁褂,如果兩個(gè)數(shù)據(jù)點(diǎn)和
彼此接近,那么它們對(duì)應(yīng)的低維表示在潛在子空間中也應(yīng)該接近傀广。為了考慮近鄰樣本之間的約束颁独,模型考慮了如下的圖嵌入約束:
表示
中應(yīng)用的近鄰圖。該圖是一個(gè)只包含0,1的方陣伪冰,
4)預(yù)訓(xùn)練的損失函數(shù)
預(yù)訓(xùn)練階段的優(yōu)化需要同時(shí)考慮圖嵌入損失和自編碼損失誓酒,總體的損失表示為:
表示視圖
的重建,紅框里是編碼器和解碼器的參數(shù)贮聂,
為正的超參數(shù)靠柑。
- 微調(diào)和聚類
作者認(rèn)為通過優(yōu)化預(yù)訓(xùn)練階段的模型參數(shù)并不能保證得到的具有聚類友好性。并且傳統(tǒng)的k-means算法在聚類的過程中忽略了邊際樣本和類簇中心樣本的差異性吓懈。為了微調(diào)模型歼冰,我們應(yīng)該更加關(guān)注靠近類簇中心的樣本點(diǎn)。
1)因此耻警,引入了一個(gè)self-paced kmeans作為聚類層隔嫡。
其目標(biāo)是是k-means聚類中的簇中心矩陣甸怕,
是類簇分配矩陣,
是一個(gè)權(quán)重向量腮恩,用于指示當(dāng)前樣本是否參與訓(xùn)練 梢杭。正常來講,參數(shù)
需要逐漸增加秸滴,以便選擇更多的樣本進(jìn)行模型的訓(xùn)練武契。
self-paced kmeans和傳統(tǒng)的kmeans的不同之處在于,類簇中心在self-paced的方法中是固定的荡含。
在本文中咒唆,采用的是基于統(tǒng)計(jì)的自適應(yīng)的方法來更新:
是第
輪訓(xùn)練中的loss向量,對(duì)應(yīng)于每個(gè)樣本
的損失為
内颗,即:融合后的樣本表示
和其對(duì)應(yīng)的類簇中心之間的
范數(shù)平方钧排。
和
分別對(duì)應(yīng)該向量的均值和標(biāo)準(zhǔn)差。
是最大的迭代次數(shù)均澳。
通過引入權(quán)值向量和參數(shù)
恨溜,所提出的CDIMC-net可以選擇聚類損失不超過
的高置信樣本進(jìn)行訓(xùn)練。隨著迭代次數(shù)的增加找前,更高置信度的樣本被選中參與訓(xùn)練糟袁。該過程與人類的認(rèn)知學(xué)習(xí)類似,由少到多的學(xué)習(xí)躺盛,由簡(jiǎn)單到復(fù)雜的學(xué)習(xí)项戴。
2)微調(diào)階段的損失函數(shù)
結(jié)合k-means的優(yōu)化和圖嵌入的損失,整體的損失如下:來得出槽惫。
該算法的過程如下:Y為缺失數(shù)據(jù)被0填補(bǔ)的X輸入周叮,W為其對(duì)應(yīng)的缺失指示矩陣,N為所構(gòu)建的近鄰圖表示界斜。
總體而言仿耽,缺失視圖的多視圖聚類是很有趣的任務(wù)。但是對(duì)于類簇中心不變的self-paced kmeans很難接受各薇,k-means的性能與其初始化有很大的關(guān)系项贺。。峭判。但是關(guān)于樣本逐一選入的更新值得嘗試开缎。。