論文閱讀“CDIMC-net: Cognitive Deep Incomplete Multi-view Clustering Network”

Wen J, Zhang Z, Xu Y, et al. Cdimc-net: Cognitive deep incomplete multi-view clustering network[C]//Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence. 2021: 3230-3236.

摘要導(dǎo)讀

近年來隧土,不完整多視圖聚類受到了越來越多的關(guān)注涡贱。針對(duì)這個(gè)任務(wù),很多研究學(xué)者已經(jīng)提出了不少方法明吩。但作者認(rèn)為現(xiàn)有的方法還存在以下兩個(gè)問題:1)現(xiàn)有方法都是基于淺層模型的,很難學(xué)習(xí)到具有辨別性的共同特征筷弦,2)由于負(fù)樣本被視為同樣重要的樣本幔妨,因此這些方法通常對(duì)噪聲或異常值很敏感闻镶。在本文中斥滤,提出了一個(gè)認(rèn)知深度不完整多視圖聚類網(wǎng)絡(luò)(CDIMC-Net)來解決這些問題将鸵。具體來說,它通過將特定視圖的深度編碼器和圖嵌入策略合并到一個(gè)框架中佑颇,來捕獲每個(gè)視圖的高級(jí)特征和局部結(jié)構(gòu)顶掉。此外,基于人類的認(rèn)知:從易到難的進(jìn)行學(xué)習(xí)挑胸,還引入一種 self-paced的策略來選擇置信度高的樣本來進(jìn)行模型訓(xùn)練痒筒,以減少異常值的負(fù)面影響。

模型淺析

模型結(jié)構(gòu):視圖特定的深度編碼器茬贵,self-paced的k-means聚類層凸克,多圖嵌入約束。該模型可以實(shí)現(xiàn)對(duì)任意不完整視圖的聚類闷沥。
1)數(shù)據(jù)定義
給定包含l個(gè)視圖的不完整多視圖數(shù)據(jù)集,每個(gè)視圖的數(shù)據(jù)表示為X^{(v)}=[x_1^{(v)}, \cdots, x_n^{(v)}] \in R^{m_v \times n}咐容,缺失的樣本標(biāo)注為“NaN”舆逃。視圖v的缺失標(biāo)記矩陣為對(duì)角矩陣W^{(v)}W^{(v)}_{i,i}=1代表即第i個(gè)樣本是可見的,其余的W^{(v)}_{i,j}=0路狮。
2)任務(wù)定義
IMC的目標(biāo)是將n個(gè)樣本劃分到k個(gè)不相交的類簇中虫啥。
3)模型結(jié)構(gòu)


CDIMC-net通過兩個(gè)階段對(duì)不完整的多視圖數(shù)據(jù)進(jìn)行劃分:預(yù)訓(xùn)練和微調(diào),其中一個(gè)基于自動(dòng)編碼器的訓(xùn)練前階段用于初始化網(wǎng)絡(luò)參數(shù)奄妨,微調(diào)階段的目的是獲得聚類友好的表示涂籽,同時(shí)為所有輸入樣本生成聚類標(biāo)記。

  • 預(yù)訓(xùn)練網(wǎng)絡(luò)
    基于欠完備卷積自編碼砸抛,針對(duì)不完全多視圖情況评雌,本文開發(fā)了一種圖正則化不完全多視圖自編碼器,其中引入圖嵌入技術(shù)來保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)直焙,并引入加權(quán)融合層來消除缺失視圖的負(fù)面影響景东。
    1)View-specific encoders and decoders
    編碼器網(wǎng)絡(luò)作為基本的自動(dòng)編碼器,從高維數(shù)據(jù)中捕獲最顯著的特征奔誓,解碼器網(wǎng)絡(luò)的目的是從編碼的特征中恢復(fù)數(shù)據(jù)斤吐。模型中為每個(gè)視圖都配備了對(duì)應(yīng)的編碼器和解碼器結(jié)構(gòu),分別為\{f_{EC}^{(v)}\}_{v=1}^l\{f_{dC}^{(v)}\}_{v=1}^l
    2)Fusion layer
    根據(jù)多視圖數(shù)據(jù)的特點(diǎn):所有視圖都共享同一樣本的公共語(yǔ)義信息厨喂,例如common表示或聚類標(biāo)簽和措。作者采用簡(jiǎn)單的權(quán)重加和的策略來構(gòu)建關(guān)于樣本的common表示:
    可以看出,這里的樣本表示h_i^{*}考慮了視圖的缺失性蜕煌。
    這個(gè)加權(quán)融合層位于編碼器和解碼器的中間派阱,通過減少缺失視圖的負(fù)面影響來解決學(xué)習(xí)視圖不完全的問題。
    3)Graph embedding
    在子空間學(xué)習(xí)領(lǐng)域中幌绍,一個(gè)公認(rèn)的manifold assumption是颁褂,如果兩個(gè)數(shù)據(jù)點(diǎn)x_ix_j彼此接近,那么它們對(duì)應(yīng)的低維表示在潛在子空間中也應(yīng)該接近傀广。為了考慮近鄰樣本之間的約束颁独,模型考慮了如下的圖嵌入約束:
    其中N^{(v)} \in R^{n \times n}表示X^{(v)}中應(yīng)用的近鄰圖。該圖是一個(gè)只包含0,1的方陣伪冰,

    4)預(yù)訓(xùn)練的損失函數(shù)
    預(yù)訓(xùn)練階段的優(yōu)化需要同時(shí)考慮圖嵌入損失和自編碼損失誓酒,總體的損失表示為:

    \overline{X}^{(v)}表示視圖v的重建,紅框里是編碼器和解碼器的參數(shù)贮聂,\alpha為正的超參數(shù)靠柑。
  • 微調(diào)和聚類
    作者認(rèn)為通過優(yōu)化預(yù)訓(xùn)練階段的模型參數(shù)并不能保證得到的H^{*}具有聚類友好性。并且傳統(tǒng)的k-means算法在聚類的過程中忽略了邊際樣本和類簇中心樣本的差異性吓懈。為了微調(diào)模型歼冰,我們應(yīng)該更加關(guān)注靠近類簇中心的樣本點(diǎn)。
    1)因此耻警,引入了一個(gè)self-paced kmeans作為聚類層隔嫡。
    其目標(biāo)是
    其中U \in R^{m \times k}是k-means聚類中的簇中心矩陣甸怕,S \in R^{k \times n}是類簇分配矩陣,r=[r_1, \cdots, r_n] \in R^n是一個(gè)權(quán)重向量腮恩,用于指示當(dāng)前樣本是否參與訓(xùn)練 梢杭。正常來講,參數(shù)\lambda需要逐漸增加秸滴,以便選擇更多的樣本進(jìn)行模型的訓(xùn)練武契。
    self-paced kmeans和傳統(tǒng)的kmeans的不同之處在于,類簇中心在self-paced的方法中是固定的荡含。
    在本文中咒唆,采用的是基于統(tǒng)計(jì)的自適應(yīng)的方法來更新\lambda
    其中Kloss^t是第t輪訓(xùn)練中的loss向量,對(duì)應(yīng)于每個(gè)樣本i的損失為Kloss^t_i=||h_i^{*t}-U^tS^t_{:,i}||^2_2内颗,即:融合后的樣本表示h_i^{*t}和其對(duì)應(yīng)的類簇中心之間的l_2范數(shù)平方钧排。\mu\sigma分別對(duì)應(yīng)該向量的均值和標(biāo)準(zhǔn)差。T是最大的迭代次數(shù)均澳。
    通過引入權(quán)值向量r和參數(shù)\lambda恨溜,所提出的CDIMC-net可以選擇聚類損失不超過\lambda的高置信樣本進(jìn)行訓(xùn)練。隨著迭代次數(shù)的增加找前,更高置信度的樣本被選中參與訓(xùn)練糟袁。該過程與人類的認(rèn)知學(xué)習(xí)類似,由少到多的學(xué)習(xí)躺盛,由簡(jiǎn)單到復(fù)雜的學(xué)習(xí)项戴。
    2)微調(diào)階段的損失函數(shù)
    結(jié)合k-means的優(yōu)化和圖嵌入的損失,整體的損失如下:
    最終的聚類結(jié)果由S來得出槽惫。
    該算法的過程如下:Y為缺失數(shù)據(jù)被0填補(bǔ)的X輸入周叮,W為其對(duì)應(yīng)的缺失指示矩陣,N為所構(gòu)建的近鄰圖表示界斜。

總體而言仿耽,缺失視圖的多視圖聚類是很有趣的任務(wù)。但是對(duì)于類簇中心不變的self-paced kmeans很難接受各薇,k-means的性能與其初始化有很大的關(guān)系项贺。。峭判。但是關(guān)于樣本逐一選入的更新值得嘗試开缎。。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末林螃,一起剝皮案震驚了整個(gè)濱河市奕删,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌疗认,老刑警劉巖完残,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件砌滞,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡坏怪,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門绊茧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來铝宵,“玉大人,你說我怎么就攤上這事华畏∨羟铮” “怎么了?”我有些...
    開封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵亡笑,是天一觀的道長(zhǎng)侣夷。 經(jīng)常有香客問我,道長(zhǎng)仑乌,這世上最難降的妖魔是什么百拓? 我笑而不...
    開封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮晰甚,結(jié)果婚禮上衙传,老公的妹妹穿的比我還像新娘。我一直安慰自己厕九,他們只是感情好蓖捶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著扁远,像睡著了一般俊鱼。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上畅买,一...
    開封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天并闲,我揣著相機(jī)與錄音,去河邊找鬼皮获。 笑死焙蚓,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的洒宝。 我是一名探鬼主播购公,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼雁歌!你這毒婦竟也來了宏浩?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤靠瞎,失蹤者是張志新(化名)和其女友劉穎比庄,沒想到半個(gè)月后求妹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡佳窑,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年制恍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片神凑。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡净神,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出溉委,到底是詐尸還是另有隱情鹃唯,我是刑警寧澤,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布瓣喊,位于F島的核電站坡慌,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏藻三。R本人自食惡果不足惜洪橘,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望趴酣。 院中可真熱鬧梨树,春花似錦、人聲如沸岖寞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)仗谆。三九已至指巡,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間隶垮,已是汗流浹背藻雪。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留狸吞,地道東北人勉耀。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像蹋偏,于是被迫代替她去往敵國(guó)和親便斥。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容