論文閱讀“Deep Incomplete Multi-View Multiple Clusterings”

S. Wei, J. Wang, G. Yu, C. Domeniconi and X. Zhang, "Deep Incomplete Multi-view Multiple Clusterings," 2020 IEEE International Conference on Data Mining (ICDM), 2020, pp. 651-660, doi: 10.1109/ICDM50108.2020.00074.

摘要導(dǎo)讀

多視圖聚類旨在利用來(lái)自多個(gè)異構(gòu)視圖的信息來(lái)促進(jìn)聚類酪穿。以往的大多數(shù)工作只基于預(yù)定義的聚類標(biāo)準(zhǔn)尋找一個(gè)最優(yōu)聚類刊咳,但設(shè)計(jì)這樣一個(gè)能夠捕獲用戶需要的標(biāo)準(zhǔn)是困難的禁炒。由于多視圖數(shù)據(jù)的多樣性蚌堵,我們可以探索有意義的alternative聚類芍秆。此外都伪,不完全多視圖數(shù)據(jù)問(wèn)題在現(xiàn)實(shí)世界中是普遍存在的最欠,但尚未對(duì)多重聚類進(jìn)行研究示罗。為了解決這些問(wèn)題惩猫,本文引入了一個(gè)深度不完全多視圖多聚類(DiMVMC)框架,該框架通過(guò)優(yōu)化多組解碼器深度網(wǎng)絡(luò)蚜点,實(shí)現(xiàn)了同時(shí)對(duì)數(shù)據(jù)視圖和多個(gè)共享表示的學(xué)習(xí)轧房。此外,它最小化了一個(gè)冗余項(xiàng)绍绘,以同時(shí)控制這些表示之間和不同網(wǎng)絡(luò)參數(shù)之間的多樣性奶镶。然后,從每個(gè)共享表示中生成一個(gè)獨(dú)立的聚類陪拘。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)證實(shí)厂镇,DiMVMC在生成具有高多樣性和高質(zhì)量的多個(gè)聚類方面優(yōu)于最先進(jìn)的對(duì)比方法。

  • 現(xiàn)有的多視圖聚類算法關(guān)注于多視圖數(shù)據(jù)的多樣性左刽,但是聚焦于只產(chǎn)生一個(gè)單一的聚類結(jié)果捺信。但是多視圖中涉及到的多樣性完全可以支持產(chǎn)生多個(gè)有意義的聚類結(jié)果。

例如欠痴,一堆具有異質(zhì)視角的面部圖像可以從身份残黑、性別和情感的角度單獨(dú)分組。
所有這些分組都是不同的斋否,但都很有意義梨水。

  • 除了關(guān)注聚類的質(zhì)量,multiple clusterings還追求聚類結(jié)果的多樣性茵臭。因此疫诽,越來(lái)越多人關(guān)注到多視圖多聚類(MVMC)任務(wù)。一般來(lái)說(shuō)旦委,這類方法利用自表示對(duì)多視圖數(shù)據(jù)的個(gè)體信息和共享信息進(jìn)行挖掘奇徒,然后對(duì)個(gè)體特征和共性特征的組合進(jìn)行分解,以得到多個(gè)聚類結(jié)果缨硝。但這類方法并沒(méi)有考慮多視圖數(shù)據(jù)缺失的情況摩钙。

在本文中綜合考慮上述問(wèn)題,提出了一個(gè)深度不完整多視圖多聚類框架(deep incomplete multi-view multiple clusterings framework 查辩,DiMVMC)胖笛。

模型淺析


在給定共享多視圖表示P(S|{\bf H}^m)的情況下,每個(gè)視圖都是相互獨(dú)立的宜岛。該框架首先初始化一組共享的子空間\{{\bf H}^m\}_{m=1}^M长踊,然后使用{\bf H}^m通過(guò)解碼器Decoder_m來(lái)重構(gòu)觀察到的缺失數(shù)據(jù)視圖。在重構(gòu)操作之后萍倡,生成M個(gè)表示空間身弊,并且那些缺失的數(shù)據(jù)被填完整。進(jìn)一步使用HSIC(希爾伯特-施密特獨(dú)立準(zhǔn)則)來(lái)減少這些子空間之間的重疊,從而產(chǎn)生不同的聚類阱佛。

A. 產(chǎn)生多表示子空間
假設(shè)一個(gè)包含V個(gè)視圖的多視圖數(shù)據(jù)集共有N個(gè)樣本帖汞。x_n^v \in \mathbb{R}^{d_v}表示第v個(gè)視圖的第n個(gè)樣本的特征向量,d_v是特征的維度凑术。缺失指示矩陣\Lambda \in \{0,1\}^{V \times N}

其中翩蘸,\Lambda的每一列都是對(duì)應(yīng)視圖的樣本的狀態(tài)(存在/不存在)。顯然對(duì)于每個(gè)樣本都需要只有存在一個(gè)視圖麦萤,即滿足1 \leq \sum_{v=1}^V \Lambda_{vn} \leq V鹿鳖。

在本文中,以一種靈活的方式將具有任意視圖缺失模式的樣本投影到共享的子空間中壮莹,其中子空間包括可觀測(cè)視圖的信息翅帜。在這種情況下,每個(gè)視圖都可以通過(guò)獲得的共享表示來(lái)進(jìn)行重建:

其中命满,h_i是第i個(gè)樣本所共享的多視圖表示涝滴,S_i=\{x_i^v\}_{v=1}^V是樣本i所涉及到的所有視圖表示。通過(guò)最大化P(S_i | h_i), 可以獲得共享子空間\{h_i\}_{i=1}^N胶台。但是優(yōu)化上式只能得到一個(gè)子空間歼疮,并且得到單一的聚類結(jié)果。
根據(jù)多視圖的多樣性诈唬,多視圖數(shù)據(jù)一般具有不同的分布韩脏,多個(gè)不同的子空間及聚類結(jié)果是共存的。為獲取多個(gè)(M)聚類結(jié)果铸磅,上式可以擴(kuò)展為學(xué)習(xí)M個(gè)不同的子空間赡矢,
其中,h_i^m是第i個(gè)共享空間的共享表示阅仔〈瞪ⅲ基于S_i的不同視圖,我們給出如下的建模:

在不喪失一般性的情況下八酒,假設(shè)數(shù)據(jù)是獨(dú)立且同分布的空民,可以推導(dǎo)出對(duì)數(shù)似然函數(shù)如下:
最大化似然等價(jià)于最小化重構(gòu)損失?,進(jìn)一步考慮缺失案例羞迷,解碼器網(wǎng)絡(luò)的目標(biāo)函數(shù)可以表示為:
優(yōu)化上式界轩,可以產(chǎn)生M個(gè)共享的表示空間\{{\bf H}^m\}_{m=1}^M,每個(gè)表示用于產(chǎn)生一個(gè)聚類結(jié)果闭树。
與傳統(tǒng)基于自動(dòng)編碼器的方案不同耸棒,DiMVMC跳過(guò)了編碼器網(wǎng)絡(luò),并以共享子空間表示{\bf H}^m作為第m個(gè)解碼器的輸入來(lái)學(xué)習(xí)完整的多視圖數(shù)據(jù)报辱。

B. 減少子空間之間的冗余性
對(duì)于多個(gè)聚類,除了不同聚類的質(zhì)量外,聚類之間的多樣性也很重要碍现。多樣性通常是通過(guò)最小化這些子空間之間的冗余來(lái)近似獲得的幅疼。
在本模型中,作者采用的是HSIC來(lái)度量希爾伯特子空間H^mH^{m'}的交叉協(xié)方差算子來(lái)估計(jì)兩個(gè)子空間的依賴性昼接。形式化為如下:

這里使用的是內(nèi)積核:
HSIC值越低意味著兩個(gè)子空間的相關(guān)性較小爽篷。作者指出,這種經(jīng)驗(yàn)估計(jì)比任何其他核都要簡(jiǎn)單慢睡,不需要用戶定義的正則化逐工,且具有堅(jiān)實(shí)的理論基礎(chǔ)。

C. 統(tǒng)一模型
通過(guò)對(duì)前兩個(gè)優(yōu)化目標(biāo)的整合漂辐,DiMVMC的損失函數(shù)綜合為如下:

其中泪喊,\Phi=\frac{1}{N^2d_{ave}^2}是一個(gè)正則化因子,d_{ave}是平均視圖維度的長(zhǎng)度髓涯。\lambda是平衡M個(gè)子空間和它們之間的多樣性的超參數(shù)袒啼。通過(guò)最小化該目標(biāo),DiMVMC可以產(chǎn)生多個(gè)公共子空間\{{\bf H}^m\}_{m=1}^M纬纪,同時(shí)使得缺失數(shù)據(jù)完整化蚓再。由于不存在最優(yōu)的解析解,這里采用迭代優(yōu)化\Theta_m^v\{{\bf H}^m\}的方式包各。\Theta_m^v\{{\bf H}^m\}是隨機(jī)進(jìn)行初始化的摘仅。優(yōu)化完成后,在每個(gè)得到的子空間{\bf H^m}上使用k-means问畅,從而可以相應(yīng)地生成具有質(zhì)量和多樣性的M個(gè)聚類結(jié)果娃属。具體算法流程如下:

在子空間聚類中,期望子空間學(xué)出的表示是稀疏并且可以捕獲類簇語(yǔ)義信息按声。這里可以選擇在深度模型中添加dropout層膳犹。為了直觀地實(shí)現(xiàn),可以在上述損失函數(shù)中添加了一個(gè)稀疏誘導(dǎo)的正則化签则,并定義了一個(gè) Sparse DiMVMC:


使用多個(gè)Decoder來(lái)構(gòu)造M個(gè)共享子空間须床,類似于多頭注意力機(jī)制對(duì)不同語(yǔ)義空間的學(xué)習(xí)。另外關(guān)于Multiple Clustering評(píng)價(jià)指標(biāo)也很有趣渐裂,值得探究豺旬。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市柒凉,隨后出現(xiàn)的幾起案子族阅,更是在濱河造成了極大的恐慌,老刑警劉巖膝捞,帶你破解...
    沈念sama閱讀 217,657評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件坦刀,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)鲤遥,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,889評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén)沐寺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人盖奈,你說(shuō)我怎么就攤上這事混坞。” “怎么了钢坦?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,057評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵究孕,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我爹凹,道長(zhǎng)厨诸,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,509評(píng)論 1 293
  • 正文 為了忘掉前任逛万,我火速辦了婚禮泳猬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘宇植。我一直安慰自己得封,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,562評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布指郁。 她就那樣靜靜地躺著忙上,像睡著了一般。 火紅的嫁衣襯著肌膚如雪闲坎。 梳的紋絲不亂的頭發(fā)上疫粥,一...
    開(kāi)封第一講書(shū)人閱讀 51,443評(píng)論 1 302
  • 那天,我揣著相機(jī)與錄音腰懂,去河邊找鬼梗逮。 笑死,一個(gè)胖子當(dāng)著我的面吹牛绣溜,可吹牛的內(nèi)容都是我干的慷彤。 我是一名探鬼主播,決...
    沈念sama閱讀 40,251評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼怖喻,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼底哗!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起锚沸,我...
    開(kāi)封第一講書(shū)人閱讀 39,129評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤跋选,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后哗蜈,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體前标,經(jīng)...
    沈念sama閱讀 45,561評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡坠韩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,779評(píng)論 3 335
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了候生。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片同眯。...
    茶點(diǎn)故事閱讀 39,902評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡绽昼,死狀恐怖唯鸭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情硅确,我是刑警寧澤目溉,帶...
    沈念sama閱讀 35,621評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站菱农,受9級(jí)特大地震影響缭付,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜循未,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,220評(píng)論 3 328
  • 文/蒙蒙 一陷猫、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧的妖,春花似錦绣檬、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,838評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至星虹,卻和暖如春零抬,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背宽涌。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,971評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工平夜, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卸亮。 一個(gè)月前我還...
    沈念sama閱讀 48,025評(píng)論 2 370
  • 正文 我出身青樓忽妒,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親嫡良。 傳聞我的和親對(duì)象是個(gè)殘疾皇子锰扶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,843評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容