Li, Hongyu et al. “Dual Mutual Information Constraints for Discriminative Clustering.” AAAI Conference on Artificial Intelligence (2023).
摘要導(dǎo)讀
深度聚類是機器學(xué)習(xí)和數(shù)據(jù)挖掘中的一項基本任務(wù),旨在學(xué)習(xí)面向聚類的特征表示。在以往的研究中朋其,大多數(shù)的深度聚類方法都遵循自監(jiān)督表示學(xué)習(xí)的思想通過最大化相似實例對的一致性,而忽略特征冗余對聚類性能的影響砍鸠。因此涡拘,作者設(shè)計了一種基于深度對比聚類結(jié)構(gòu)的雙互信息約束聚類方法DMICC唉堪,其中雙互信息約束給出了堅實的理論保證和實驗驗證分衫。具體來說场刑,在特征層面上,通過最小化所有維度上的互信息來減少特征之間的冗余蚪战,以鼓勵神經(jīng)網(wǎng)絡(luò)提取更多可辨別的特征牵现。在樣本層面,最大化相似實例對的互信息邀桑,以獲得更無偏和魯棒的表示瞎疼。雙互信息約束同時作用,相互補充概漱,共同優(yōu)化適合聚類任務(wù)的更好的特征丑慎。
方法淺析
首先通過兩個數(shù)據(jù)增強來構(gòu)造數(shù)據(jù)對玉吁。然后照弥,使用參數(shù)共享網(wǎng)絡(luò)從不同的數(shù)據(jù)擴充中提取特征。并且對從兩個分支中提取的特征進行IMI約束进副,然后采用非參數(shù)SoftMax这揣,對每個分支進行FMI約束,用于學(xué)習(xí)可辨別的樣本特征影斑。
-
Feature Redundancy-Minimization Module
該模塊的關(guān)注重點是特征冗余给赞,在特征層面實現(xiàn)了互信息最小化約束。該模塊的目標(biāo)是通過這種方式有效地減少特征維度之間的冗余性矫户,獲得更多的鑒別特征片迅,以提升深度聚類的效率。在信息論中皆辽,熵是不確定性的度量柑蛇,這里將它記為芥挣。以下是涉及到的一些互信息計算的公式:(信息熵是考慮該隨機變量的所有可能取值,即所有可能發(fā)生事件所帶來的信息量的期望)
變量的熵:耻台,是發(fā)生的概率空免。
條件熵:
假設(shè)由前面的特征抽取器提取的特征矩陣為和,并使用和分別表示和的第列盆耽。忽略下標(biāo)蹋砚,給定特征矩陣,可以表示為個列向量摄杂,即坝咐。因此,要實現(xiàn)特征層面的互信息的最小化匙姜,其目標(biāo)函數(shù)可以寫作:畅厢。
--
作者思路:因為要計算特征層面信息的最小化,根據(jù)互信息公式氮昧,我們需要知道特征維度的聯(lián)合概率分布框杜,以及邊緣分布概率和。作者認為維度之間相關(guān)性的度(degree)和聯(lián)合概率分布有很強的聯(lián)系袖肥,即咪辱,當(dāng)維度的相關(guān)性顯著時,聯(lián)合概率分布的值較高椎组。因此油狂,作者假設(shè)聯(lián)合概率分布可以在一定程度上被維度之間的相關(guān)值所代替。具體來說寸癌,可以首先構(gòu)造協(xié)方差矩陣并對其進行歸一化专筷,最后的結(jié)果作為聯(lián)合概率分布。
--
具體的操作為:對進行歸一化蒸苇,利用內(nèi)積得到相關(guān)性矩陣磷蛹。
根據(jù)前面的假設(shè),
聯(lián)合分布可以由以下形式計算:溪烤。其中味咳,表示和的相關(guān)性得分,表示矩陣的和檬嘀。
邊緣分布槽驶,
由此,該模塊的FMI約束損失可以表示為如下的形式:
--
方法有效性的證明這里不再贅述,可以移步原文 -
Instance Similarity-Maximization Module
Instance discrimination Backbone 實例識別的關(guān)鍵是:假設(shè)每個實例都代表一個不同的類堡纬。假設(shè)有個圖像及其對應(yīng)的特征聂受。作者這里使用作為權(quán)重向量的代替。
因此該模塊的重點在于學(xué)習(xí)一個嵌入映射函數(shù)烤镐,其中蛋济。這里通過一層正則化層強制。
根據(jù)任務(wù)設(shè)定炮叶,每個樣本instance都是一個類別碗旅,那么依據(jù)給定樣本的表示分到第個類別的概率可以表示為如下的形式,這里是圖中的非參的softmax操作镜悉。是一個溫度超參祟辟。(雖然但是,這里的和對應(yīng)的shape寫的不是很清楚侣肄。按照向量乘法的規(guī)則來說旧困,和應(yīng)該都是列向量,即其shape應(yīng)該為稼锅。樣本標(biāo)記對應(yīng)的是第個類別吼具,因為這里將每個樣本分為單獨的一類,是給定樣本對應(yīng)的表示)
而對于Instance discrimination Backbone 矩距,其優(yōu)化目標(biāo)為最大化聯(lián)合概率分布即將每個樣本無誤地分配到自己特定的類別中拗盒。在神經(jīng)網(wǎng)絡(luò)中其負對數(shù)優(yōu)化函數(shù)如下:
--
附圖為帶參數(shù)的softmax:
--
IMI Constraint 作者試圖引入對比學(xué)習(xí)來最大限度地提高對由同一組圖像生成的增強實例對的MI約束,從而產(chǎn)生更無偏和魯棒的特征锥债。
假設(shè)原始的圖像輸入為陡蝇,經(jīng)過數(shù)據(jù)增強得到的圖像分別為和,其對應(yīng)的矩陣為和哮肚。其中,登夫。目標(biāo)是最大化相應(yīng)表示的MI:
其聯(lián)合分布可以表示為:悼嫉。
邊緣分布,
(這里可以想成是來自第一個,而是第二個的索引)拼窥。
考慮到矩陣的對稱性,由進行對稱化蹋凝。所以有如下的IMI形式:
其對應(yīng)的損失函數(shù)形式為:
其中是一個非零常數(shù)鲁纠。在實驗中,原始的MI解可能會得到平凡的解鳍寂。因此改含,考慮通過放寬邊緣分布來進一步增加熵的共享性來避免平凡解。
- 總體損失
不失一般性迄汛,模型整體的目標(biāo)函數(shù)為:
--
目標(biāo)函數(shù)的有界性證明請移步原文,這里不進行贅述 - 聚類
從模型設(shè)計的角度看鹃觉,應(yīng)該是使用設(shè)計的網(wǎng)絡(luò)和損失函數(shù)進行了表示的學(xué)習(xí)和并直接使用-means進行聚類专酗。
從論文的整體來看,主要是將特征選擇和表示學(xué)習(xí)利用互信息結(jié)合在一起盗扇。在筆者看來祷肯,無論是否引入實例識別部分(Instance discrimination Backbone )好像對兩種互信息的約束都沒有影響,因此疗隶,對于模型中為什么一定要存在這一部分交代的不是很明白佑笋。可能需要去再閱讀下作者引用的idea的原文斑鼻。蒋纬。