Sun B, Zhou P, Du L, et al. Active deep image clustering[J]. Knowledge-Based Systems, 2022, 252: 109346.
摘要導(dǎo)讀
近年來(lái),深度聚類(lèi)引起了越來(lái)越多的關(guān)注愧驱。然而泼差,由于缺乏標(biāo)簽,深度聚類(lèi)有時(shí)仍然提供不可靠的聚類(lèi)結(jié)果蚌斩。雖然半監(jiān)督深度聚類(lèi)可以通過(guò)涉及很少的標(biāo)注標(biāo)簽而在一定程度上緩解這一問(wèn)題窄坦,作者觀察到半監(jiān)督聚類(lèi)的性能在很大程度上依賴(lài)于人為標(biāo)注數(shù)據(jù)的選擇。 不幸的是凳寺,由于對(duì)傳統(tǒng)的半監(jiān)督方法的關(guān)注較少鸭津,監(jiān)督信息的選擇仍然是一個(gè)棘手的問(wèn)題。為了解決這一問(wèn)題肠缨,本文提出了一種新的深度主動(dòng)聚類(lèi)方法逆趋,該方法可以主動(dòng)選擇關(guān)鍵數(shù)據(jù)進(jìn)行人工標(biāo)記,并應(yīng)用人工注釋來(lái)提高深度聚類(lèi)性能晒奕。與傳統(tǒng)的使用固定的預(yù)先給定的監(jiān)督信息的半監(jiān)督深度聚類(lèi)方法不同闻书,我們?cè)O(shè)計(jì)了一種簡(jiǎn)單而有效的策略用于選擇informative和uncertain的數(shù)據(jù)用于人工標(biāo)注名斟,這有利于完成聚類(lèi)任務(wù)。此外魄眉,本文將深度表示學(xué)習(xí)砰盐、聚類(lèi)和數(shù)據(jù)選擇策略集成到一個(gè)統(tǒng)一的框架中,使得每個(gè)任務(wù)都可以相互提升坑律。通過(guò)與現(xiàn)有深度聚類(lèi)模型和半監(jiān)督聚類(lèi)模型相比岩梳,展現(xiàn)出提出模型的有效性。
模型淺析
模型的設(shè)計(jì)主要針對(duì)兩個(gè)問(wèn)題 (1) How to select key data for annotation? (2) How to use the human annotation to do clustering?為了使用人為標(biāo)記進(jìn)行聚類(lèi)晃择,本文根據(jù)標(biāo)記數(shù)據(jù)構(gòu)建了Must-link和Cannot-link并通過(guò)由對(duì)比損失驅(qū)動(dòng)的孿生網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí)冀值,將學(xué)到的表示通過(guò)KL深度聚類(lèi)層獲得聚類(lèi)結(jié)果;在選擇需要標(biāo)注的數(shù)據(jù)時(shí)宫屠,依賴(lài)于聚類(lèi)結(jié)果設(shè)計(jì)了挑選策略尋找到informative和uncertain的樣本點(diǎn)進(jìn)行標(biāo)注列疗。
根據(jù)框架的設(shè)計(jì),這里分為三個(gè)模塊給出介紹:
-
表示學(xué)習(xí)模塊
受度量學(xué)習(xí)的啟發(fā)浪蹂,需要將原始數(shù)據(jù)映射到一個(gè)新的語(yǔ)義潛在空間中抵栈,在這個(gè)潛在空間中,使得同一集群中的數(shù)據(jù)是接近的坤次,而不同類(lèi)簇中的數(shù)據(jù)彼此相距很遠(yuǎn)古劲。這里使用到的映射函數(shù)為, 并根據(jù)預(yù)先給定的認(rèn)為標(biāo)注數(shù)據(jù)構(gòu)建了Must-link
和Cannot-link
。因此浙踢,驅(qū)動(dòng)網(wǎng)絡(luò)參數(shù)更新的目標(biāo)函數(shù)主要包含兩個(gè)方面绢慢,分別是Must-link約束和Cannot-link約束:
> 0洛波,并希望在Cannot-link的兩個(gè)數(shù)據(jù)的距離應(yīng)該大于
胰舆,否則將對(duì)其施加懲罰。然后蹬挤,通過(guò)表示一個(gè)指示器
缚窿,如果
則有
=1,若
則有
=0焰扳,由此上述的目標(biāo)可以組合成一個(gè)統(tǒng)一的目標(biāo)函數(shù):
時(shí),將不進(jìn)行懲罰吨悍,否則扫茅,進(jìn)行懲罰。
與傳統(tǒng)對(duì)比學(xué)習(xí)的輸入不同育瓜,本文采用的是對(duì)進(jìn)行三元組構(gòu)造
葫隙,從而將
和
分別輸入孿生網(wǎng)絡(luò)中得到對(duì)應(yīng)的latent表示
和
進(jìn)行損失的計(jì)算,并進(jìn)行參數(shù)的更新躏仇。
聚類(lèi)模塊
這里使用的是DEC中的經(jīng)典聚類(lèi)層構(gòu)造恋脚,這里不進(jìn)行贅述腺办。并通過(guò)argmax_j獲取樣本
所屬的類(lèi)簇。
-
約束的主動(dòng)選擇
在約束對(duì)的選擇上糟描,本文主要從兩個(gè)原則出發(fā):(1)不確定性:選擇那些模型難以抉擇歸屬的樣本怀喉,那些模型可以輕易聚類(lèi)的樣本將不在考慮范圍;(2)很輕易可以證明在給定的數(shù)據(jù)中船响,Cannot-link的數(shù)量遠(yuǎn)大于Must-link躬拢,而根據(jù)聚類(lèi)的目標(biāo),Must-link所包含的信息遠(yuǎn)大于Cannot-link灿意,也對(duì)聚類(lèi)更有幫助估灿。
給定一個(gè)batch中所要選擇的約束數(shù)量崇呵,假設(shè)有
個(gè)類(lèi)簇缤剧,每個(gè)類(lèi)簇所包含的樣本數(shù)為
,因此有
域慷,對(duì)應(yīng)于每個(gè)類(lèi)簇的約束數(shù)量為
荒辕。對(duì)于
而言,因?yàn)閬?lái)自于同一個(gè)類(lèi)簇犹褒,因此這里就存在潛在的Must-link抵窒,這種操作滿(mǎn)足了約束對(duì)選擇的第(2)個(gè)原則。
以類(lèi)簇為例叠骑,選擇的目標(biāo)是那些不確定的樣本對(duì)李皇。假設(shè)在類(lèi)簇
中包含
個(gè)樣本,以
對(duì)應(yīng)值的降序排列得到:
代表的是第
個(gè)樣本和類(lèi)簇
之間的相似性掉房。也就是說(shuō)在整個(gè)的集合中,
是位于類(lèi)簇邊緣的樣本慰丛,
是靠近類(lèi)簇中心的樣本卓囚。由此,可以選擇其構(gòu)成不確定的樣本對(duì)
诅病,并以此選取
個(gè)樣本構(gòu)成該類(lèi)簇的待標(biāo)記集合
哪亿。這樣就滿(mǎn)足了選擇原則中的第(1)項(xiàng)。這里值的注意的一點(diǎn)是贤笆,下次在選擇的時(shí)候需要跳過(guò)已經(jīng)選擇過(guò)的樣本蝇棉。
為了實(shí)現(xiàn)這一點(diǎn),本文將原始的數(shù)據(jù)集分為了
個(gè)不相交的子集芥永,
的迭代對(duì)應(yīng)的算法如下:
后,將
中的樣本對(duì)進(jìn)行人工注釋?zhuān)瑯?gòu)造Must-link和Cannot-link恤左。然后再重復(fù)表示學(xué)習(xí)模塊的學(xué)習(xí)贴唇。
直觀搀绣。