論文閱讀“Active deep image clustering”

Sun B, Zhou P, Du L, et al. Active deep image clustering[J]. Knowledge-Based Systems, 2022, 252: 109346.

摘要導(dǎo)讀

近年來(lái),深度聚類(lèi)引起了越來(lái)越多的關(guān)注愧驱。然而泼差,由于缺乏標(biāo)簽,深度聚類(lèi)有時(shí)仍然提供不可靠的聚類(lèi)結(jié)果蚌斩。雖然半監(jiān)督深度聚類(lèi)可以通過(guò)涉及很少的標(biāo)注標(biāo)簽而在一定程度上緩解這一問(wèn)題窄坦,作者觀察到半監(jiān)督聚類(lèi)的性能在很大程度上依賴(lài)于人為標(biāo)注數(shù)據(jù)的選擇。 不幸的是凳寺,由于對(duì)傳統(tǒng)的半監(jiān)督方法的關(guān)注較少鸭津,監(jiān)督信息的選擇仍然是一個(gè)棘手的問(wèn)題。為了解決這一問(wèn)題肠缨,本文提出了一種新的深度主動(dòng)聚類(lèi)方法逆趋,該方法可以主動(dòng)選擇關(guān)鍵數(shù)據(jù)進(jìn)行人工標(biāo)記,并應(yīng)用人工注釋來(lái)提高深度聚類(lèi)性能晒奕。與傳統(tǒng)的使用固定的預(yù)先給定的監(jiān)督信息的半監(jiān)督深度聚類(lèi)方法不同闻书,我們?cè)O(shè)計(jì)了一種簡(jiǎn)單而有效的策略用于選擇informative和uncertain的數(shù)據(jù)用于人工標(biāo)注名斟,這有利于完成聚類(lèi)任務(wù)。此外魄眉,本文將深度表示學(xué)習(xí)砰盐、聚類(lèi)和數(shù)據(jù)選擇策略集成到一個(gè)統(tǒng)一的框架中,使得每個(gè)任務(wù)都可以相互提升坑律。通過(guò)與現(xiàn)有深度聚類(lèi)模型和半監(jiān)督聚類(lèi)模型相比岩梳,展現(xiàn)出提出模型的有效性。

模型淺析

模型的設(shè)計(jì)主要針對(duì)兩個(gè)問(wèn)題 (1) How to select key data for annotation? (2) How to use the human annotation to do clustering?

為了使用人為標(biāo)記進(jìn)行聚類(lèi)晃择,本文根據(jù)標(biāo)記數(shù)據(jù)構(gòu)建了Must-link和Cannot-link并通過(guò)由對(duì)比損失驅(qū)動(dòng)的孿生網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí)冀值,將學(xué)到的表示通過(guò)KL深度聚類(lèi)層獲得聚類(lèi)結(jié)果;在選擇需要標(biāo)注的數(shù)據(jù)時(shí)宫屠,依賴(lài)于聚類(lèi)結(jié)果設(shè)計(jì)了挑選策略尋找到informative和uncertain的樣本點(diǎn)進(jìn)行標(biāo)注列疗。
根據(jù)框架的設(shè)計(jì),這里分為三個(gè)模塊給出介紹:

  • 表示學(xué)習(xí)模塊
    受度量學(xué)習(xí)的啟發(fā)浪蹂,需要將原始數(shù)據(jù)映射到一個(gè)新的語(yǔ)義潛在空間中抵栈,在這個(gè)潛在空間中,使得同一集群中的數(shù)據(jù)是接近的坤次,而不同類(lèi)簇中的數(shù)據(jù)彼此相距很遠(yuǎn)古劲。這里使用到的映射函數(shù)為f(\cdot, \theta), 并根據(jù)預(yù)先給定的認(rèn)為標(biāo)注數(shù)據(jù)構(gòu)建了Must-link\mathcal{M}和Cannot-link\mathcal{C}。因此浙踢,驅(qū)動(dòng)網(wǎng)絡(luò)參數(shù)更新的目標(biāo)函數(shù)主要包含兩個(gè)方面绢慢,分別是Must-link約束和Cannot-link約束:

    根據(jù)損失函數(shù)最小化原則,引入了一個(gè)預(yù)定義的間隔\delta > 0洛波,并希望在Cannot-link的兩個(gè)數(shù)據(jù)的距離應(yīng)該大于\delta 胰舆,否則將對(duì)其施加懲罰。然后蹬挤,通過(guò)表示一個(gè)指示器y_{ij}缚窿,如果(x_i,x_j) \in \mathcal{M}則有y_{ij}=1,若(x_i,x_j) \in \mathcal{C}則有y_{ij}=0焰扳,由此上述的目標(biāo)可以組合成一個(gè)統(tǒng)一的目標(biāo)函數(shù):
    其中倦零,
    表示當(dāng)在Cannot-link中的兩個(gè)數(shù)據(jù)點(diǎn)的間隔超過(guò)\delta時(shí),將不進(jìn)行懲罰吨悍,否則扫茅,進(jìn)行懲罰。
    與傳統(tǒng)對(duì)比學(xué)習(xí)的輸入不同育瓜,本文采用的是對(duì)\mathcal{M} \cup \mathcal{C}進(jìn)行三元組構(gòu)造(x_i, x_j, y_{ij})葫隙,從而將x_ix_j分別輸入孿生網(wǎng)絡(luò)中得到對(duì)應(yīng)的latent表示f(x_i; \theta)f(x_j; \theta)進(jìn)行損失的計(jì)算,并進(jìn)行參數(shù)的更新躏仇。

  • 聚類(lèi)模塊
    這里使用的是DEC中的經(jīng)典聚類(lèi)層構(gòu)造恋脚,這里不進(jìn)行贅述腺办。并通過(guò)argmax_j(q_{ij})獲取樣本i所屬的類(lèi)簇。

  • 約束的主動(dòng)選擇
    在約束對(duì)的選擇上糟描,本文主要從兩個(gè)原則出發(fā):(1)不確定性:選擇那些模型難以抉擇歸屬的樣本怀喉,那些模型可以輕易聚類(lèi)的樣本將不在考慮范圍;(2)很輕易可以證明在給定的數(shù)據(jù)中船响,Cannot-link的數(shù)量遠(yuǎn)大于Must-link躬拢,而根據(jù)聚類(lèi)的目標(biāo),Must-link所包含的信息遠(yuǎn)大于Cannot-link灿意,也對(duì)聚類(lèi)更有幫助估灿。
    給定一個(gè)batch中所要選擇的約束數(shù)量k崇呵,假設(shè)有c個(gè)類(lèi)簇缤剧,每個(gè)類(lèi)簇所包含的樣本數(shù)為n_c,因此有\sum_{p=1}^cn_p=n域慷,對(duì)應(yīng)于每個(gè)類(lèi)簇的約束數(shù)量為b_p=\lfloor k * \frac{n_p}{n}\rfloor荒辕。對(duì)于b_p而言,因?yàn)閬?lái)自于同一個(gè)類(lèi)簇犹褒,因此這里就存在潛在的Must-link抵窒,這種操作滿(mǎn)足了約束對(duì)選擇的第(2)個(gè)原則。
    \pi_p類(lèi)簇為例叠骑,選擇的目標(biāo)是那些不確定的樣本對(duì)李皇。假設(shè)在類(lèi)簇p中包含n_p個(gè)樣本,以q_{ip}對(duì)應(yīng)值的降序排列得到:

    由聚類(lèi)層的定義可知宙枷,q_{ip}代表的是第i個(gè)樣本和類(lèi)簇p之間的相似性掉房。也就是說(shuō)在整個(gè)的集合中,x_{p{n_p}}是位于類(lèi)簇邊緣的樣本慰丛,x_{p_1}是靠近類(lèi)簇中心的樣本卓囚。由此,可以選擇其構(gòu)成不確定的樣本對(duì)(x_{p_1},x_{p_{n_p}})诅病,并以此選取b_p個(gè)樣本構(gòu)成該類(lèi)簇的待標(biāo)記集合\{(x_{p_1},x_{p_{n_p-b_p+1}}),\cdots,(x_{p_1},x_{p_{n_p}})\}哪亿。這樣就滿(mǎn)足了選擇原則中的第(1)項(xiàng)。這里值的注意的一點(diǎn)是贤笆,下次在選擇的時(shí)候需要跳過(guò)已經(jīng)選擇過(guò)的樣本蝇棉。
    為了實(shí)現(xiàn)這一點(diǎn),本文將原始的數(shù)據(jù)集\mathcal{X}分為了T個(gè)不相交的子集芥永,
    來(lái)避免選擇到重復(fù)的約束對(duì)篡殷。第t的迭代對(duì)應(yīng)的算法如下:
    在得到S^{(t)}后,將S^{(t)}中的樣本對(duì)進(jìn)行人工注釋?zhuān)瑯?gòu)造Must-link和Cannot-link恤左。然后再重復(fù)表示學(xué)習(xí)模塊的學(xué)習(xí)贴唇。


直觀搀绣。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市戳气,隨后出現(xiàn)的幾起案子链患,更是在濱河造成了極大的恐慌,老刑警劉巖瓶您,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件麻捻,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡呀袱,警方通過(guò)查閱死者的電腦和手機(jī)贸毕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)夜赵,“玉大人明棍,你說(shuō)我怎么就攤上這事】苌” “怎么了摊腋?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)嘁傀。 經(jīng)常有香客問(wèn)我兴蒸,道長(zhǎng),這世上最難降的妖魔是什么细办? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任橙凳,我火速辦了婚禮,結(jié)果婚禮上笑撞,老公的妹妹穿的比我還像新娘岛啸。我一直安慰自己,他們只是感情好娃殖,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布值戳。 她就那樣靜靜地躺著,像睡著了一般炉爆。 火紅的嫁衣襯著肌膚如雪堕虹。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,462評(píng)論 1 302
  • 那天芬首,我揣著相機(jī)與錄音赴捞,去河邊找鬼。 笑死郁稍,一個(gè)胖子當(dāng)著我的面吹牛赦政,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼恢着,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼桐愉!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起掰派,我...
    開(kāi)封第一講書(shū)人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤从诲,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后靡羡,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體系洛,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年略步,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了描扯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡趟薄,死狀恐怖绽诚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情竟趾,我是刑警寧澤憔购,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布宫峦,位于F島的核電站岔帽,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏导绷。R本人自食惡果不足惜犀勒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望妥曲。 院中可真熱鬧贾费,春花似錦、人聲如沸檐盟。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)葵萎。三九已至导犹,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間羡忘,已是汗流浹背谎痢。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留卷雕,地道東北人节猿。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像漫雕,于是被迫代替她去往敵國(guó)和親滨嘱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子峰鄙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354