摘要
人臉聚類(lèi)最近吸引了越來(lái)越多的研究興趣戒努,以利用網(wǎng)絡(luò)上的大量人臉圖像唠雕。圖卷積網(wǎng)絡(luò)(GCN)由于其強(qiáng)大的表示能力而實(shí)現(xiàn)了最先進(jìn)的性能勉抓。然而永乌,現(xiàn)有的基于 GCN 的方法主要根據(jù)特征空間中的 kNN 關(guān)系構(gòu)建人臉圖惑申,這可能導(dǎo)致連接不同類(lèi)別的兩個(gè)人臉的大量噪聲邊緣具伍。當(dāng)消息通過(guò)這些噪聲邊緣時(shí),面部特征將被污染圈驼,從而降低 GCN 的性能人芽。在本文中,提出了一種名為 Ada-NETS 的新算法绩脆,通過(guò)為 GCN 構(gòu)建干凈的圖來(lái)聚類(lèi)人臉萤厅。在 Ada-NETS 中,每個(gè)人臉都被轉(zhuǎn)換到一個(gè)新的結(jié)構(gòu)空間靴迫,通過(guò)考慮相鄰圖像的人臉特征來(lái)獲得魯棒的特征惕味。然后,提出了一種自適應(yīng)鄰居發(fā)現(xiàn)策略來(lái)確定連接到每個(gè)人臉圖像的適當(dāng)數(shù)量的邊玉锌。它顯著減少了噪聲邊緣名挥,同時(shí)保持了良好的邊緣,從而為 GCN 構(gòu)建具有干凈而豐富邊緣的圖形來(lái)聚類(lèi)人臉芬沉。在多個(gè)公共聚類(lèi)數(shù)據(jù)集上的實(shí)驗(yàn)表明躺同,Ada-NETS 顯著優(yōu)于當(dāng)前最先進(jìn)的方法,證明了其優(yōu)越性和泛化性丸逸。
1.引言
近年來(lái)蹋艺,網(wǎng)絡(luò)上的圖像數(shù)量迅速增加,其中很大一部分是以人為中心的照片黄刚。在幾乎沒(méi)有人為參與的情況下理解和管理這些照片是一項(xiàng)艱巨的任務(wù)捎谨,例如將來(lái)自某個(gè)人的照片關(guān)聯(lián)在一起。面對(duì)這些需求的一個(gè)基本問(wèn)題是人臉聚類(lèi)(Manning et al., 2008)憔维。
近年來(lái)涛救,人臉聚類(lèi)得到了徹底的研究。使用圖卷積網(wǎng)絡(luò)獲得了顯著的性能改進(jìn)(Wang 等人业扒,2019b检吆;Yang 等人,2019程储;2020蹭沛;Guo 等人,2020章鲤;Shen 等人摊灭,2021)由于其強(qiáng)大的特征傳播能力.代表性的 DA-Net (Guo et al., 2020) 和 STAR-FC (Shen et al., 2021) 使用 GCN 通過(guò)頂點(diǎn)或邊分類(lèi)任務(wù)來(lái)學(xué)習(xí)增強(qiáng)的特征嵌入,以輔助聚類(lèi)败徊。
然而帚呼,限制現(xiàn)有基于 GCN 的人臉聚類(lèi)算法能力的主要問(wèn)題是人臉圖中存在噪聲邊緣。如圖1(b)所示皱蹦,噪聲邊緣是指不同類(lèi)別的兩個(gè)面之間的連接煤杀。與 Citeseer眷蜈、Cora 和 Pubmed 等以顯式鏈接關(guān)系作為邊的常見(jiàn)圖形數(shù)據(jù)集不同(Kipf & Welling, 2017),人臉圖像不包含明確的結(jié)構(gòu)信息沈自,而僅包含從經(jīng)過(guò)訓(xùn)練的 CNN 模型中提取的深層特征端蛆。因此,人臉圖像被視為頂點(diǎn)酥泛,人臉圖像之間的邊緣通常在構(gòu)建圖時(shí)基于 kNN (Cover & Hart, 1967) 關(guān)系構(gòu)建:每個(gè)人臉作為一個(gè)探針,通過(guò)以下方式檢索其 k 個(gè)最近鄰居深度特征(Wang 等人嫌拣,2019b柔袁;Yang 等人,2019异逐;2020捶索;Guo 等人,2020灰瞻;Shen 等人腥例,2021)。 kNN 關(guān)系并不總是可靠的酝润,因?yàn)樯疃忍卣鞑粔驕?zhǔn)確燎竖。因此,噪聲邊緣與 kNN 一起被引入到圖中要销。噪聲邊緣問(wèn)題在人臉聚類(lèi)中很常見(jiàn)构回,但很少受到研究關(guān)注。例如疏咐,(Yang et al., 2020; Shen et al., 2021) 中使用的圖在測(cè)試中包含約 38.23% 的噪聲邊緣纤掸。噪聲邊緣會(huì)在頂點(diǎn)之間傳播噪聲信息,在聚合時(shí)會(huì)損害它們的特征浑塞,從而導(dǎo)致性能下降借跪。在圖 1 (b) 中,三角形頂點(diǎn) v1 與三個(gè)不同類(lèi)別的頂點(diǎn)相連酌壕,它會(huì)被圖中傳遞的消息污染掏愁。因此,基于 GCN 的鏈接預(yù)測(cè)無(wú)法有效解決相關(guān)工作中的噪聲邊緣問(wèn)題(Wang 等人仅孩,2019b托猩;Yang 等人,2020辽慕;Shen 等人京腥,2021)。
圖 1:基于 GCN 的人臉聚類(lèi)中的噪聲邊緣問(wèn)題溅蛉。圖中不同的形狀代表不同的類(lèi)別公浪。 (a) 要聚類(lèi)的人臉圖像他宛。 (b) 在基于 na ??ve kNN 構(gòu)建圖時(shí)引入了噪聲邊緣。 (c) 通過(guò)特征距離連接邊緣可能會(huì)導(dǎo)致噪聲邊緣欠气。 (d) 現(xiàn)有的“一刀切”的解決方案對(duì)每個(gè)頂點(diǎn)使用固定數(shù)量的鄰居會(huì)引入許多噪聲邊緣厅各。
如圖 1 (c) (d) 所示,去除人臉圖中的噪聲邊緣的挑戰(zhàn)是雙重的预柒。首先队塘,深度特征的表示能力在現(xiàn)實(shí)世界的數(shù)據(jù)中是有限的。僅根據(jù)深度特征很難判斷兩個(gè)頂點(diǎn)是否屬于同一類(lèi)宜鸯,因此連接不同類(lèi)的兩個(gè)頂點(diǎn)不可避免地會(huì)帶來(lái)噪聲邊緣憔古。其次,在構(gòu)建圖時(shí)很難確定每個(gè)頂點(diǎn)連接多少條邊:連接的邊太少會(huì)導(dǎo)致圖中的信息聚合不足淋袖。連接的邊太多會(huì)增加噪聲邊的數(shù)量鸿市,并且頂點(diǎn)特征會(huì)被錯(cuò)誤連接的頂點(diǎn)污染。雖然 Clusformer (Nguyen et al., 2021) 和 GAT (Velickovic et al., 2018) 試圖通過(guò)注意力機(jī)制減少噪聲邊緣的影響即碗,但各個(gè)頂點(diǎn)之間的連接非常復(fù)雜焰情,因此很難找到注意力權(quán)重學(xué)習(xí)的常見(jiàn)模式(Yang et al., 2020)。
為了克服這些嚴(yán)峻的挑戰(zhàn)剥懒,每個(gè)頂點(diǎn)周?chē)奶卣鞫急豢紤]在內(nèi)内舟,因?yàn)樗鼈兛梢蕴峁└嘈畔ⅰ>唧w來(lái)說(shuō)初橘,當(dāng)考慮附近的其他頂點(diǎn)時(shí)谒获,可以改進(jìn)每個(gè)頂點(diǎn)特征表示。這有利于解決圖 1 (c) 中的表示挑戰(zhàn)壁却。然后批狱,一個(gè)頂點(diǎn)與其他頂點(diǎn)之間的邊數(shù)可以從它周?chē)奶卣髂J街袑W(xué)習(xí),而不是為所有頂點(diǎn)手動(dòng)設(shè)計(jì)參數(shù)展东。這種學(xué)習(xí)方法可以有效地減少噪聲邊緣的連接赔硫,這對(duì)于解決圖 1 (d) 中的第二個(gè)挑戰(zhàn)至關(guān)重要⊙嗡啵基于上述思想爪膊,提出了一種新的聚類(lèi)算法,稱(chēng)為結(jié)構(gòu)空間中的自適應(yīng)鄰居發(fā)現(xiàn)(Ada-NETS)砸王,用于處理聚類(lèi)中的噪聲邊緣問(wèn)題推盛。在 Ada-NETS 中,首先提出了一個(gè)結(jié)構(gòu)空間谦铃,其中頂點(diǎn)在感知數(shù)據(jù)分布后耘成,可以通過(guò)編碼更多的紋理信息來(lái)獲得魯棒的特征。然后,仔細(xì)設(shè)計(jì)候選鄰居質(zhì)量標(biāo)準(zhǔn)以指導(dǎo)構(gòu)建噪聲較小但豐富的邊緣瘪菌,以及可學(xué)習(xí)的自適應(yīng)濾波器來(lái)學(xué)習(xí)該標(biāo)準(zhǔn)撒会。通過(guò)這種方式,自適應(yīng)地發(fā)現(xiàn)每個(gè)頂點(diǎn)的鄰居师妙,以構(gòu)建具有干凈和豐富邊緣的圖诵肛。最后,GCN 將此圖作為輸入來(lái)聚類(lèi)人臉默穴。
本文的主要貢獻(xiàn)總結(jié)如下:
? 據(jù)我們所知怔檩,這是第一篇在人臉圖像上為 GCN 構(gòu)建圖時(shí)解決噪聲邊緣問(wèn)題的論文。同時(shí)蓄诽,本文闡述了其成因珠洗、重大影響、現(xiàn)有解決方案的弱點(diǎn)以及解決該問(wèn)題的挑戰(zhàn)若专。
? 所提出的 Ada-NETS 可以緩解在人臉圖像上構(gòu)建圖形時(shí)的噪聲邊緣問(wèn)題,從而極大地改進(jìn) GCN 以提高聚類(lèi)性能蝴猪。
? Ada-NETS 在聚類(lèi)任務(wù)上取得了最先進(jìn)的性能调衰,在人臉、人物和衣服數(shù)據(jù)集上大大超過(guò)了之前的表現(xiàn)自阱。
2 相關(guān)工作
FaceClustering 人臉聚類(lèi)任務(wù)軟化人臉大規(guī)模樣本和復(fù)雜數(shù)據(jù)分布嚎莉,因此引起了特別的研究關(guān)注。經(jīng)典的無(wú)監(jiān)督方法速度很慢沛豌,并且由于其簡(jiǎn)單的分布假設(shè)無(wú)法實(shí)現(xiàn)良好的性能趋箩,例如 K-Means 中的凸形數(shù)據(jù)(Lloyd,1982)和 DBSCAN 中相似的數(shù)據(jù)密度(Ester et al.加派,1996))叫确。近年來(lái),基于 GCN 的監(jiān)督方法被證明對(duì)人臉聚類(lèi)有效且高效芍锦。 L-GCN (Wang et al., 2019b) 部署了一個(gè) GCN 用于子圖的鏈接預(yù)測(cè)竹勉。 DS-GCN (Yang et al., 2019) 和 VE-GCN (Yang et al., 2020) 都提出了基于大 kNN 圖的兩階段 GCN 聚類(lèi)。 DA-Net (Guo et al., 2020) 通過(guò)基于密度的圖利用非本地上下文信息進(jìn)行聚類(lèi)娄琉。 Clusformer (Nguyen et al., 2021) 將人臉與變壓器進(jìn)行聚類(lèi)次乓。 STAR-FC (Shen et al., 2021) 開(kāi)發(fā)了一種結(jié)構(gòu)保留的采樣策略來(lái)訓(xùn)練邊緣分類(lèi) GCN。這些成就展示了 GCN 在表示和聚類(lèi)方面的強(qiáng)大功能孽水。然而票腰,現(xiàn)有方法大多基于kNN構(gòu)建人臉圖,其中包含大量噪聲邊緣女气。在構(gòu)建這些圖時(shí)杏慰,僅根據(jù)并不總是準(zhǔn)確的深度特征來(lái)獲得頂點(diǎn)之間的相似度,并且每個(gè)頂點(diǎn)的邊數(shù)是固定的或由相似度閾值確定。
Graph Convolutional Networks GCN 被提出來(lái)處理非歐幾里得數(shù)據(jù)逃默,并在學(xué)習(xí)圖模式方面展示了它們的能力鹃愤。它最初用于轉(zhuǎn)導(dǎo)式半監(jiān)督學(xué)習(xí) (Kipf & Welling, 2017),并由學(xué)習(xí)特征聚合原理的 GraphSAGE (Hamilton et al., 2017) 擴(kuò)展到歸納任務(wù)完域。為了進(jìn)一步擴(kuò)展 GCN 的表示能力软吐,可學(xué)習(xí)的邊權(quán)重被引入到圖注意網(wǎng)絡(luò) (GAT) 中的圖聚合中 (Velickovic et al., 2018)。除了人臉聚類(lèi)吟税,GCN 還用于許多任務(wù)凹耙,例如基于骨架的動(dòng)作識(shí)別 (Yan et al., 2018)、知識(shí)圖譜 (Schlichtkrull et al., 2018) 和推薦系統(tǒng) (Ying et al., 2018) .然而肠仪,這些方法是在結(jié)構(gòu)數(shù)據(jù)上提出的肖抱,其中明確給出了邊緣。如果圖形是由大量噪聲邊緣構(gòu)成的异旧,則 GCN 在人臉圖像數(shù)據(jù)集上可能表現(xiàn)不佳意述。
圖 2:Ada-NETS 的框架。 (一世)吮蛹。將特征轉(zhuǎn)換到結(jié)構(gòu)空間以獲得更好的相似度度量荤崇。 (二)。每個(gè)頂點(diǎn)的鄰居由自適應(yīng)濾波器發(fā)現(xiàn)潮针。 (三)术荤。使用 (II) 發(fā)現(xiàn)的鄰居關(guān)系構(gòu)建圖,GCN 模型使用該圖對(duì)頂點(diǎn)對(duì)進(jìn)行分類(lèi)每篷。最終的聚類(lèi)結(jié)果是使用來(lái)自 GCN 的嵌入來(lái)鏈接具有高相似性的頂點(diǎn)對(duì)獲得的瓣戚。
3 方法論
人臉聚類(lèi)旨在將一組人臉樣本進(jìn)行分組,使一個(gè)組中的樣本屬于一個(gè)身份焦读,不同組中的任意兩個(gè)樣本屬于不同的身份子库。給定一組特征向量 V = {v1,v2,...,vi,...,vN | vi ∈ RD} 由經(jīng)過(guò)訓(xùn)練的 CNN 模型從人臉圖像中提取,聚類(lèi)任務(wù)為每個(gè)向量 vi 分配一個(gè)組標(biāo)簽矗晃。 N是樣本總數(shù)刚照,D是每個(gè)特征的維度。提出了如圖 2 所示的 Ada-NETS 算法喧兄,通過(guò)處理人臉圖中的噪聲邊緣來(lái)對(duì)人臉進(jìn)行聚類(lèi)无畔。首先,將特征轉(zhuǎn)換為提出的結(jié)構(gòu)空間以獲得準(zhǔn)確的相似度度量吠冤。然后使用自適應(yīng)鄰居發(fā)現(xiàn)策略為每個(gè)頂點(diǎn)查找鄰居浑彰。根據(jù)發(fā)現(xiàn)結(jié)果,構(gòu)建一個(gè)具有干凈和豐富邊緣的圖作為 GCN 的輸入圖拯辙,用于最終聚類(lèi)郭变。
3.1 結(jié)構(gòu)空間
噪聲邊緣問(wèn)題會(huì)導(dǎo)致頂點(diǎn)特征的污染颜价,降低基于 GCN 的聚類(lèi)的性能。僅僅根據(jù)它們的深度特征很難確定兩個(gè)頂點(diǎn)是否屬于同一類(lèi)诉濒,因?yàn)椴煌?lèi)的兩個(gè)頂點(diǎn)也可以具有很高的相似性周伦,從而引入噪聲邊緣。不幸的是未荒,據(jù)我們所知专挪,幾乎所有現(xiàn)有方法(Wang 等人,2019b片排;Yang 等人寨腔,2020;Guo 等人率寡,2020迫卢;Shen 等人,2021)僅基于成對(duì)余弦構(gòu)建圖使用深度特征的頂點(diǎn)之間的相似性冶共。實(shí)際上乾蛤,可以通過(guò)考慮結(jié)構(gòu)信息來(lái)改進(jìn)相似度度量,即數(shù)據(jù)集圖像之間的鄰域關(guān)系捅僵〖衣簦基于這一思想,提出了結(jié)構(gòu)空間的概念來(lái)應(yīng)對(duì)這一挑戰(zhàn)命咐。在結(jié)構(gòu)空間中,特征可以通過(guò)感知數(shù)據(jù)分布來(lái)編碼更多的紋理信息谐岁,從而更加穩(wěn)酱椎臁(Zhang et al., 2020)。一個(gè)轉(zhuǎn)換函數(shù) φ 被部署來(lái)將一個(gè)特征 vi 轉(zhuǎn)換為結(jié)構(gòu)空間伊佃,記為 vis:
vis = φ(vi|V),?i ∈ {1,2,··· ,N}窜司。 (1)
如圖2(I)所示,在結(jié)構(gòu)空間的幫助下航揉,對(duì)于一個(gè)頂點(diǎn)vi塞祈,它與其他頂點(diǎn)的相似度通過(guò)以下步驟計(jì)算:首先,通過(guò)近似最近鄰(Approximate Nearest-neighbour)獲得vi的kNN( ANN) 算法基于 vi 與其他頂點(diǎn)之間的余弦相似度帅涂,記為 N (vi, k) = {vi1 , vi2 , ···, vik }议薪。其次,通過(guò)核方法 (Shawe-Taylor & Cristianini, 2004) 進(jìn)行激勵(lì)媳友,我們不是直接求解 φ 的形式斯议,而是通過(guò)以下方式定義 vi 與其在結(jié)構(gòu)空間中的每個(gè)候選者的相似性
κ??v,v =??vs,vs?? iij iij
(2) 其中 η 加權(quán)余弦相似度 scos ??v ,v ?? = vi·vij 和 Jaccard 相似度
??(1?η)sJac??v,v ??+ηscosv,v , ?j∈{1,2,···,k}, i ij i ij
i ij ∥vi∥∥vij ∥
sJac ??v , v ?? 受到基于公共鄰居的度量的啟發(fā)(Zhong et al., 2017)。和
我
上面的定義醇锚, κ ??v , v 測(cè)量 v 和 v 在結(jié)構(gòu)空間中的相似性哼御。
iij i ij 3.2 自適應(yīng)鄰居發(fā)現(xiàn)
現(xiàn)有方法通過(guò)深度特征(Wang 等人坯临,2019b;Yang 等人恋昼,2020看靠;Shen 等人,2021)或使用固定的相似度閾值(Guo 等人液肌,2020)從樸素的 kNN 關(guān)系中連接邊緣挟炬。這些方法都是一刀切的解決方案,超參數(shù)對(duì)性能有很大影響矩屁。為了解決這個(gè)問(wèn)題辟宗,提出了自適應(yīng)鄰居發(fā)現(xiàn)模塊來(lái)學(xué)習(xí)每個(gè)頂點(diǎn)周?chē)奶卣髂J剑鐖D2(II)所示吝秕。
對(duì)于頂點(diǎn)vi泊脐,其大小為j的候選鄰居是基于深度特征相似度的j個(gè)最近鄰居頂點(diǎn),其中j = 1, 2,····,k烁峭。它的鄰居是指一個(gè)特定大小的候選鄰居容客,滿(mǎn)足如下所述的某些特定標(biāo)準(zhǔn)。 vi 與其所有鄰居之間的邊被構(gòu)造约郁。
3.2.1 候選鄰居質(zhì)量標(biāo)準(zhǔn)
受頂點(diǎn)置信度估計(jì)方法 (Yang et al., 2020) 的啟發(fā)缩挑,設(shè)計(jì)了一種啟發(fā)式標(biāo)準(zhǔn)來(lái)評(píng)估每個(gè)探測(cè)頂點(diǎn)的候選鄰居的質(zhì)量。好鄰居應(yīng)該是干凈的鬓梅,即大多數(shù)鄰居應(yīng)該與探測(cè)頂點(diǎn)具有相同的類(lèi)標(biāo)簽供置,這樣在構(gòu)建圖時(shí)就不會(huì)大量包含噪聲邊緣。鄰居也應(yīng)該是豐富的绽快,這樣消息才能在圖中完全傳遞芥丧。為了滿(mǎn)足這兩個(gè)原則,在信息檢索中根據(jù)Fβ-score(Rijsbergen坊罢,1979)提出了標(biāo)準(zhǔn)续担。與視覺(jué)語(yǔ)法類(lèi)似(Nguyen et al., 2021),所有候選鄰居都按照與序列中探測(cè)頂點(diǎn)的相似度排序活孩。給定由頂點(diǎn) vi 探測(cè)到的大小為 j 的候選鄰居物遇,其質(zhì)量標(biāo)準(zhǔn) Q (j) 定義為:
其中 P rj 和 Rcj 是前 j 個(gè)候選鄰居相對(duì)于 vi 的標(biāo)簽的精度和召回率。 β 是權(quán)重平衡精度和召回率憾儒。較高的 Q 值表示更好的候選鄰居質(zhì)量询兴。
3.2.2 自適應(yīng)濾波器
使用上述標(biāo)準(zhǔn),koff 被定義為要選擇的鄰居數(shù)量的啟發(fā)式真實(shí)值:
3.3 用于人臉聚類(lèi)的 ADA-NETS
為了有效解決人臉聚類(lèi)中的噪聲邊緣問(wèn)題起趾,Ada-NETS 首先利用所提出的結(jié)構(gòu)空間和自適應(yīng)鄰居發(fā)現(xiàn)來(lái)構(gòu)建具有干凈和豐富邊緣的圖蕉朵。然后使用 GCN 模型完成該圖中的聚類(lèi),如圖 2(III)所示阳掐。使用上述結(jié)構(gòu)空間中的相似度度量和自適應(yīng)鄰居發(fā)現(xiàn)方法始衅,頂點(diǎn)vi的發(fā)現(xiàn)鄰居表示為N s(vi, k):
其中 Ind 表示按 κ ??v , v ?? 降序排列的 v 的索引冷蚂。基于這些鄰居關(guān)系汛闸,如果其中任何一個(gè)是另一個(gè)已發(fā)現(xiàn)的鄰居蝙茶,則通過(guò)鏈接兩個(gè)頂點(diǎn)之間的邊來(lái)生成無(wú)向圖 G (F, A)。 F = [v1 , v2 , ··· , vN ]T 為頂點(diǎn)特征矩陣诸老,A 為鄰接矩陣:
通過(guò)構(gòu)建的圖 G(F,A)隆夯,使用 GCN 模型來(lái)學(xué)習(xí)兩個(gè)頂點(diǎn)是否屬于同一類(lèi)。一個(gè) GCN 層定義為:
其中 A ? = A + I, I ∈ RN ×N 是單位矩陣别伏,D ? 是對(duì)角度矩陣 D ? ii = ??Nj=1 A ? i,j , Fl 和 Wl 分別是輸入特征矩陣和第 l 層的權(quán)重矩陣蹄衷,和
σ(·) 是一個(gè)激活函數(shù)。本文使用了兩個(gè) GCN 層厘肮,然后是一個(gè)具有 PReLU (He et al., 2015) 激活和一個(gè)歸一化的 FC 層愧口。對(duì)于一批隨機(jī)采樣的頂點(diǎn) Bv,訓(xùn)練損失定義為鉸鏈損失的變體版本(Rosasco et al., 2004):
其中 yvi,vj 是批次 Bv 中兩個(gè)頂點(diǎn) vi 和 vj 的 GCN 輸出特征 v′i 和 v′j 的余弦相似度类茂,[·]+ = max(0,·)耍属,∥li = lj∥ 是正對(duì)的數(shù)量,即vi的ground-truth標(biāo)簽li和vj的ground-truth標(biāo)簽lj相同巩检; β1 和 β2 是正負(fù)損失的邊際厚骗,λ 是平衡這兩個(gè)損失的權(quán)重。
在推理過(guò)程中兢哭,將測(cè)試數(shù)據(jù)的整個(gè)圖輸入到 GCN 中领舰,得到所有頂點(diǎn)的增強(qiáng)特征 F′ = [v′1, v′2, ···, v′N(xiāo) ]T ∈ RN×D′,其中 D′是每個(gè)新特征的維度迟螺。
當(dāng)頂點(diǎn)對(duì)的相似度分?jǐn)?shù)大于預(yù)定義的閾值 θ 時(shí)冲秽,它們將被鏈接。最后煮仇,聚類(lèi)是通過(guò)使用聯(lián)合查找算法傳遞合并所有鏈接來(lái)完成的劳跃,即無(wú)等待并行算法(Anderson & Woll谎仲,1991)浙垫。
4 項(xiàng)實(shí)驗(yàn)
4.1 評(píng)估指標(biāo)、數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置
Signal-Noise Rate (SNR) 和 Q-value 用于直接評(píng)估圖構(gòu)建的質(zhì)量郑诺,其中 SNR 是圖中正確邊數(shù)與噪聲邊數(shù)之比夹姥。 BCubed F-score FB (Bagga & Baldwin, 1998; Amigo ? et al., 2009) 和 Pairwise F-score FP (Shi et al., 2018) 用于評(píng)估最終的聚類(lèi)性能。
實(shí)驗(yàn)中使用了三個(gè)數(shù)據(jù)集:MS-Celeb-1M (Guo et al., 2016; Deng et al., 2019) 是一個(gè)大規(guī)模的人臉數(shù)據(jù)集辙诞,經(jīng)過(guò)數(shù)據(jù)清洗后包含 86K 身份的約 580 萬(wàn)張人臉圖像辙售。為了公平比較,我們遵循與 VE-GCN (Yang et al., 2019) 相同的協(xié)議和特征飞涂,將數(shù)據(jù)集按身份平均分為十部分旦部,并將第 0 部分作為訓(xùn)練集祈搜,將第 1 部分到第 9 部分作為訓(xùn)練集測(cè)試集。除了人臉數(shù)據(jù)士八,Ada-NETS 還被評(píng)估為在聚類(lèi)其他對(duì)象方面的潛力容燕。服裝數(shù)據(jù)集 DeepFashion (Liu et al., 2016) 使用與 VE-GCN (Yang et al., 2020) 相同的子集、分割設(shè)置和特征婚度,其中有 3,997 個(gè)類(lèi)別的 25,752 張圖像用于訓(xùn)練蘸秘,26,960 張圖像用于測(cè)試的 3,984 個(gè)類(lèi)別。 MSMT17 (Wei et al., 2018) 是目前最大的 ReID 數(shù)據(jù)集蝗茁。它的圖像是在不同的天氣醋虏、光照條件和時(shí)間段下從 15 個(gè)攝像機(jī)捕獲的,這對(duì)聚類(lèi)具有挑戰(zhàn)性哮翘。有 1,041 個(gè)人的 32,621 張圖像用于訓(xùn)練颈嚼,3,060 個(gè)人的 93,820 張圖像用于測(cè)試。特征是從在訓(xùn)練集上訓(xùn)練的模型中獲得的(He et al., 2020)忍坷。
學(xué)習(xí)率最初是 0.01 用于訓(xùn)練自適應(yīng)濾波器粘舟,0.1 用于訓(xùn)練具有余弦退火的 GCN。對(duì)于 Huberloss佩研,δ=1柑肴,β1 =0.9,β2 =1.0旬薯,對(duì)于 Hingleloss晰骑,λ=1,對(duì)于 Q 值绊序,β=0.5硕舆。使用動(dòng)量為 0.9 且權(quán)重衰減為 1e-5 的 SGD 優(yōu)化器。 k 在 MS-Celeb-1M骤公、DeepFashion 和 MSMT17 上設(shè)置為 80抚官、5、40阶捆。實(shí)驗(yàn)是使用 PyTorch (Paszke et al., 2019) 和 DGL (Wang et al., 2019a) 進(jìn)行的凌节。
4.2 方法比較
在具有不同數(shù)量未標(biāo)記圖像的 MS-Celeb-1M 數(shù)據(jù)集上評(píng)估人臉聚類(lèi)性能。比較方法包括經(jīng)典的聚類(lèi)方法 K-Means (Lloyd, 1982)洒试、HAC (Sibson, 1973)倍奢、DBSCAN (Ester et al., 1996) 和基于圖的方法 L-GCN (Wang et al., 2019b)、DS -GCN (Yang et al., 2019)垒棋、VE-GCN (Yang et al., 2020)卒煞、DA-Net (Guo et al., 2020)、Clusformer (Nguyen et al., 2021) 和 STAR-FC (Shen等人叼架,2021)畔裕。在本節(jié)中衣撬,為了進(jìn)一步增強(qiáng) GCN 的聚類(lèi)性能,在訓(xùn)練圖中添加了一些噪聲扮饶。表 1 中的結(jié)果表明淮韭,所提出的 Ada-NETS 在所有測(cè)試中都達(dá)到了最佳性能(θ = 0.96),在 584K 未標(biāo)記數(shù)據(jù)上的 BCubed F-score 比 STAR-FC 高 1.19%贴届,達(dá)到 91.40%靠粪。隨著未標(biāo)記圖像數(shù)量的增加,所提出的 Ada-NETS 保持了優(yōu)越的性能毫蚓,揭示了圖構(gòu)建在大規(guī)模聚類(lèi)中的重要性占键。
為了進(jìn)一步評(píng)估我們的方法在非人臉聚類(lèi)任務(wù)中的泛化能力,還對(duì) DeepFashion 和 MSMT17 進(jìn)行了比較元潘。如表 2 所示畔乙,Ada-NETS 在衣服和人物聚類(lèi)任務(wù)中取得了最佳性能狸窘。與 STAR-FC 相比哲身,衣服聚類(lèi)的 Pairwise F-score 為 37.07%止状,達(dá)到了驚人的 39.30%胖齐,人物聚類(lèi)的 Pairwise F-score 為 58.80%,達(dá)到了 64.05%襟企。
4.3 消融研究
結(jié)構(gòu)空間和自適應(yīng)鄰居發(fā)現(xiàn)的研究 表 3 評(píng)估了結(jié)構(gòu)空間和自適應(yīng)鄰居發(fā)現(xiàn)的貢獻(xiàn)寒随。將構(gòu)建圖的 SNR 與 BCubed 和 Pairwise F 分?jǐn)?shù)進(jìn)行比較爹土∑酪蹋可以觀察到难述,結(jié)構(gòu)空間和自適應(yīng)鄰居發(fā)現(xiàn)都有助于性能提升,其中自適應(yīng)鄰居發(fā)現(xiàn)貢獻(xiàn)更大吐句。使用這兩個(gè)組件胁后,圖的 SNR 大大提高了 13.38 倍,聚類(lèi)性能也大大提高嗦枢。圖 4 中的每一行顯示了以第一張圖像作為探針的發(fā)現(xiàn)結(jié)果攀芯,按結(jié)構(gòu)空間中的相似性排序。帶有藍(lán)色圓圈的圖像與探針具有相同的身份文虏。它們都成功地在結(jié)構(gòu)空間中獲得了比代表不同身份的紅色三角形更大的相似性侣诺。在自適應(yīng)濾波器的幫助下,黃色垂直線(xiàn)之后的圖像被過(guò)濾掉择葡,保持干凈和豐富的鄰居紧武。如果沒(méi)有自適應(yīng)濾波器剃氧,帶有紅色三角形的圖像將與其探頭連接敏储,導(dǎo)致探頭污染。
質(zhì)量標(biāo)準(zhǔn)研究 根據(jù)等式3朋鞍,該標(biāo)準(zhǔn)包含一個(gè)超參數(shù)β已添。較小的 β 更強(qiáng)調(diào)精確度妥箕,更大的 β 更強(qiáng)調(diào)召回。我們選擇三個(gè)最常用的值 β ∈ {0.5, 1.0, 2.0} 來(lái)研究它如何影響鄰居發(fā)現(xiàn)和聚類(lèi)更舞。表 4 顯示了 Ada-NETS 在原始(表示為 Ori.)和結(jié)構(gòu)空間(表示為 Str.)中不同 β 下的性能畦幢。 Qbefore 和 Qafter 是大小為 k 和 koff 的候選鄰居的 Q 值。 FP和FB是koff下對(duì)應(yīng)的聚類(lèi)性能缆蝉∮畲校可以觀察到,在所有情況下刊头,Qafter 與 Qbefore 相比都有明顯的提高黍瞧。對(duì)于相同的β,結(jié)構(gòu)空間比原始空間的改進(jìn)更明顯原杂。如上所述印颤,較高的 Q 值表示更好的候選鄰居質(zhì)量,例如穿肄,更多的噪聲邊緣將被消除(干凈)或更多正確的邊緣將在圖中保留(豐富)年局。因此,結(jié)構(gòu)空間中的聚類(lèi)性能也如預(yù)期的那樣高于原始空間咸产。此外矢否,β = 0.5 在兩個(gè)空間中均實(shí)現(xiàn)了最佳聚類(lèi)性能,而在結(jié)構(gòu)空間中的敏感度要低得多脑溢,達(dá)到 95.51% Pairwise F-score 和 94.93% BCubed F-score兴喂。這表明了特征表示在結(jié)構(gòu)空間中的魯棒性。
學(xué)習(xí)頭自適應(yīng)過(guò)濾器
建議使用自適應(yīng)過(guò)濾器從候選鄰居中選擇鄰居焚志。與直接在自適應(yīng)濾波器中回歸 koff 的估計(jì)方法(稱(chēng)為 Ekreg)相比衣迷,還研究了其他一些估計(jì)方法: Ekcls 將 koff 估計(jì)表示為 k-
分類(lèi)任務(wù); EQseq 直接回歸所有 j 的 Q 值酱酬; EQparam 用二次曲線(xiàn)擬合關(guān)于 j 的 Q 值壶谒,并估計(jì)該曲線(xiàn)的參數(shù)。表 5 中的結(jié)果表明膳沽,估計(jì) koff 的 Ekreg 和 Ekcls 獲得的性能明顯高于估計(jì) koff 的 EQseq 和 EQparam
估計(jì) Q 值汗菜。與 Ekcls 相比,Ekreg 取得了接近的結(jié)果挑社,但需要學(xué)習(xí)的參數(shù)更少陨界。 GAT 也通過(guò)注意力機(jī)制進(jìn)行了比較以消除噪聲邊緣,但由于復(fù)雜的特征模式而沒(méi)有獲得有競(jìng)爭(zhēng)力的結(jié)果(Yang et al., 2020)痛阻。
對(duì) k 的敏感性研究 圖 5 (a) 顯示了具有 k 方差的聚類(lèi)性能菌瘪。 “kNN”表示直接選擇最近的k個(gè)鄰居來(lái)構(gòu)建圖,就像現(xiàn)有方法(Yang et al., 2020; Shen et al., 2021)一樣,“Structure kNN”表示在N(v)的結(jié)構(gòu)空間中選擇kNN , 256)俏扩。盡管在結(jié)構(gòu)空間中有所幫助糜工,但兩種 kNN 方法都對(duì) k 敏感,因?yàn)楫?dāng) k 增加時(shí)會(huì)包含更多的噪聲邊緣录淡。然而捌木,所提出的 Ada-NETS 可以相對(duì)穩(wěn)定地獲得良好的性能,表明我們的方法可以有效地提供干凈和豐富的鄰居來(lái)為 GCNs 構(gòu)建圖嫉戚。
圖嵌入的研究 在 Ada-NETS 中刨裆,GCN 模塊用于生成分布更緊湊的特征,因此更適合聚類(lèi)彬檀。十億個(gè)隨機(jī)選擇的對(duì)的 ROC 曲線(xiàn)如圖 5 (b) 所示崔拥。觀察到原始特征嵌入 (OFE) 獲得了最差的 ROC 性能,而所提出的 GCN 輸出的圖嵌入 (GE) 得到了大幅增強(qiáng)凤覆。在自適應(yīng)鄰居發(fā)現(xiàn)(GE + AND)的幫助下链瓦,輸出特征更具辨別力。當(dāng)發(fā)現(xiàn)應(yīng)用在結(jié)構(gòu)空間(GE + AND + SS)時(shí)盯桦,GCN 可以輸出最具區(qū)分性的特征慈俯。通過(guò) PCA (Pearson, 1901) 對(duì) 10 個(gè)隨機(jī)選擇的身份進(jìn)行降維后嵌入的分布如圖 5 (c) 所示∮德停可以觀察到贴膘,在圖 5(b)中,一種特征嵌入的 ROC 性能越好略号,它的嵌入對(duì)于某個(gè)身份就越緊湊刑峡。有了更好的特征嵌入,聚類(lèi)可以重新開(kāi)始玄柠。這些“GE + AND + SS”的判別圖嵌入被用作Ada-NETS的輸入突梦,以獲得最終的聚類(lèi)結(jié)果進(jìn)行增強(qiáng)(θ = 0.99)。在表 6 中羽利,將 MS-Celeb-1M 上的聚類(lèi)結(jié)果與使用原始特征嵌入的聚類(lèi)結(jié)果進(jìn)行了比較宫患。據(jù)觀察,圖嵌入進(jìn)一步將 Ada-NETS 從最先進(jìn)的水平提高到了顯著的 93.74% 的 Pairwise F-score这弧,在 584K 未標(biāo)記數(shù)據(jù)上再次實(shí)現(xiàn)了近 1% 的改進(jìn)娃闲。
5 結(jié)論
本文提出了一種新的 Ada-NETS 算法來(lái)處理在基于 GCN 的人臉聚類(lèi)中構(gòu)建圖時(shí)的噪聲邊緣問(wèn)題。在 Ada-NETS 中匾浪,首先將特征轉(zhuǎn)換為結(jié)構(gòu)空間以提高相似度度量的準(zhǔn)確性皇帮。然后使用自適應(yīng)鄰居發(fā)現(xiàn)方法在啟發(fā)式質(zhì)量標(biāo)準(zhǔn)的指導(dǎo)下自適應(yīng)地為所有樣本尋找鄰居〉氨玻基于發(fā)現(xiàn)的鄰居關(guān)系属拾,構(gòu)建具有干凈和豐富邊緣的圖作為 GCN 的輸入,以獲得人臉、衣服和人物聚類(lèi)任務(wù)的最新技術(shù)捌年。