人臉聚類由于其在實(shí)踐中的廣泛應(yīng)用而成為一項(xiàng)重要任務(wù)夜矗∮樱基于圖的人臉聚類方法最近取得了長足的進(jìn)步撤师,并取得了最新的技術(shù)成果佳励。學(xué)習(xí)區(qū)分節(jié)點(diǎn)特征是進(jìn)一步提高基于圖形的面部聚類性能的關(guān)鍵赃承。為此瞧剖,大多數(shù)以前的方法都將重點(diǎn)放在新的虧損功能上,例如基于保證金的虧損或中心虧損捉撮。在本文中巾遭,我們提出子空間學(xué)習(xí)作為學(xué)習(xí)判別節(jié)點(diǎn)特征的新方法,該方法是通過新的正交子空間分解(OSD)模塊實(shí)現(xiàn)的骑素。在基于圖的人臉聚類中献丑,OSD導(dǎo)致了更具區(qū)分性的節(jié)點(diǎn)特征光督,可以更好地反映每對人臉之間的關(guān)系结借,從而提高了人臉聚類的準(zhǔn)確性船老。大量的實(shí)驗(yàn)表明柳畔,OSD可以以合理的幅度勝過最新的結(jié)果薪韩。
人臉聚類已經(jīng)被研究了好幾年罗捎,因?yàn)樗哂袕V泛的應(yīng)用桨菜,例如在線相冊(Zhu等人泻红,2011)谊路,自動(dòng)數(shù)據(jù)標(biāo)記或數(shù)據(jù)集構(gòu)建的清理(Nech&Kemelmacher-Shlizerman凶异,2017; Guo等人。 (2016年; Zhan等人酷麦,2018年),以及人臉圖像或視頻管理Klontz&Jain(2013年)沃饶。已經(jīng)提出了幾種傳統(tǒng)的人臉聚類算法并將其應(yīng)用于提取的人為手工制作的或深層的人臉特征(Lloyd,1982; Shi&Malik糊肤,2000; Ester等琴昆,1996; Zhao等,2006; You等业舍。 升酣,2016)噩茄。但是沥割,這些算法通常依賴于不同的數(shù)據(jù)分布假設(shè)芹彬,這限制了它們的適用性。因此叉庐,近年來提出了一些基于圖的聚類方法(Wang et al舒帮。,2019; Yang et al陡叠。玩郊,2019; 2020; Zhang et al。枉阵,2020)译红,這些方法沒有對數(shù)據(jù)分布進(jìn)行任何假設(shè)。這些基于圖的方法在面部聚類基準(zhǔn)上獲得了最新的最新結(jié)果兴溜。
學(xué)習(xí)判別性節(jié)點(diǎn)表示形式可以是進(jìn)一步提高基于圖的聚類方法性能的一種方式侦厚。先前的大多數(shù)方法都提出了新的損失函數(shù)來學(xué)習(xí)判別特征,例如中心損失(Wen等人拙徽,2016)和AM-Softmax損失(Wang等人刨沦,2018b; a)。但是膘怕,這些損失函數(shù)在訓(xùn)練期間直接用于神經(jīng)網(wǎng)絡(luò)想诅,而無需考慮過濾噪聲或?qū)W習(xí)特征的冗余信息。但是從特征中去除噪聲或冗余信息是獲得更具歧視性表示的好策略(Lin等人岛心,2016; Chinta&Murty来破,2012; Shang等人,2019; Sun等人忘古,2019)徘禁,并且此過程稱為功能選擇侧到。因此黔宛,我們提出了一種從特征選擇的角度學(xué)習(xí)判別特征的新方法。子空間學(xué)習(xí)是特征選擇的經(jīng)典方法丈牢,可以有效消除冗余和噪聲旦袋。但是骤菠,以前用于特征選擇的子空間學(xué)習(xí)方法(Wang等,2015a疤孕; Shang等商乎,2020; Wang等祭阀,2015b鹉戚; Shang等鲜戒,2019)不能與神經(jīng)網(wǎng)絡(luò)或圖卷積網(wǎng)絡(luò)結(jié)合使用。 (GCN)和端到端訓(xùn)練抹凳,因?yàn)檫@些方法無法通過基于梯度的算法進(jìn)行優(yōu)化遏餐。因此,我們提出了一個(gè)正交子空間分解(OSD)模塊赢底,該模塊可以與神經(jīng)網(wǎng)絡(luò)和GCN結(jié)合使用以進(jìn)行特征選擇和學(xué)習(xí)判別性節(jié)點(diǎn)特征失都。
考慮到基于圖的人臉聚類方法的優(yōu)勢,我們選擇將OSD利用到Wang等人提出的實(shí)例樞軸子圖(IPS)中幸冻。 (2019)粹庞。圍繞每個(gè)實(shí)例(數(shù)據(jù)透視)構(gòu)建IPS,以描述本地上下文洽损,每個(gè)節(jié)點(diǎn)都模擬一個(gè)數(shù)據(jù)透視鄰居庞溜。對于每個(gè)樞軸-鄰居對,如果鄰居節(jié)點(diǎn)和樞軸節(jié)點(diǎn)具有相同的標(biāo)識(shí)碑定,則應(yīng)將它們鏈接在一起流码。因此,人臉聚類任務(wù)也可以看作是人臉局部圖上的預(yù)測問題延刘,其中表示相同身份的人臉鏈接在一起漫试。在本文中,“正”節(jié)點(diǎn)是指應(yīng)鏈接到樞軸的鄰居節(jié)點(diǎn)访娶,而“負(fù)”節(jié)點(diǎn)是指不應(yīng)鏈接的鄰居節(jié)點(diǎn)商虐。
圖1中的一個(gè)簡單示例解釋了OSD背后的主要思想:灰色和黃色點(diǎn)表示IPS中的輸入節(jié)點(diǎn)特征,其基本事實(shí)分別為正和負(fù)崖疤,并且它們位于輸入空間中。鏈接預(yù)測(LP)用于將輸入節(jié)點(diǎn)特征轉(zhuǎn)換為12歸一化節(jié)點(diǎn)特征并將其分類為兩類典勇。 OSD的目的是學(xué)習(xí)可以分解為兩個(gè)正交子空間的新空間劫哼,并使12歸一化的節(jié)點(diǎn)特征(即綠點(diǎn)和紅點(diǎn))分別位于兩個(gè)子空間中。在“兩個(gè)正交子空間”中割笙,以一個(gè)子空間為基礎(chǔ)的任何基本矢量都與以另一子空間為基礎(chǔ)的任何基本矢量正交权烧,并且同時(shí),以每個(gè)子空間為基礎(chǔ)的基本矢量都彼此正交伤溉。其他般码。例如,我們假設(shè)新近學(xué)習(xí)的空間是歐幾里得空間R3乱顾,其中每個(gè)點(diǎn)都可以用(x板祝,y,z)表示走净。直觀地券时,歐幾里得空間R3可以分解成兩個(gè)正交的子空間孤里,即(x,y橘洞,0)和(0捌袜,0,z)炸枣。從OSD學(xué)習(xí)到的標(biāo)準(zhǔn)化的正負(fù)節(jié)點(diǎn)特征分別位于這兩個(gè)正交子空間中虏等。通過這樣做,OSD實(shí)現(xiàn)了功能選擇過程适肠。由于要求OSD將學(xué)習(xí)到的12歸一化節(jié)點(diǎn)特征的某些維度歸零霍衫,因此必須選擇冗余或噪聲以進(jìn)行過濾,結(jié)果只能保留重要和有用的信息迂猴。當(dāng)OSD執(zhí)行特征選擇時(shí)慕淡,由于損失函數(shù)(例如,具有softmax的交叉熵?fù)p失)僅在重要的維度上執(zhí)行沸毁,因此新學(xué)習(xí)的l2歸一化特征將更易于分類或緊密聚類峰髓。表示形式。此外息尺,OSD中的正交性還引入了固定余量携兵,以更好地區(qū)分兩種類型的節(jié)點(diǎn),尤其是對于某些硬樣本搂誉。如圖1所示徐紧,學(xué)習(xí)到的12歸一化節(jié)點(diǎn)特征使一對節(jié)點(diǎn)的歐幾里得距離落入范圍[0,2]炭懊,對于位于兩個(gè)子空間上的兩個(gè)節(jié)點(diǎn)并级,它們之間的距離應(yīng)為,理論上約為2侮腹。
本文的主要貢獻(xiàn)概述如下:
? 我們提出正交子空間合成(OSD)嘲碧,據(jù)我們所知,它是將子空間學(xué)習(xí)和特征選擇與神經(jīng)網(wǎng)絡(luò)相結(jié)合的第一種方法父阻。
? 我們從理論上證明愈涩,與某些正則化項(xiàng)結(jié)合使用時(shí),矩陣加法可以很好地近似于直接和加矛。因此履婉,我們提出了一種新的損失函數(shù),稱為空間重建(SR)損失斟览,該函數(shù)使OSD與圖卷積網(wǎng)絡(luò)(GCN)結(jié)合并以端到端的方式進(jìn)行訓(xùn)練毁腿。
? OSD不僅勝過設(shè)計(jì)用于學(xué)習(xí)區(qū)分特征的經(jīng)典損失函數(shù),例如中心損失(Wen等人,2016)和AM-Softmax損失(Wang等人狸棍,2018b身害; a),而且還超過了IJB-512草戈,IJB-1024塌鸯,IJB-1845(Whitelam等人,2017)和VoxCeleb2(Chung等人唐片,2018)的最新結(jié)果丙猬。
2相關(guān)工作
人臉聚類。在過去的幾年中费韭,提出了不同類型的傳統(tǒng)集群技術(shù)茧球。由于它們對數(shù)據(jù)分布的嚴(yán)格假設(shè),例如K均值(Lloyd星持,1982)和頻譜聚類(Shi&Malik抢埋,2000),其中一些并不十分適合于面部嵌入督暂。幾種新的聚類方法試圖克服它們的缺點(diǎn)揪垄。朱等。 (2011年)設(shè)計(jì)了一種新的親和度度量標(biāo)準(zhǔn)逻翁,稱為秩序距離饥努,它對噪聲和離群值更健壯。 Lin等八回。 (2017)提出了一種近似感知層次聚類(PAHC)方法酷愧,該方法采用線性SVM對本地正負(fù)實(shí)例進(jìn)行分類。還提出了一些凝聚層次聚類(AHC)算法(例如(Zhu等人缠诅,2011; Lin等人溶浴,2017; 2018)),以解決復(fù)雜數(shù)據(jù)分布的聚類問題管引。詹等戳葵。 (2018)訓(xùn)練了一個(gè)多層感知器(MLP)分類器,以聚集信息并發(fā)現(xiàn)健壯的鏈接汉匙,然后找到連接的組件以獲取最終的集群。為了學(xué)習(xí)低維嵌入和聚類分配生蚁,提出了編碼器-解碼器架構(gòu)(例如(Dizaji等人噩翠,2017; Xie等人,2016; Yang等人邦投,2017))伤锚。楊等。 (2016年)設(shè)計(jì)了一種循環(huán)范式志衣,以聯(lián)合更新聚類和要素表示屯援。 Shi等猛们。 (2017)提出了一種ConPac算法,該算法通過使用循環(huán)置信度傳播進(jìn)行優(yōu)化狞洋,以最大化鄰接矩陣的后驗(yàn)概率弯淘。最近,Yang等吉懊。 (2019)提出了一種基于檢測-分割范式的自頂向下方法庐橙,適用于結(jié)構(gòu)復(fù)雜的集群。 Wang等借嗽。 (2019)建立了IPS态鳖,并將GCN應(yīng)用于預(yù)測樞軸面嵌入與其kNN鄰居之間的鏈接。楊等恶导。 (2020)提出了一個(gè)由兩個(gè)部分組成的新的聚類框架浆竭。一個(gè)組件是估計(jì)頂點(diǎn)的置信度,而另一組件是估計(jì)邊緣連接性惨寿。張等邦泄。 (2020年)提出了一個(gè)由全球和本地GCN組成的兩階段GCN框架。前者對所有節(jié)點(diǎn)進(jìn)行全局分類缤沦,而后者則對本地的低置信度節(jié)點(diǎn)進(jìn)行分類虎韵。
用于特征選擇的子空間學(xué)習(xí)。有許多與子空間學(xué)習(xí)相關(guān)的作品缸废,在這里包蓝,我們僅關(guān)注近年來為特征選擇而設(shè)計(jì)的作品。 Wang等企量。 (2015a)提出了一種基于矩陣分解的無監(jiān)督特征選擇子空間學(xué)習(xí)方法测萎,該方法將子空間學(xué)習(xí)視為矩陣分解問題,并利用學(xué)習(xí)的特征選擇矩陣選擇重要特征届巩。 Wang等硅瞧。 (2015b)提出了一種無監(jiān)督方法,通過最小化投影誤差和冗余來獲得用于特征選擇的指標(biāo)矩陣恕汇。周等腕唧。 (2016年)提出了一種全局和局部結(jié)構(gòu)保留稀疏子空間學(xué)習(xí)(GLoSS)算法,該算法將幾何結(jié)構(gòu)信息保留在數(shù)據(jù)中瘾英。蔡等枣接。 (2010)通過將稀疏子空間學(xué)習(xí)與特征選擇相結(jié)合,設(shè)計(jì)了一種多集群特征選擇(MCFS)方法缺谴。 MCFS引入了頻譜分析技術(shù)但惶,并測量了不同特征之間的相關(guān)性以進(jìn)行特征選擇,從而使選定的特征可以最好地保留數(shù)據(jù)的簇結(jié)構(gòu)。 Gu等膀曾。 (2011年)通過使用L2,1-范數(shù)來增強(qiáng)變換矩陣的行稀疏性县爬,進(jìn)一步改進(jìn)了MCFS方法。 Shang等添谊。 (2019)提出了一種用于特征選擇的局部判別稀疏子空間學(xué)習(xí)方法财喳,旨在利用原始特征中包含的局部判別和幾何信息進(jìn)行特征選擇,因?yàn)榇祟愋畔τ趨^(qū)分?jǐn)?shù)據(jù)樣本很重要碉钠。 Shang等纲缓。 (2020)提出了一種新的算法,稱為子空間學(xué)習(xí)算法喊废,用于通過自適應(yīng)結(jié)構(gòu)學(xué)習(xí)和秩近似(SLASR)進(jìn)行無監(jiān)督特征選擇祝高,該算法自適應(yīng)地學(xué)習(xí)流形結(jié)構(gòu),以使保留的局部幾何結(jié)構(gòu)更準(zhǔn)確污筷,對噪聲更魯棒工闺。
3方法
OSD模塊的預(yù)備信息。 OSD模塊中的子空間分解由直接和實(shí)現(xiàn)(Kreyszig瓣蛀,1978)陆蟆。形式上,向量空間Z是Z的兩個(gè)子空間X和Y的直接和惋增,表示為Z = X⊕Y叠殷,如果每個(gè)z∈Z具有唯一的表示z = x + y,其中x∈X和y∈Y诈皿。我們稱Y為XinZ的代數(shù)補(bǔ)碼林束,反之亦然。直接和將兩個(gè)子空間的基礎(chǔ)結(jié)合起來稽亏,形成一個(gè)新的整個(gè)空間壶冒。在我們的方法中,我們假設(shè)OSD學(xué)習(xí)的l2標(biāo)準(zhǔn)化節(jié)點(diǎn)特征的空間是整個(gè)空間截歉。我們的目標(biāo)是學(xué)習(xí)兩個(gè)子空間胖腾,這兩個(gè)子空間的直接和是整個(gè)空間。這樣瘪松,我們還可以將兩個(gè)子空間視為從整個(gè)空間分解而來咸作。然而,直接和不能以端到端的方式用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)和訓(xùn)練宵睦,這給學(xué)習(xí)兩個(gè)子空間帶來了困難性宏。因此,我們提供以下定理(在附錄A中有證明)状飞,揭示了直接和與子空間矩陣加法之間的關(guān)系。 (為簡單起見,在本文中诬辈,我們將子空間的基本向量逐行組織為矩陣)酵使。
定理1.給定V的兩個(gè)子空間V1和V2。如果V = V1 + V2焙糟,則V1∩V2= {?0}等于V是V1和V2的直接和口渔。
上面的結(jié)果為我們的子空間分解提供了基礎(chǔ),因?yàn)槲覀兛梢院唵蔚貙蓚€(gè)子空間矩陣執(zhí)行加法運(yùn)算穿撮,通過引入正則化項(xiàng)來滿足該定理中的條件缺脉,從而近似它們的直接和,即悦穿,使兩個(gè)定理相交學(xué)習(xí)的子空間僅包含?0攻礼。實(shí)際上,如何設(shè)計(jì)正則化項(xiàng)來滿足此條件是一個(gè)懸而未決的問題栗柒。在這里礁扮,我們使一個(gè)子空間的基礎(chǔ)與另一子空間的基礎(chǔ)正交,因?yàn)閬碜詢蓚€(gè)子空間的任何兩個(gè)向量的內(nèi)積為零瞬沦。通過添加將兩個(gè)子空間矩陣的乘積強(qiáng)制為零矩陣的正則項(xiàng)可以輕松實(shí)現(xiàn)此正交性太伊。通過此正則項(xiàng)和矩陣加法,我們可以了解兩個(gè)分解子空間的基礎(chǔ)逛钻,并獲得整個(gè)空間的基礎(chǔ)僚焦。
當(dāng)學(xué)習(xí)到的l2標(biāo)準(zhǔn)化節(jié)點(diǎn)特征在整個(gè)空間中表示時(shí),它們中的每一個(gè)都可以唯一地分解為兩個(gè)子空間中的兩個(gè)特征向量曙痘,這直接由直接和的唯一性表示屬性決定:直接和芳悲,如果V是V1和V2的直接和,則可以通過v = v1 + v2將任何v∈V唯一分解為v1∈V1和v2∈V2屡江。因此芭概,特征到每個(gè)子空間的分解是唯一的,并且投影的特征彼此不相交惩嘉。對于l2-歸一化的節(jié)點(diǎn)特征罢洲,在將其分解為位于這兩個(gè)子空間中的兩個(gè)特征向量方面,有很多選擇文黎∪敲纾考慮到OSD旨在實(shí)現(xiàn)特征選擇(這是將維數(shù)歸零的過程),我們可以設(shè)計(jì)一些正則化項(xiàng)耸峭,以使每個(gè)子空間基礎(chǔ)上的基本向量彼此線性獨(dú)立桩蓉,并使正L2表示負(fù)子空間中的標(biāo)準(zhǔn)化節(jié)點(diǎn)特征為node0,反之亦然劳闹。這樣院究,OSD會(huì)強(qiáng)制過濾掉12維標(biāo)準(zhǔn)化的正負(fù)節(jié)點(diǎn)特征的某些維度洽瞬,因此,它應(yīng)該選擇重要信息以保留并歸零無用或多余的信息业汰。例如伙窃,子空間中的十二個(gè)標(biāo)準(zhǔn)化節(jié)點(diǎn)特征的表示可以視為特征與子空間矩陣的乘積,它是基于特征向量的子空間基礎(chǔ)的線性組合样漆。由于子空間的線性獨(dú)立特性为障,每個(gè)子空間的基礎(chǔ)僅包含零基向量和一組非零基向量。如果負(fù)節(jié)點(diǎn)特征所在的子空間中的歸一化正節(jié)點(diǎn)特征的表示為?0放祟,則對應(yīng)于非零基本向量的歸一化正節(jié)點(diǎn)特征的維數(shù)應(yīng)等于零鳍怨。1另外,如上所述跪妥,當(dāng)兩種類型的l2標(biāo)準(zhǔn)化節(jié)點(diǎn)特征僅位于其自己的子空間類型中時(shí)鞋喇,正交性在這兩種類型的l2標(biāo)準(zhǔn)化節(jié)點(diǎn)特征之間引入了固定的余量,從而導(dǎo)致對它們的區(qū)分性更高骗奖。
LP模塊确徙。 LP模塊,表示為LP(GCN-M)执桌,是通過按照Wang等人的GCN-M堆疊四個(gè)圖卷積層(GCL)構(gòu)造的GCN鄙皇。 (2019),將GCL與均值聚合器結(jié)合使用仰挣。詳細(xì)地伴逸,第一個(gè)GCL在輸入節(jié)點(diǎn)上執(zhí)行特征X∈RN×din,而其他GCL從上一層接收已轉(zhuǎn)換的特征膘壶。將最后一個(gè)圖卷積層的輸出節(jié)點(diǎn)特征進(jìn)行12歸一化错蝴,并形成一個(gè)矩陣Y∈RN×dout,將其饋送到分類(softmax)層進(jìn)行鏈接預(yù)測颓芭。這里顷锰,N是節(jié)點(diǎn)數(shù),而din和dout分別是輸入和輸出節(jié)點(diǎn)特征的維數(shù)亡问。
OSD模塊官紫。 OSD模塊(參見圖2)旨在學(xué)習(xí)兩個(gè)分解的正交子空間,這些子空間由兩個(gè)可學(xué)習(xí)的矩陣(表示為S1州藕,S2∈Rdout×dout)實(shí)現(xiàn)束世。因此,OSD在培訓(xùn)期間僅向整個(gè)框架引入了極少的額外計(jì)算開銷床玻。我們將子空間S1和S2的每一行視為其基礎(chǔ)的基本向量毁涉。
通過直接和的定義,學(xué)習(xí)的l2標(biāo)準(zhǔn)化節(jié)點(diǎn)特征所在的原始整個(gè)空間Sori可以看作是兩個(gè)子空間S1和S2的直接和:
Sori = S1⊕S2锈死。 (1)
要學(xué)習(xí)分解后的子空間贫堰,問題在于優(yōu)化:
Lrecon = E [(YS1⊕YS2-Y)2]穆壕,(2)
其中E [·]取輸入矩陣或一批輸入矩陣的期望值或總平均值。這里严嗜,Y∈RN×dout是原始整個(gè)空間的表示粱檀,YS1∈RN×dout和YS2∈RN×dout分別是子空間S1和S2中的Y表示.2
為了實(shí)現(xiàn)直接和,我們嘗試將子空間矩陣加法近似為直接和漫玄,因?yàn)榧臃ㄟ\(yùn)算使梯度能夠從頂部向底部反向傳播。因此压彭,基于定理1睦优,我們提出以下正則化項(xiàng)并將其與加法運(yùn)算相結(jié)合以實(shí)現(xiàn)直接和:
Lorth = E [(S1S2T)2] + E [(S1S1T)2] + E [(S2S2T)2]。 (3)
最小化等式的第一項(xiàng)壮不。 (3)鼓勵(lì)兩個(gè)子空間彼此正交汗盘,并且這種正交性確保兩個(gè)子空間的交集只能包含零向量,這滿足定理1询一。將等式的第二項(xiàng)和第三項(xiàng)最小化隐孽。 (3)懲罰S1S1T和S2S2T的對角線元素和非對角線元素。懲罰非對角線元素可確保每個(gè)子空間的基本向量彼此線性獨(dú)立健蕊。懲罰對角元素會(huì)鼓勵(lì)OSD學(xué)習(xí)低階子空間矩陣菱阵,并且這樣做,兩個(gè)子空間中不會(huì)有太多非零基向量缩功,從而避免了從Y中濾除過多信息晴及。
而且,正如我們上面所討論的嫡锌,通過引入以下正則化項(xiàng)虑稼,使另一個(gè)子空間上的學(xué)習(xí)節(jié)點(diǎn)特征的表示為?0:
Lproj-norm = || Y(+)S2 || 2 + || Y(-)S1 || 2。 (4)
在這里势木,在不失一般性的情況下蛛倦,我們分別使用Y(+)和Y(-)分別表示正和負(fù)的l2標(biāo)準(zhǔn)化節(jié)點(diǎn)特征,并且還假設(shè)S1和S2是正和負(fù)節(jié)點(diǎn)特征的子空間啦桌, 分別溯壶。最小化(4)引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)僅分布在自己子空間中的特征,從而實(shí)現(xiàn)特征選擇震蒋。最后茸塞,根據(jù)第二節(jié)中的簡單示例。在圖1中查剖,平凡的解I(即單位矩陣)是原始空間Sori的一個(gè)好的解钾虐,但不是最好的。我限制了兩個(gè)分解的子空間的搜索空間笋庄,因?yàn)樗鼈兊姆菍窃氐暮蛻?yīng)該為零效扫。因此倔监,我們建議對對角元素進(jìn)行懲罰,以通過設(shè)計(jì)避免瑣碎的解決方案:
Ldiag = || Diag(Sori)|| 2菌仁,(5)
其中Diag(·)取輸入矩陣的對角元素浩习。因此,在實(shí)際的實(shí)現(xiàn)中济丘,我們可以通過將上述正則化項(xiàng)組合在一起谱秽,直接將兩個(gè)子空間相加,以近似得出它們的直接和摹迷,從而導(dǎo)致空間重構(gòu)(SR)損失:
LSR = Lrecon + Lorth + Lproj-norm + Ldiag疟赊。 (6)
最后,整個(gè)框架的總損失為:
Ltotal =熵+ LSR峡碉。 (7)
在此近哟,LEntropy指的是帶有softmax的交叉熵?fù)p失,用于對正負(fù)12個(gè)標(biāo)準(zhǔn)化節(jié)點(diǎn)特征進(jìn)行分類鲫寄。
在測試階段吉执,不再需要兩個(gè)子空間矩陣,而僅使用LP(GCN-M)地来,因此推理不會(huì)增加任何計(jì)算負(fù)擔(dān)戳玫。我們遵循Wang等。 (2019)通過遍歷所有實(shí)例來構(gòu)造IPS靠抑。 LP(GCN-M)預(yù)測所涉及實(shí)例與其相關(guān)的樞軸節(jié)點(diǎn)之間鏈接的可能性量九。循環(huán)之后,我們相應(yīng)地采用了Zhan等人的偽標(biāo)簽傳播策略颂碧。 (2018)合并鏈接并形成集群荠列。
優(yōu)化。共同訓(xùn)練了OSD模塊和LP(GCN-M)载城,并在算法1中總結(jié)了整個(gè)優(yōu)化過程肌似。從現(xiàn)在開始,我們使用“ OSD-LP(GCN-M)”表示由LP組成的整個(gè)框架诉瓦。 (GCN-M)和OSD模塊川队。
4.實(shí)驗(yàn)
數(shù)據(jù)集。我們對以下數(shù)據(jù)集進(jìn)行了廣泛的實(shí)驗(yàn)睬澡。對于人臉聚類固额,我們使用CASIA-Webface(Yi等人,2014)作為我們的訓(xùn)練集煞聪,該訓(xùn)練集包含10,575個(gè)身份和約494,414張人臉圖像斗躏。 FaceScrub(Ng和Winkler,2014)是名人臉部數(shù)據(jù)集昔脯,總共包含106,863張臉部圖像啄糙。我們隨機(jī)選擇了517個(gè)身份笛臣,并刪除了重復(fù)項(xiàng),以構(gòu)建包含33607個(gè)面部圖像的子集隧饼。我們將此子集用作驗(yàn)證集沈堡。具有聚類協(xié)議的IJB-B(Whitelam et al。燕雁,2017)被應(yīng)用于我們的測試集诞丽。該協(xié)議有7個(gè)子任務(wù),我們選擇了三個(gè)最大的子任務(wù)拐格。特別是率拒,這三個(gè)子任務(wù)分別包含來自512、1,024和1,845個(gè)身份的18,171禁荒、36,575和68,195個(gè)面部圖像,分別表示為IJB-B-512角撞,IJB-B-1024和IJB-B-1845呛伴。對于多視圖測試,我們使用了VoxCeleb2(Chung等人谒所,2018)热康,該視頻具有145K的視頻,包含5,994個(gè)不同的身份劣领。我們遵循(Wang等人姐军,2019)中的多視圖測試的實(shí)驗(yàn)設(shè)置進(jìn)行公平比較,即通過選擇512和2048身份構(gòu)造兩個(gè)測試集尖淘。其他數(shù)據(jù)用于訓(xùn)練集奕锌。實(shí)施細(xì)節(jié)在附錄A中給出。
消融研究〈迳現(xiàn)在惊暴,我們報(bào)告關(guān)于FaceScrub的消融研究(Ng和Winkler,2014)趁桃,以便全面了解OSD模塊的工作原理辽话。
首先,我們探討了IPS的超參數(shù)如何影響OSD-LP(GCN-M)的性能卫病,其中包括樞軸的最近鄰居(k1)油啤,每個(gè)1跳節(jié)點(diǎn)的最近鄰居(k2)以及鏈接的最近的鄰居,用于拾取邊緣(u)蟀苛。這些超參數(shù)的具體含義和功能可以在(Wang等人益咬,2019)中找到。不需要使用與培訓(xùn)階段相同的IPS配置屹逛。因此础废,我們首先設(shè)置k1 = 40汛骂,僅研究不同的u和k2,我們的結(jié)果記錄在表1中评腺。我們得出結(jié)論帘瞭,對于任何固定的u,增加k2總是會(huì)導(dǎo)致性能提高蒿讥,直到k2等于u蝶念。一旦k2大于u,就可以觀察到F度量的明顯下降芋绸。相反媒殉,在固定k2的情況下,較大的u會(huì)導(dǎo)致大多數(shù)情況下的BCubed F測度較低摔敛。當(dāng)k2 = u = 5時(shí)廷蓉,可獲得最高的BCubed F測度。然后马昙,使用此設(shè)置桃犬,我們測試了不同k1帶來的效果。根據(jù)圖3中的結(jié)果行楞,我們發(fā)現(xiàn)當(dāng)k1 = 70時(shí)攒暇,F(xiàn)度量和NMI達(dá)到峰值。因此子房,從現(xiàn)在開始形用,我們將k1 = 70,k2 = 5和u = 5固定為所有以下實(shí)驗(yàn)证杭。
其次田度,我們將OSD模塊與另外兩個(gè)損失函數(shù)進(jìn)行了比較,這兩個(gè)函數(shù)廣泛用于學(xué)習(xí)判別功能以及SR損失躯砰。詳細(xì)地每币,在表2的第一部分中,我們報(bào)告了LP(GCN-M)結(jié)合中心損失(Wen等琢歇,2016)和AM-softmax損失(Wang等兰怠,2018b; a)的結(jié)果。盡管中心損失和AM-softmax損失可以改善基線(即LP(GCN-M))的性能李茫,但是OSD對LP(GCN-M)的改善要高于兩個(gè)損失函數(shù)中的任何一個(gè)(最后表2)中的行揭保,表明OSD在幫助學(xué)習(xí)區(qū)分性表示形式方面的優(yōu)勢。表2的第二部分顯示了SR損失中不同子項(xiàng)組合的結(jié)果魄宏,以探討SR損失對OSD模塊的影響:一旦我們刪除了SR損失的任何子項(xiàng)秸侣,就可以觀察到F的下降。測量和NMI,證實(shí)了理論的正確性和SR損失的重要性味榛。
第三椭坚,為了更好地解釋OSD學(xué)到了什么,我們將OSD學(xué)到的節(jié)點(diǎn)特征可視化搏色。我們從訓(xùn)練集中隨機(jī)抽取了1000個(gè)由正向或負(fù)向節(jié)點(diǎn)組成的樞軸節(jié)點(diǎn)善茎,并使用t-SNE(Maaten&Hinton,2008)進(jìn)行降維并可視化圖4中的節(jié)點(diǎn)特征频轿。圖4垂涯,左),正負(fù)節(jié)點(diǎn)的表示沒有足夠的區(qū)別航邢;負(fù)節(jié)點(diǎn)特征的分布是分散的耕赘,甚至某些正負(fù)節(jié)點(diǎn)特征是混合的。此類學(xué)習(xí)到的功能可能會(huì)對基于圖的面部聚類的性能產(chǎn)生不良影響膳殷。使用OSD-LP(GCN-M)(右圖4)操骡,盡管我們沒有專門設(shè)計(jì)懲罰或損失函數(shù)來最大化兩種類型節(jié)點(diǎn)之間的余量,但是學(xué)習(xí)到的節(jié)點(diǎn)特征之間仍然存在明顯的差距赚窃。
與最新方法的比較〉庇椋現(xiàn)在,我們將我們的方法與以前的方法進(jìn)行比較考榨。表3的第一部分顯示了IJB-B數(shù)據(jù)集上的一些傳統(tǒng)聚類方法。由于對功能的假設(shè)有限(AHC除外)鹦倚,因此大多數(shù)這些方法的性能總是比我們的方法差河质,并且有很大的余量。至于AHC震叙,它在傳統(tǒng)方法中表現(xiàn)最佳掀鹅,在測試集上達(dá)到了約79.5%F值和0.920 NMI。但是媒楼,OSD-LP(GCN-M)仍然以較大的幅度優(yōu)于AHC乐尊。
在表3的第二部分中,我們列出了近年來提出的最新方法划址。很明顯扔嵌,就F度量和NMI分?jǐn)?shù)而言,我們的方法在三個(gè)子任務(wù)上都超過了現(xiàn)有技術(shù)夺颤。請注意痢缎,在LP(GCN-M)上附加使用了OSD,因此OSD-LP(GCN-M)優(yōu)于GCN-M的事實(shí)(Wang等世澜,2019)直接證明了該方法的可用性独旷。
此外,我們關(guān)注了Wang等人。 (2019)并在使用Softmax損失訓(xùn)練的ResNet-50(He et al嵌洼。案疲,2016)模型的面部嵌入上測試了OSD模塊。結(jié)果顯示在表4中麻养,我們可以得出結(jié)論褐啡,基于不同的面部嵌入,OSD-LP(GCN-M)仍然可以勝過以前的方法回溺,從而驗(yàn)證了OSD模塊的多功能性春贸。
多視圖測試。為了進(jìn)一步驗(yàn)證OSD模塊的通用性遗遵,我們遵循Wang等人的方法萍恕。 (2019),還評估了我們基于多視圖數(shù)據(jù)的模型车要。我們利用面部嵌入和音頻嵌入來評估視頻面部數(shù)據(jù)聚類上的OSD允粤。根據(jù)表5和表6中的結(jié)果,盡管人臉嵌入的數(shù)據(jù)分布與音頻嵌入的分布有很大不同翼岁,但是OSD可以同時(shí)改善兩者的性能类垫,這意味著OSD是通用模塊,并且可以工作用于不同的數(shù)據(jù)形式時(shí)效果很好琅坡。此外悉患,OSD還通過多視圖數(shù)據(jù)的組合獲得了最新的技術(shù)成果。
5總結(jié)與展望
在這項(xiàng)工作中榆俺,我們提出了正交子空間分解(OSD)售躁,它實(shí)現(xiàn)了一種新的方法來幫助網(wǎng)絡(luò)通過子空間學(xué)習(xí)和特征選擇來學(xué)習(xí)判別性特征。我們還報(bào)告了廣泛的實(shí)驗(yàn)茴晋,這些實(shí)驗(yàn)驗(yàn)證了所提出方法的有效性陪捷。而且,據(jù)我們所知诺擅,這是將子空間學(xué)習(xí)和特征選擇與神經(jīng)網(wǎng)絡(luò)同時(shí)結(jié)合的第一項(xiàng)工作市袖。最后,這項(xiàng)工作提供了一個(gè)新的研究方向烁涌,即如何利用特征選擇和子空間學(xué)習(xí)來鼓勵(lì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更多的判別表示苍碟。
附錄
A.1定理證明1
證明。給定V的兩個(gè)子空間V1和V2撮执。
充分性:假設(shè)V = V1 + V2且V1∩V2 = {?0}驰怎。我們將子空間視為一組向量。至于兩個(gè)集合的加法二打,V1 + V2 = {v1 + v2:v1∈V1县忌,v2∈V2}掂榔,這意味著V中的任何向量都是V1的向量和V2的向量的和。應(yīng)該證明這個(gè)加法的唯一性症杏。Asforavectorv∈V装获,weassumev1∈V1,v2∈V2厉颤,v = v1 + v2穴豫,v3∈V1,v4∈V2逼友,v = v3 + v4精肃。由于V1∩V2= {?0},因此v1 + v2 = v3 + v4→v1-v3 = v4-v2帜乞。由于v1-v3∈V1和v4-v2∈V2司抱,v1-v3 = v4-v2 =?0。因此黎烈,v1 = v3和v4 = v2习柠。
必要性:假設(shè)V是V1和V2的直接和。根據(jù)定義照棋,V = V1 + V2成立资溃。如果v∈V1∩V2,考慮?0∈V烈炭,則通過直接和的定義得到v +(-v)=?0溶锭,其中v∈V1和-v∈V2。如果visnota?0符隙,則?0可以由?0+?0和v +(-v)表示暖途,這不是唯一表示,并且違反了直接和的定義膏执。因此,V1∩V2 = {?0}露久。
A.2實(shí)施細(xì)節(jié)
最初更米,通過使用ArcFace模型(Deng等人)獲得了CASIA-Webface(Yi等人,2014)毫痕,F(xiàn)aceScrub(Ng&Winkler征峦,2014)和IJB-B(Whitelam等人,2017)中人臉的嵌入消请。等(2019年)使用ResNet-101栏笆。該模型在MS-Celeb-1M(Guo等人,2016)和VGGFace2(Cao等人臊泰,2018)的聯(lián)合上進(jìn)行了訓(xùn)練蛉加。然后,我們使用(Wang等人,2019)中的方法構(gòu)造實(shí)例樞軸子圖(IPS)作為整個(gè)框架的輸入针饥,然后通過設(shè)置k1 = 80厂抽,k2 = 8和u =來遵循它們的訓(xùn)練設(shè)置。 8. LP(GCN-M)與(Wang等人丁眼,2019)中GCN-M構(gòu)造的鏈路預(yù)測模型相同筷凤。特別地,前三個(gè)圖卷積層的輸出特征的維數(shù)均為512苞七,而最后一個(gè)是256藐守。關(guān)于OSD,兩個(gè)學(xué)習(xí)的子空間矩陣的維數(shù)均為256×256蹂风。整個(gè)框架通過具有0.9動(dòng)量和0.0005權(quán)重衰減的隨機(jī)梯度下降(SGD)進(jìn)行優(yōu)化卢厂。我們將批次大小設(shè)置為16,并對該模型進(jìn)行了3個(gè)時(shí)期的訓(xùn)練硫眨。首先將學(xué)習(xí)率設(shè)置為10-3足淆,然后在每個(gè)時(shí)期乘以0.1。最后保存的模型用于評估礁阁,我們使用的評估指標(biāo)與(Wang等人巧号,2019)中相同,即歸一化互信息(NMI)和BCubed F測度(Amigó等人)姥闭。 (2009年)丹鸿。對于多視圖測試,我們使用上述相同的訓(xùn)練過程棚品,簡單地將面部嵌入與匹配的音頻嵌入連接起來靠欢,并構(gòu)造IPS進(jìn)行“面部+音頻”實(shí)驗(yàn)。