近年來梁厉,人臉識別技術取得了長足的進步辜羊,其性能達到了很高的水平踏兜。將其提升到一個新的水平需要相當大的數(shù)據(jù),這將涉及極高的注釋成本八秃。因此碱妆,利用未標記的數(shù)據(jù)成為一種有吸引力的選擇。最近的工作表明昔驱,將未貼標簽的面孔聚類是一種很有前途的方法疹尾,通常可以顯著提高性能骤肛。然而纳本,如何有效地聚類,尤其是在大規(guī)模(即百萬級或以上)數(shù)據(jù)集上腋颠,仍然是一個懸而未決的問題繁成。一個關鍵的挑戰(zhàn)在于集群模式的復雜變化,這使得傳統(tǒng)的集群方法很難滿足所需的精度秕豫。這項工作探索了一種新穎的方法朴艰,即學習聚類而不是依靠手工制定的標準观蓄。具體來說混移,我們提出了一個基于圖卷積網(wǎng)絡的框架,該框架結合了檢測和分段模塊來精確定位人臉聚類侮穿。實驗表明歌径,我們的方法產(chǎn)生的人臉簇準確得多,因此亲茅,還可以進一步提高人臉識別的性能回铛。
1.簡介
由于深度學習技術的進步,人臉識別的性能得到了顯著提高[25克锣,22茵肃,27,3袭祟,31]验残。但是,應該指出的是巾乳,現(xiàn)代人臉識別系統(tǒng)的高精度在很大程度上取決于大規(guī)模帶注釋的訓練數(shù)據(jù)的可用性您没。盡管可以很容易地從Internet上收集大量的面部圖像,但對它們進行注釋卻非常昂貴胆绊。因此氨鹏,利用未標記的數(shù)據(jù),例如通過無監(jiān)督或半監(jiān)督學習压状,成為一種令人信服的選擇仆抵,并且引起了學術界和工業(yè)界的極大興趣[30,1]。
利用未標記數(shù)據(jù)的自然想法是將它們聚類為“偽類”镣丑,以便像標記數(shù)據(jù)一樣使用它們并將其饋送到有監(jiān)督的學習管道中还栓。最近的工作[30]表明,這種方法可以帶來性能提升传轰。但是剩盒,該方法的當前實現(xiàn)仍然有很多不足之處。特別是慨蛙,他們經(jīng)常求助于無監(jiān)督方法辽聊,例如將K-均值[19],光譜聚類[11]期贫,層次聚類[32]和近似等級順序[1]分組跟匆,以對未標記的面孔進行分組。這些方法都基于簡單的假設通砍,例如玛臂,K均值隱式假設每個群集中的樣本都圍繞一個中心。頻譜聚類要求聚類大小相對平衡封孙,等等迹冤。因此,它們?nèi)狈獙碗s聚類結構的能力虎忌,因此十個聚類會產(chǎn)生噪聲聚類泡徙,尤其是當應用于從實地收集的大規(guī)模數(shù)據(jù)集時世界設置。此問題嚴重限制了性能的提高膜蠢。
因此堪藐,為了有效地利用未標記的面部數(shù)據(jù),我們需要開發(fā)一種有效的聚類算法挑围,該算法能夠應對實踐中經(jīng)常出現(xiàn)的復雜聚類結構礁竞。顯然,依靠簡單的假設將無法提供此功能杉辙。在這項工作中模捂,我們探索了一種根本不同的方法,即學習如何從數(shù)據(jù)中進行聚類奏瞬。特別是枫绅,我們希望利用圖卷積網(wǎng)絡的強大表達能力來捕獲人臉簇中的常見模式,并利用它們來幫助對未標記的數(shù)據(jù)進行分區(qū)硼端。
我們提出了一種基于圖卷積網(wǎng)絡的人臉聚類框架[15]并淋。該框架采用類似于Mask R-CNN [10]的流水線進行細分,即生成提案珍昨,識別積極提案县耽,然后使用掩碼進行細化句喷。這些步驟分別由基于超級頂點的迭代提議生成器,圖形檢測網(wǎng)絡和圖形分割網(wǎng)絡來完成兔毙。應當指出的是唾琼,雖然我們受到Mask R-CNN的啟發(fā),但我們的框架仍然存在本質(zhì)差異:前者在2D圖像網(wǎng)格上運行澎剥,而后者在具有任意結構的親和圖上運行锡溯。如圖1所示,依靠基于圖卷積網(wǎng)絡學習的結構模式哑姚,而不是一些簡單的假設祭饭,我們的框架能夠處理具有復雜結構的集群。
所提出的方法顯著提高了大規(guī)模人臉數(shù)據(jù)的聚類精度叙量,獲得了85.66的F分數(shù)倡蝙,不僅優(yōu)于無監(jiān)督聚類方法獲得的最佳結果(F分數(shù)68.39),而且還更高而不是最新的技術水平[30](F得分75.01)绞佩。使用此聚類框架來處理未標記的數(shù)據(jù)寺鸥,我們將MegaFace上的人臉識別模型的性能從60.29提高到78.64,這與通過監(jiān)督學習所有數(shù)據(jù)獲得的性能非常接近(80.75) 品山。
主要貢獻在于三個方面:(1)我們首次嘗試以有監(jiān)督的方式執(zhí)行自上而下的面部聚類胆建。 (2)這是將聚類表達為基于圖卷積網(wǎng)絡的檢測和分割管道的第一項工作。 (3)我們的方法在大規(guī)模人臉聚類中實現(xiàn)了最新的性能谆奥,并且在應用發(fā)現(xiàn)的聚類時將人臉識別模型提高到接近監(jiān)督結果的水平眼坏。
2.相關工作
人臉聚類聚類是機器學習中的一項基本任務拂玻。 Jain等酸些。 [12]提供了對經(jīng)典聚類方法的調(diào)查。大多數(shù)現(xiàn)有的聚類方法都不可行檐蚜。人臉聚類提供了一種利用大量未標記數(shù)據(jù)的方法魄懂。沿著這個方向的研究仍處于早期階段。如何在大規(guī)模數(shù)據(jù)上對面孔進行聚類的問題仍然存在闯第。
早期作品使用手工制作的功能和經(jīng)典的聚類算法市栗。例如,Ho等咳短。 [11]使用梯度和像素強度作為面部特征填帽。崔等。 [2]使用了LBP功能咙好。它們都采用頻譜聚類篡腌。最近
方法利用學習的功能。 [13]以無監(jiān)督的方式進行了自上而下的聚類勾效。 Finley等嘹悼。 [5]以自下而上的方式提出了一種基于SVM的監(jiān)督方法叛甫。奧托等。 [1]使用了基于CNN的面部模型的深度特征杨伙,并提出了一種近似的秩序度量來將圖像對鏈接為簇其监。 Lin等。 [18]設計了一種基于在數(shù)據(jù)樣本的最近鄰居上訓練的線性SVM的相似性度量限匣。 Shi等抖苦。 [23]提出了條件成對聚類,通過成對相似性將聚類公式化為條件隨機場來聚類人臉米死。 Lin等睛约。 [17]提出通過引入鄰域的最小覆蓋范圍來提高深度特征的局部結構,以改善相似性度量哲身。詹等辩涝。 [30]訓練了一個MLP分類器來聚合信息,從而發(fā)現(xiàn)更健壯的鏈接勘天,然后通過找到連接的組件獲得聚類怔揩。
盡管使用了深層功能,但這些工作主要集中在設計新的相似性度量標準上脯丝,并且仍然依靠無監(jiān)督的方法來執(zhí)行聚類商膊。與上述所有工作不同,我們的方法基于檢測-細分范式學習如何自上而下地進行聚類宠进。這使模型可以處理結構復雜的集群晕拆。
圖卷積網(wǎng)絡圖卷積網(wǎng)絡(GCN)[15]將CNN擴展為處理圖結構化數(shù)據(jù)。現(xiàn)有工作表明了GCN的優(yōu)點材蹬,例如對復雜圖形模式進行建模的強大能力实幕。在各種任務上,使用GCN可以顯著提高性能[15堤器、9昆庇、26、29]闸溃。例如整吆,Kipf等。 [15]將GCN應用于半監(jiān)督分類辉川。漢密爾頓等表蝙。 [9]利用GCN來學習特征表示。伯格等乓旗。 [26]表明府蛇,GCN在鏈路預測方面優(yōu)于其他方法。嚴等寸齐。 [29]采用GCN來為基于骨骼的動作識別建模人體關節(jié)欲诺。
在本文中抄谐,我們采用GCN作為捕獲親和圖上聚類模式的基本機制。據(jù)我們所知扰法,這是使用GCN學習如何以監(jiān)督方式進行集群的第一篇著作蛹含。
3.方法論
在大規(guī)模人臉聚類中,聚類模式的復雜變化成為進一步提高性能的主要挑戰(zhàn)塞颁。為了應對這一挑戰(zhàn)浦箱,我們探索了一種有效的方法,即基于圖卷積網(wǎng)絡學習聚類模式祠锣。具體來說酷窥,我們將此公式表示為親和圖上的聯(lián)合檢測和分割問題。
給定一個面部數(shù)據(jù)集伴网,我們使用經(jīng)過訓練的CNN為每個面部圖像提取特征蓬推,形成一組特征D = {fi} Ni = 1,其中fi是d維向量澡腾。為了構造親和圖沸伏,我們將每個樣本視為一個頂點,并使用余弦相似度為每個樣本找到K個最近鄰居动分。通過鄰居之間的連接毅糟,我們獲得了整個數(shù)據(jù)集的親和度圖G =(V,E)澜公∧妨恚或者,親和圖G也可以由對稱的相鄰矩陣A∈RN×N表示坟乾,其中如果連接兩個頂點迹辐,則元素ai,j是fi和fj之間的余弦相似度糊渊,否則為零右核。親和度圖是具有數(shù)百萬個頂點的大規(guī)模圖。從這樣的圖中渺绒,我們希望找到具有以下屬性的聚類:(1)不同的聚類包含帶有不同標簽的圖像; (2)一簇中的圖像具有相同的標簽菱鸥。
3.1宗兼。框架概述
如圖2所示氮采,我們的集群框架由三個模塊組成殷绍,即提案生成器,GCN-D和GCN-S鹊漠。第一模塊從親和度圖中生成聚類提議主到,即茶行,可能是聚類的子圖。然后登钥,針對所有提案集畔师,我們引入兩個GCN模塊,即GCN-D和GCN-S牧牢,以形成一個兩階段程序看锉,該程序首先選擇高質(zhì)量的提案,然后通過消除噪聲來精煉選定的提案塔鳍。在其中伯铣。具體而言,GCN-D執(zhí)行群集檢測轮纫。以集群提案為輸入腔寡,它評估提案構成期望集群的可能性。然后掌唾,GCN-S進行細分以細化所選提案蹬蚁。特別地,給定一個聚類郑兴,它估計每個頂點成為噪聲的可能性犀斋,并通過丟棄離群值來修剪聚類。根據(jù)這兩個GCN的輸出情连,我們可以有效地獲得高質(zhì)量的集群叽粹。
3.2。集群提案
首先却舀,我們不生成大型的相似度圖虫几,而是生成聚類提議。它受到對象檢測中生成區(qū)域建議的方式的啟發(fā)[7挽拔,6]辆脸。這樣的策略可以大大降低計算成本,因為以這種方式螃诅,僅需要評估有限數(shù)量的候選群集啡氢。聚類提議Pi是親和度圖G的子圖。所有提議組成一個集合P = {Pi} Np术裸√仁牵基于超級頂點以i = 1生成聚類提議,并且所有超級頂點形成集合S = {Si} Ns袭艺。在本節(jié)中搀崭,我們首先介紹i = 1代的超級頂點,然后設計一種算法在其上構成聚類提議猾编。
超級頂點瘤睹。超級頂點是一個子圖升敲,其中包含相互緊密連接的少量頂點。因此轰传,很自然地使用連接的組件來表示超級頂點驴党。但是,直接從圖G導出的連接分量可能太大绸吸。為了保持每個超級頂點之間的高連通性鼻弧,我們刪除那些親和力值低于閾值eτ的邊,并限制超級頂點的大小低于最大smax锦茁。海藻圖1顯示了生成超級頂點集S的詳細過程攘轩。通常,具有1M個頂點的親和圖可以劃分為50K個超級頂點码俩,每個平均包含20個頂點度帮。
提案生成。與所需簇相比稿存,超級頂點是一個保守的形式笨篷。盡管超級頂點中的頂點很可能描述同一個人,但是一個人的樣本可能會分布到多個超級頂點中瓣履。受目標檢測中多尺度提議的啟發(fā)[7率翅,6],我們設計了一種算法來生成多尺度聚類提議袖迎。作為藻類冕臭。如圖2所示,我們在超級頂點的頂部構造了一個更高級別的圖燕锥,其中超級頂點的中心為頂點辜贵,而這些中心之間的親和力為邊緣。使用此高級圖表归形,我們可以應用Alg托慨。再次輸入1并獲得較大尺寸的投標。通過迭代應用此構造I次暇榴,我們獲得了具有多個比例的提案厚棵。
3.3。集群檢測
我們設計了GCN-D跺撼,這是一個基于圖卷積網(wǎng)絡(GCN)的模塊窟感,可以從生成的集群建議中選擇高質(zhì)量的集群。在這里歉井,質(zhì)量是通過兩個指標來衡量的,即IoU和IoP分數(shù)哈误。給定一個集群提案P哩至,這些分數(shù)定義為
IoU(P)= | P∩P??|躏嚎,IoP(P)= | P∩P??|,| P∪P??| | P | (1)
? 其中P??是包含所有帶有標簽l(P)的頂點的地面真集合菩貌,而l(P)是簇P的多數(shù)標簽卢佣,即在P中出現(xiàn)最多的標簽。直觀上箭阶,IoU反映了接近程度P等于期望的地面真相P??虚茶;而IoP反映了純度,即P中具有多數(shù)標記l(P)的頂點的比例仇参。
GCN-D的設計嘹叫。我們假設高質(zhì)量的簇通常在各個頂點之間表現(xiàn)出某些結構模式。我們引入GCN來識別此類集群诈乒。具體來說罩扇,給定一個群集提議Pi,GCN會將與其頂點(表示為F0(Pi))和親和度子矩陣(表示為A(Pi))相關的視覺特征作為輸入怕磨,并預測兩者IoU和IoP分數(shù)喂饥。
GCN網(wǎng)絡由L層組成,每層的計算公式如下:
F(P)=σ??D?(P)-1(A(P)+ I)F(P)W??肠鲫,(2)l + 1i i i lil
其中D = A Aij(Pi)是對角度矩陣员帮。 F1(Pi)包含第l層的嵌入。 W1是用于轉換嵌入的矩陣导饲,而σ是非線性激活函數(shù)(在此工作中選擇了ReLU)捞高。直觀地,該公式表示以下過程:對每個頂點及其相鄰元素的嵌入特征進行加權平均帜消,用W1對其進行變換棠枉,然后通過非線性激活對其進行饋送。這類似于CNN中的典型塊泡挺,不同之處在于它在具有任意拓撲的圖上運行辈讶。在頂層嵌入FL(Pi)上,我們在Pi中的所有頂點上應用了一個最大池娄猫,并獲得了提供整體摘要的特征向量贱除。然后,使用兩個完全連接的層分別預測IoU和IoP分數(shù)媳溺。
訓練和推理月幌。給定一個帶有班級標簽的訓練集,我們可以針對每個聚類提議Pi根據(jù)等式(1)獲得真實的IoU和IoP分數(shù)悬蔽。然后扯躺,我們訓練GCN-D模塊,以最小化地面真實分數(shù)和預測分數(shù)之間的均方誤差(MSE)。我們通過實驗證明录语,無需任何幻想的技術倍啥,GCN就能給出準確的預測。在推斷過程中澎埠,我們使用訓練有素的GCN-D來預測每個提案的IoU和IoP分數(shù)虽缕。 IoU分數(shù)將以秒為單位。 3.5首先保留IoU高的提案蒲稳。 IoP分數(shù)將在下一階段中用于確定是否需要完善提案氮趋。
3.4。聚類分割
GCN-D確定的頂級建議可能并不完全是純凈的江耀。這些建議可能仍然包含一些離群值剩胁,需要將其消除。為此决记,我們開發(fā)了一個名為GCN-S的聚類細分模塊摧冀,以將異常值排除在提案之外。
GCN-S的設計系宫。 GCN-S的結構與GCN-D相似索昂。差異主要在于要預測的值。 GCN-S不會預測整個群集P的質(zhì)量得分扩借,而是為每個頂點v輸出一個概率值椒惨,以表明它是真正成員而不是異常成員的可能性。
識別離群點要訓練GCN-S潮罪,我們需要準備地面真相康谆,即識別離群點。一種自然的方法是將其標簽與多數(shù)標簽不同的所有頂點視為離群值嫉到。但是沃暗,如圖3所示,這種方式對于包含幾乎相同數(shù)量的帶有不同標簽的頂點的提議可能會遇到困難何恶。為避免過度擬合手動定義的離群值孽锥,我們鼓勵模型學習不同的細分模式。只要分割結果包含一類頂點细层,無論是否為多數(shù)標記惜辑,都可以認為是合理的解決方案。具體來說疫赎,我們在提案中隨機選擇一個頂點作為種子盛撑。我們?yōu)槊總€頂點特征連接一個值,其中選定種子的值是1捧搞,而其他種子的值是0抵卫。與種子具有相同標簽的頂點被視為正頂點狮荔,而其他頂點被視為離群值。我們使用隨機選擇的種子多次應用此方案陌僵,從而從每個建議P獲取多個訓練樣本轴合。
訓練和推理创坞。通過上述過程碗短,我們可以從保留的建議中準備一組訓練樣本。每個樣本包含一組特征向量题涨,每個特征向量用于一個頂點偎谁,一個親和力矩陣以及一個二進制向量,以指示頂點是否為正纲堵。然后巡雨,我們使用頂點方式的二進制交叉熵作為損失函數(shù)來訓練GCN-S模塊。在推論過程中席函,我們還為生成的集群提議得出多個假設铐望,并且僅保留具有最高正頂點(閾值為0.5)的預測結果。該策略避免了被選擇與極少的正對應項相關聯(lián)的頂點作為種子的情況所誤導的情況茂附。
我們僅將IoP在0.3到0.7之間的提案提供給GCN-S正蛙。因為當提案非常純凈時,離群值通常是很難刪除的示例营曼。當提案非常不純時乒验,很可能沒有一個類占主導地位,因此該提案可能不適合由GCN-S處理蒂阱。利用GCN-S預測锻全,我們從提案中刪除了異常值。
3.5录煤。去重疊
上述三個階段導致了群集的集合鳄厌。但是,不同的簇仍可能重疊妈踊,即共享某些頂點了嚎。這可能對在其上進行的面部識別訓練造成不利影響。在這里响委,我們提出了一種簡單快速的去重疊算法來解決這個問題新思。具體來說,我們首先按照IoU分數(shù)的降序對集群提案進行排名赘风。我們從排名列表中順序收集提議午衰,并通過刪除前面的頂點來修改每個提議。詳細算法在Alg中進行了描述土榴。 3锦积。
與對象檢測中的非最大抑制(NMS)相比假哎,去重疊方法更為有效。特別是鞍历,前者的復雜度為O(N2)舵抹,而后者的復雜度為O(N)。通過為去重疊設置IoU閾值劣砍,可以進一步加快此過程惧蛹。
4.實驗
4.1。實驗設定
訓練集刑枝。 MS-Celeb-1M [8]是一個大規(guī)模的人臉識別數(shù)據(jù)集香嗓,由10萬個身份組成,每個身份約有100張面部圖像装畅。由于原始身份標簽是從網(wǎng)頁自動獲取的靠娱,因此非常嘈雜。我們基于ArcFace [3]的注釋來清理標簽掠兄,從而生成一個可靠的子集像云,其中包含來自86K類的580萬張圖像。清除后的數(shù)據(jù)集被隨機分為10個部分蚂夕,它們具有幾乎相等的身份迅诬。每個部分包含約580K圖像的8.6K身份。我們隨機選擇1個部分作為標記數(shù)據(jù)双抽,另9個部分作為未標記數(shù)據(jù)百框。 Youtube人臉數(shù)據(jù)集[28]包含3、425個視頻牍汹,我們從中提取155铐维、882幀進行評估。特別是慎菲,我們使用14個嫁蛇,653個具有159個身份的幀進行訓練,其余140個露该,629個具有1,436個身份的圖像進行測試睬棚。
測試裝置。 MegaFace [14]是面部識別的最大公開基準解幼。它包括來自FaceScrub [21]的探針集抑党,其中包含3張,530張圖像和包含1M張圖像的圖庫集撵摆。 IJB-A [16]是另一個人臉識別基準底靠,其中包含來自500個身份的5,712張圖像。
指標特铝。我們評估兩項任務的性能暑中,即面部聚類和面部識別壹瘟。人臉聚類是將相同身份的所有圖像聚類到一個聚類中,在該聚類中鳄逾,性能是通過成對回憶和成對精度來衡量的稻轨。為了同時考慮精度和查全率,我們報告了廣泛使用的F分數(shù)雕凹,即精度和查全率的諧波平均值殴俱。使用MegaFace中的面部識別基準和IJB-A的面部驗證協(xié)議對面部識別進行評估。我們在MegaFace中采用top-1識別命中率请琳,即從1M畫廊圖像中對top-1圖像進行排名并計算top-1命中率粱挡。對于IJB-A,我們采用人臉驗證協(xié)議俄精,即確定兩個給定的人臉圖像是否來自同一身份。我們在假陽性率為0.001的條件下使用真陽性率進行評估榕堰。實施細節(jié)竖慧。在實驗中,我們將GCN與兩個隱藏層一起使用逆屡。動量SGD使用的初始學習率為0.01圾旨。提案是通過eτ∈{0.6,0.65魏蔗,0.7砍的,0.75}和smax = 300生成的,如Alg.1所示莺治。
4.2廓鞠。方法比較
4.2.1人臉聚類
我們將提出的方法與一系列聚類基線進行比較。下面簡要介紹這些方法谣旁。
(1)K-means [19]床佳,最常用的聚類算法。在給定數(shù)目的群集k下榄审,K均值使群集內(nèi)的總方差最小砌们。
(2)DBSCAN [4],一種基于密度的聚類算法搁进。它根據(jù)設計的密度標準提取聚類浪感,并將稀疏的背景保留為噪聲。
(3)HAC [24]饼问,分層的聚類聚類是一種自底向上的方法影兽,可以基于某些準則迭代合并緊密聚類。
(4)近似秩次[1]匆瓜,開發(fā)了一種算法作為HAC形式赢笨。它僅使用修改的距離量度執(zhí)行聚類的一次迭代未蝌。
(5)CDP [30],最近的工作提出了一種基于圖的聚類算法茧妒。它以自下而上的方式更好地利用了成對關系萧吠。
(6)GCN-D,該方法的第一個模塊桐筏。它應用GCN以監(jiān)督的方式學習集群模式纸型。 (7)GCN-D + GCN-S,該方法的兩階段版本梅忌。引入了GCN-S來完善GCN-D的輸出狰腌,該輸出可以檢測并丟棄集群內(nèi)部的噪聲。
結果為了控制實驗時間牧氮,我們隨機選擇一部分數(shù)據(jù)進行評估琼腔,其中包含580K圖像的8,573個身份。標簽踱葛。 1比較了此方法上不同方法的性能丹莲。群集性能由F分數(shù)和時間成本評估。我們還報告了簇數(shù)尸诽,成對精度和成對召回率甥材,以更好地了解每種方法的優(yōu)缺點。
結果表明:(1)對于K均值性含,性能受簇數(shù)k的影響很大洲赵。我們在數(shù)字范圍內(nèi)改變k,并以較高的F分數(shù)報告結果商蕴。 (2)DBSCAN精度高叠萍,但召回率低。它可能無法處理大規(guī)模人臉聚類中較大的密度差異究恤。 (3)與以前的方法相比俭令,HAC給出了更可靠的結果。請注意部宿,標準算法消耗O(N2)內(nèi)存抄腔,當N高達580K時,它會超出內(nèi)存容量理张。我們使用適應性的層次聚類[20]進行比較赫蛇,它僅需要O(Nd)內(nèi)存。 (4)近似排名順序由于其一種迭代設計而非常有效雾叭,但是其性能不如我們設置中的其他方法悟耘。 (5)作為旨在利用未標記數(shù)據(jù)進行人臉識別的最新工作,CDP實現(xiàn)了精度和召回率的良好平衡织狐。為了公平起見暂幼,我們將CDP與單個模型版本進行比較筏勒。請注意,CDP的想法和我們的方法是互補的旺嬉,可以結合起來進一步提高性能管行。 (6)我們的方法將GCN應用于學習聚類模式。它可以同時提高精度和召回率邪媳。標簽捐顷。 2證明了我們的方法是魯棒的,可以應用于具有不同分布的數(shù)據(jù)集雨效。由于GCN是使用多尺度集群建議進行訓練的迅涮,因此可以更好地捕獲所需集群的屬性。如圖8所示徽龟,我們的方法能夠精確指出一些結構復雜的簇叮姑。 (7)GCN-S模塊從第一階段開始進一步完善集群提案。它通過犧牲一點召回率來提高精度顿肺,從而提高整體性能戏溺。
運行時分析我們的方法的整個過程大約需要2200s,其中在CPU上生成150K提議最多需要1000s屠尊,而在批量大小為32的GPU上推斷GCN-D和GCN-S分別需要1000s和200s。公平地比較運行時耕拷,我們還將在CPU上測試所有模塊讼昆。我們的方法在CPU上總共需要3700s,這仍然比我們大多數(shù)方法要快骚烧。由于主要的計算成本在GCN上浸赫,因此使用GPU的速度提升在這項工作中并不是很重要。由于GCN依賴稀疏矩陣乘法赃绊,因此無法充分利用GPU并行性既峡。我們方法的運行時間隨未標記數(shù)據(jù)的數(shù)量線性增長,并且可以通過增加批處理大小或與更多GPU并行化來進一步加速該過程碧查。
4.2.2人臉識別
利用訓練好的聚類模型运敢,我們將其應用于未標記的數(shù)據(jù)以獲得偽標記。我們調(diào)查了帶有偽標簽的未標記數(shù)據(jù)如何增強人臉識別的性能忠售。特別是传惠,我們遵循以下步驟來訓練人臉識別模型:(1)以監(jiān)督方式訓練帶有標簽數(shù)據(jù)的初始識別模型; (2)使用從初始模型得出的特征表示稻扬,在標記集上訓練聚類模型卦方; (3)應用聚類模型對各種數(shù)量(1、3泰佳、5盼砍、7尘吗、9部分)的未標記數(shù)據(jù)進行分組,從而在其上附加“偽標簽”浇坐; (4)使用整個數(shù)據(jù)集訓練最終識別模型睬捶,包括原始標記數(shù)據(jù)和其他具有分配的偽標記的數(shù)據(jù)。僅在1部分標記數(shù)據(jù)上訓練的模型被視為
下界吗跋,而由所有帶有地面標簽的零件監(jiān)督的模型則成為我們問題的上限侧戴。對于所有聚類方法,聚類后跌宛,每個未標記圖像都屬于一個唯一的聚類酗宋。我們?yōu)槊總€圖像分配一個偽標簽作為其群集ID。
圖5表明疆拘,人臉聚類的性能對于改善人臉識別至關重要蜕猫。對于K均值和HAC,雖然召回率很高哎迄,但低精度表示嘈雜的預測簇回右。當未標記和已標記數(shù)據(jù)的比例較小時,嘈雜的簇會嚴重損害面部識別訓練漱挚。隨著未標記數(shù)據(jù)和已標記數(shù)據(jù)的比率增加翔烁,未標記數(shù)據(jù)增加所帶來的增益會減輕噪聲的影響。但是旨涝,總體改進是有限的蹬屹。 CDP和我們的方法都受益于未標記數(shù)據(jù)的增加。由于聚類的性能提高白华,我們的方法始終優(yōu)于CDP慨默,并將MegaFace上的人臉識別模型的性能從60.29提高到78.64,接近完全監(jiān)督的上限(80.75)弧腥。
4.3厦取。消融研究
我們隨機選擇未標記數(shù)據(jù)的一部分,其中包含8個573個身份的580K圖像管搪,以研究我們框架中的一些重要設計選擇虾攻。
4.3.1提案策略
集群提案生成是我們框架中的基本模塊。在固定的K = 80且I抛蚤,eτ和smax不同的情況下台谢,我們生成了大量具有多個比例的投標。通常岁经,大量建議會導致更好的集群性能朋沮。選擇適當數(shù)量的投標時,需要在性能和計算成本之間進行權衡。如圖4所示樊拓,每個點代表在一定數(shù)量的建議下的F分數(shù)纠亚。不同的顏色意味著不同的迭代步驟。 (1)當I = 1時筋夏,只有Alg生成的超頂點蒂胞。將使用1。通過選擇不同的eτ条篷,可以獲得更多建議以增加F分數(shù)骗随。隨著數(shù)量增加到超過10萬,性能逐漸飽和赴叹。 (2)當I = 2時鸿染,將不同的超級頂點組合添加到建議中∑蚯桑回想一下涨椒,它利用了超級頂點之間的相似性,從而有效地擴大了建議的接受范圍绽媒。加上少量建議后蚕冬,F(xiàn)分數(shù)提高了5%。 (3)當I = 3時是辕,它會進一步合并以前階段的相似提案囤热,以創(chuàng)建更大規(guī)模的提案,從而繼續(xù)為績效提升做出貢獻获三。但是赢乓,隨著提案規(guī)模的增加,提案中會引入更多的噪音石窑,因此性能增益會達到飽和。
4.3.2 GCN-D的設計選擇
盡管訓練GCN不需要任何花哨的技術蚓炬,但仍有一些重要的設計選擇松逊。作為標簽。如圖3a肯夏,3b和3c所示经宏,合并方法對F分數(shù)有很大的影響。與最大池相比驯击,平均池和總池均會削弱聚類結果烁兰。對于匯總池,它對頂點數(shù)量很敏感徊都,這往往會產(chǎn)生大量建議沪斟。較大的建議導致較高的查全率(80.55)但精度較低(40.33),最終F得分較低暇矫。另一方面主之,均值池可以更好地描述圖結構择吊,但可能會遭受建議中的異常值的困擾。除了池化方法外槽奕,Tab几睛。 3c和3d表明,缺少頂點特征會大大降低GCN的預測準確性粤攒。它說明了在GCN訓練期間充分利用頂點特征和圖形結構的必要性所森。此外,如選項卡所示夯接。如圖3c焕济,3e和3f所示,拓寬GCN的渠道可以提高其表達能力钻蹬,但是更深的網(wǎng)絡可能會使頂點的隱藏特征相似吼蚁,從而產(chǎn)生類似均值合并的效果。
4.3.3 GCN-S
在我們的框架中问欠,GCN-S用作GCN-D之后的降噪模塊肝匆。但是,它可以作為獨立模塊與以前的方法結合使用顺献∑旃考慮到K-means,HAC和CDP的聚類結果注整,我們將它們視為聚類提議能曾,并將其輸入GCN-S。如圖6所示肿轨,GCN-S可以通過丟棄聚類中的離群值來提高其聚類性能寿冕,通過各種方法可以獲得約2%-5%的性能提升。
4.3.4后處理策略
NMS是對象檢測中廣泛使用的后處理技術椒袍,可以作為去重疊的替代選擇驼唱。使用不同的IoU閾值,可以使提案保持最高的IoU預測驹暑,同時抑制其他重疊提案玫恳。 NMS的計算復雜度為O(N2)。與NMS相比优俘,去重疊不會抑制其他提議京办,因此會保留更多樣本,從而增加了聚類召回率帆焕。如圖7所示惭婿,去重疊可以實現(xiàn)更好的聚類性能,并且可以在線性時間內(nèi)進行計算。
5审孽。結論
本文提出了一種基于圖卷積網(wǎng)絡的新型監(jiān)督人臉聚類框架县袱。特別地,我們將聚類公式化為親和圖上的檢測和分割范例佑力。所提出的方法在人臉聚類上比以前的方法有很大的提高式散,從而使人臉識別性能接近于監(jiān)督結果。廣泛的分析進一步證明了我們框架的有效性打颤。