2022-03-25

GCN-Based Linkage Prediction for Face Clustering on Imbalanced Datasets: An Empirical Study

近年來,得益于圖卷積網(wǎng)絡(luò)(GCNs)的表達能力,人臉聚類取得了重大突破践惑。然而驶赏,很少有人關(guān)注基于 GCN 的不平衡數(shù)據(jù)聚類墅茉。盡管不平衡問題已經(jīng)被廣泛研究凡蜻,但不平衡數(shù)據(jù)對基于 GCN 的鏈接預(yù)測任務(wù)的影響是完全不同的辣之,這會導(dǎo)致兩個方面的問題:不平衡的鏈接標簽和有偏差的圖表示觅玻。鏈接標簽不平衡的問題類似于圖像分類任務(wù)中的問題想际,但后者是通過鏈接預(yù)測進行基于 GCN 的聚類中的一個特殊問題。訓(xùn)練中顯著偏差的圖表示可能導(dǎo)致 GCN 模型的災(zāi)難性過擬合溪厘。為了解決這些問題胡本,我們通過大量實驗評估了現(xiàn)有方法在圖上解決不平衡圖像分類問題的可行性,并提出了一種新方法來緩解不平衡標簽并使用反向不平衡增強圖表示加權(quán)抽樣 (RIWS) 策略畸悬,隨后是富有洞察力的分析和討論侧甫。從 MS-Celeb-1M 和 DeepFashion 合成的代碼和一系列不平衡基準數(shù)據(jù)集可在不平衡數(shù)據(jù)集上的 https://github.com/espectre/GCNs 上獲得。

1 簡介

人臉聚類被廣泛應(yīng)用于人臉檢索、人臉標注和相冊分類等許多應(yīng)用中披粟。它旨在以無人監(jiān)督的方式將來自某個人的面部圖像組合在一起咒锻。傳統(tǒng)的聚類方法通常假設(shè)過度簡化的數(shù)據(jù)分布 [Wang et al., 2019b] 與現(xiàn)實世界中大規(guī)模人臉圖像的分布有很大差異,因此很難獲得令人滿意的性能守屉。

近年來惑艇,得益于圖卷積網(wǎng)絡(luò) (GCN) 的表達能力,基于 GCN 的解決方案在 MS-Celeb-1M [Guo et al., 2016] 等大規(guī)模人臉聚類基準測試中獲得了更好的性能拇泛,其中GCN 用于圖形敦捧、節(jié)點或邊緣識別任務(wù)以及特征嵌入。 L-GCN [Wang et al., 2019b] 使用 GCN 來預(yù)測“樞軸”節(jié)點與其 1 跳鄰居之間是否存在鏈接碰镜。 [Yang et al., 2019] 中使用了兩個 GCN 來檢測和分割集群提案邑闲。 [Yang et al., 2020] 還使用兩個 GCN 來完成人臉聚類:一個用于估計頂點的置信度寸潦,另一個用于測量頂點之間的連通性。 DA-Net [Guo et al., 2020] 利用本地和非本地信息來獲得更好的特征嵌入。

盡管上述方法取得了顯著進步害驹,但在面對真實場景中不平衡的數(shù)據(jù)時(即不同人的面部樣本數(shù)量大范圍變化且分布不平衡),它們的性能往往會受到很大影響赏淌。為了幫助減少這種性能折衷平匈,本文特別研究了基于 GCN 的鏈接預(yù)測任務(wù)(以 L-GCN 方法作為示例基線)中的不平衡問題,該任務(wù)很少受到關(guān)注牍氛。在過去的幾年里晨继,圖像分類中的不平衡問題,其本質(zhì)在于正樣本和負樣本的數(shù)量不平衡(即標簽的不平衡)搬俊,已經(jīng)被廣泛研究 [Cui et al., 2019;康等人紊扬,2019;周等人唉擂。餐屎,2020]。在L-GCN中玩祟,相同的性質(zhì)存在于陽性和負環(huán)節(jié)的形式腹缩。然而,除了標簽中的不平衡問題之外空扎,不平衡數(shù)據(jù)還可以在L-GCN中引起偏置圖形表示藏鹊,其特別是與GCN相關(guān)的。具體地转锈,從不平衡訓(xùn)練集中產(chǎn)生的圖表容易出現(xiàn)具有IM平衡的結(jié)構(gòu)(具有相同類別和不同類節(jié)點的不平衡數(shù)量盘寡,也不是邊緣),這對于模型泛化不利(即黑忱,獲取模型可以發(fā)出任何圖形結(jié)構(gòu))宴抚。

因此勒魔,我們研究了兩個方面的基于GCN的聯(lián)系預(yù)測任務(wù)中的不平衡問題:不平衡標簽和偏置圖形表示。首先采用了一些典型的圖像分類的不平衡問題來解決標簽中的不平衡問題菇曲,其中一些人展示了他們的有效性冠绢。為了解決不平衡標簽和偏置圖表代理的問題,在本文中提出了一種反向不平衡的加權(quán)采樣(RIWS)策略常潮,通過提供更多樣化的結(jié)構(gòu)來增加圖表代表弟胀,但在訓(xùn)練樣本上保持平衡的整體分布。

圖喊式。圖1示出了由RIW構(gòu)造的典型的子圖結(jié)構(gòu)(主要是忽略其邊緣的1跳節(jié)點孵户,其中覆蓋了平衡和IMBAL-截止結(jié)構(gòu)。相比之下岔留,由原始L-GCN構(gòu)造的子圖往往是極其易用的(圖1(a))夏哭,而通過正常再采樣方法產(chǎn)生的子圖均易于具有絕對的結(jié)構(gòu)結(jié)構(gòu)(圖。如圖1(b)所示献联,兩者都被偏置竖配,差不平或平衡。在臉部聚類(MS-CELEB-1M)和衣物聚類(Deepfashion)中證明了RIWS策略的有效性里逆,其中獲得了穩(wěn)定的性能增益进胯。

總之,本文具有以下三項主要貢獻:

第一次研究了基于GCN的鏈接預(yù)測任務(wù)中的不平衡問題原押,設(shè)計了具有不平衡數(shù)據(jù)集的基準胁镐。

圖像分類中不平衡問題的典型重新采樣和重新加權(quán)方法是轉(zhuǎn)換的,以解決基于GCN的連桿預(yù)測任務(wù)中的標簽不平衡問題诸衔,評估其有效性和富有洞察分析;

提出了一種名為RIWS的新穎策略來解決通過增加圖形結(jié)構(gòu)的多樣性而在訓(xùn)練樣本上保持平衡的整體分布的圖形結(jié)構(gòu)的多樣性來解決不平衡標簽和偏置圖表表示的問題盯漂。

相關(guān)工作

基于GCN的面部聚類。

面部聚類對于利用未標記的面部數(shù)據(jù)至關(guān)重要署隘,并且已廣泛使用在許多情況下宠能。傳統(tǒng)方法,例如K-Means [Lloyd磁餐,1982],DBSCAN [Ester等阿弃,1996]和HAC [SIB-SON诊霹,1973],首先應(yīng)用于臉部聚類任務(wù)渣淳。有史以來脾还,由于一些天真的假設(shè)(例如,所有集群的密度或凸形相同)入愧,這些方法不能在現(xiàn)實世界中處理大規(guī)模的面部數(shù)據(jù)[Wang等人鄙漏,2019b]嗤谚。在終年中,圖表卷積網(wǎng)絡(luò)(GCNS)正在成為群化越來越強大的聚類技術(shù)怔蚌,并實現(xiàn)了顯著的性能改進巩步。 GCN的圖表性質(zhì)使其優(yōu)于解決非歐幾里德數(shù)據(jù)相關(guān)任務(wù)。最近桦踊,已經(jīng)致力于使用GCNS解決面部聚類的大量研究工作椅野,因為它可以捕捉不同面部之間的復(fù)雜關(guān)系。

L-GCN [Wang等人籍胯,2019B]將面部聚類配制為連桿預(yù)測問題竟闪。如果預(yù)計兩個面部被鏈接,則它們將它們聚集在一起杖狼。在[楊等人炼蛤,2019]中,利用兩個GCN模塊蝶涩,即GCN-D(檢測)和GCN-S(檢測)理朋,用于集群面。它是一種兩階段的過程子寓,其中使用GCN-D來選擇高質(zhì)量的集群提案暗挑,而GCN-S用于去除提案中的噪聲。類似于[楊等人斜友,2019]炸裆,[楊等人,2020]也是兩級解決方案鲜屏。在第一階段烹看,GCN-V(頂點)估計所有頂點的置信度,并且僅選擇具有更高置信度的頂點以構(gòu)建下一個階段的子圖洛史。 GCN-E(邊緣)用作連接估計器惯殊,類似于鏈接[Wang等人,2019b]也殖,它輸出子圖中每個節(jié)點的分數(shù)土思,這表示它與樞軸節(jié)點相同的標識。

在大多數(shù)基于GCN臉聚類方法忆嗜,GCN主要是利用當?shù)氐男畔⒓喝澹蕴岣呷四樚卣鳎豢紤]全球信息考慮在內(nèi)捆毫。 DA-凈[Guo等人闪湾,2020]利用通過集團和鏈本地和非本地信息,以獲得更好的功能嵌入绩卤。

類不平衡學(xué)習(xí)途样。大多數(shù)公共數(shù)據(jù)集(例如江醇,Ima-遺傳學(xué)[Deng等人,2009]何暇,CIFAR [Krizhevsky等人陶夜,2009]和MS-名人-1M [Guo等人,2016])通常artifi- cially平衡赖晶,這手段EV-ERY類實例的數(shù)量沒有太大的區(qū)別律适。然而,在現(xiàn)實世界中遏插,數(shù)據(jù)更可能是不均衡分配捂贿,從而導(dǎo)致巨大的挑戰(zhàn)。由于大多數(shù)情況下的是─長一些頭類胳嘲,因此厂僧,頭班稱霸訓(xùn)練階段,而以較少的樣本的類表現(xiàn)顯著惡化了牛。

目前已經(jīng)有大量的研究集中在imbal- ANCE問題颜屠,我們將它們分為三個系列:再抽樣方法,重新加權(quán)的方法鹰祸,并傳遞學(xué)到甫窟,荷蘭國際集團為基礎(chǔ)的方法。重新采樣策略[Zhou等蛙婴,2020; Wang等粗井,2019a。 Kang等人街图,2019]主要由過采樣的少數(shù)樣品和欠采樣的馬jority樣本構(gòu)建均衡的數(shù)據(jù)分布浇衬。用最上端的樣品的比例,重新加權(quán)甲 -? ODS [Chou等餐济,2020; Cao等耘擂,2019; Cui等,2019;賈馬爾等人絮姆,2020]分配適當?shù)脑O(shè)計 - 通過ING重新加權(quán)的權(quán)重損失來平衡數(shù)據(jù)分布醉冤,其核心思想在于在直覺尾類別應(yīng)具有較大的損失重量。通過轉(zhuǎn)移學(xué)到篙悯,ING冤灾,一些文獻啟發(fā)[Xiang等,2020;劉等人辕近,2019;劉等人匿垄,2020年]移宅,嘗試從頭班尾班傳授知識得到改善拖尾類的多樣性归粉。

在這項工作中,我們主要專注于基于GCN聯(lián)動預(yù)測任務(wù)的不平衡問題漏峰。據(jù)我們所知糠悼,這是基于GCN聯(lián)動預(yù)測任務(wù)相關(guān)的不平衡問題的第一項工作∏城牵基于GCN的任務(wù)在于對雙方的不平衡prob- LEMS倔喂,除了為每個類的節(jié)點數(shù)量,子結(jié)構(gòu)的多樣性也不平衡靖苇。如在圖1(a)所示席噩,如果一個節(jié)點是由具有相同標識的節(jié)點太多包圍,子圖構(gòu)建了基于k最近neigh-博斯(KNN)極為不平衡贤壁。雖然傳統(tǒng)的重采樣方法可以減少不平衡標簽的問題悼枢,它是無效的偏置圖形表示的問題。幸運的是脾拆,RIWS策略馒索,本文提出可以通過建立不同的子圖與均衡分布緩解的問題。

3問題制劑

在基于GCN聯(lián)動預(yù)測的任務(wù)名船,不平衡的數(shù)據(jù)集可能會導(dǎo)致兩個關(guān)鍵問題:不平衡聯(lián)動標簽和偏置圖表示绰上。前者是類似于用于圖像分類,即渠驼,陽性和陰性樣品之間的不平衡的不平衡問題蜈块。后者是基于GCN任務(wù)一個獨特的問題。直接構(gòu)造為L-GCN的子圖傾向于訓(xùn)練集渴邦,這是容易發(fā)生過度擬合的分布被偏壓疯趟。

在這項工作中,我們旨在解決基于 GCN 的鏈接預(yù)測任務(wù)的不平衡問題谋梭。為了方便解釋信峻,我們用 G = {V, E} 來表示特征圖,其中 V = {v1,v2,...,vN} 是特征空間 R 中的一組節(jié)點瓮床。假設(shè)每個人臉的身份由 Yi 表示盹舞,N 張人臉圖像可以分為 C 個身份 {Y1 , Y2 , ..., YC }。在真實場景中隘庄,正負樣本的比例極不平衡踢步,對人臉聚類問題提出了很大的挑戰(zhàn)。我們將此任務(wù)表述為其中 Y 是預(yù)測結(jié)果丑掺。 X' 和 A' 表示子圖的特征和采樣鄰居的鄰接矩陣获印。 g(·) 是平均聚合操作,θ 是學(xué)習(xí)權(quán)重街州。

4 種方法

本文主要研究基于 GCN 的鏈接預(yù)測任務(wù)中的不平衡問題兼丰。已經(jīng)有許多研究人員關(guān)注正樣本和負樣本之間的不平衡問題玻孟。我們選擇了一些具有代表性的方法并評估它們在基于 GCN 的鏈接預(yù)測任務(wù)中的有效性。然而鳍征,現(xiàn)有的方法只處理不平衡標簽問題黍翎,沒有考慮到有偏差的圖表示問題。因此艳丛,我們提出了一種反向不平衡加權(quán)采樣(RIWS)策略匣掸,可以有效緩解這些問題。

4.1 不平衡連鎖標簽的方法

目前主流的方法主要有重加權(quán)法和重采樣法氮双。選擇類平衡損失和焦點損失來評估重加權(quán)方法的影響碰酝,而過采樣和欠采樣方法用于評估重采樣方法的性能。

類余額損失眶蕉。在人臉聚類的邊緣分類階段砰粹,我們需要預(yù)測樞軸與其一跳鄰居之間是否存在聯(lián)系,這是一個二元分類問題造挽。如果模型是在不平衡的數(shù)據(jù)集上訓(xùn)練的碱璃,則樞軸的 KNN 可能由大多數(shù)正樣本或負樣本支配。以圖1(a)為例饭入,pivot'KNN以正樣本為主嵌器,導(dǎo)致子圖不平衡,進而嚴重影響模型的學(xué)習(xí)谐丢。

為了避免正樣本或負樣本支配子圖爽航,我們引入類平衡損失來平衡每個子圖中正樣本和負樣本的權(quán)重。具體來說乾忱,我們首先分別計算正負樣本的平均損失值讥珍,然后取兩個損失值的平均值作為最終損失值。

其中zP和zN分別是正樣本和負樣本的logit窄瘟。 αP 和 αN 是根據(jù)出現(xiàn)頻率計算的權(quán)重衷佃,它們滿足 α = 1 ,α = 1 。 (N和N分別是正樣本和負樣本的個數(shù))

焦點損失蹄葱。 Focal loss 最早是在 [Lin et al., 2017] 中提出的氏义,用于目標檢測,它是專門為處理困難的訓(xùn)練樣本而設(shè)計的图云。在我們的方法中惯悠,我們想要確定樞軸與其一跳節(jié)點之間是否存在邊。如果我們將 1 跳節(jié)點的輸出概率定義為 P = [pP, pN]竣况,其中 pP 表示存在邊的概率克婶。然后鏈接預(yù)測的焦點損失可以表示為

其中 y 是真實標簽,如果存在邊,則 y = 1鸠补。超參數(shù)α(αP + αN = 1)用于平衡正負樣本的影響萝风,γ用于挖掘困難樣本。

重新取樣紫岩。隨機過采樣或欠采樣是最直接和最具代表性的方法。隨機過采樣復(fù)制少數(shù)類中的隨機樣本睬塌,而隨機欠采樣隨機刪除多數(shù)類中的樣本泉蝌。盡管簡單,但這些方法可以實現(xiàn)良好的性能蒙保。

4.2 不平衡標簽和有偏圖表示的方法

RIWS婶芭。目前解決不平衡問題的方法主要關(guān)注正負樣本的比例疹鳄,例如重新加權(quán)權(quán)重,過采樣少數(shù)和欠采樣多數(shù)诅愚。然而,在基于 GCN 的鏈接預(yù)測任務(wù)中劫映,如果像傳統(tǒng)的重采樣方法一樣強制所有子圖構(gòu)建平衡結(jié)構(gòu)违孝,則容易出現(xiàn)過擬合。在推理階段泳赋,模型在面對不同比例的子圖結(jié)構(gòu)時往往表現(xiàn)不佳雌桑。這個由從多樣性不足的圖結(jié)構(gòu)中學(xué)習(xí)引起的問題被定義為有偏差的圖表示。

以前的工作沒有考慮基于 GCN 的鏈接預(yù)測任務(wù)中的偏差圖表示問題祖今。在本文中校坑,基于基本的重采樣方法,提出了RIWS來構(gòu)建子圖千诬。與 L-GCN [Wang et al., 2019b] 類似耍目,我們以數(shù)據(jù)集中的每個實例為中心(稱為“樞軸”),并基于樞軸的 KNN 構(gòu)建子圖徐绑。之后邪驮,GCN 模型聚合子圖的特征,然后分類器預(yù)測樞軸與其每個 1 跳鄰居之間是否存在鏈接泵三。

與初始子圖構(gòu)造方法相比耕捞,我們增加了一個膨脹系數(shù)γ。有了這個系數(shù)烫幕,1-hop 節(jié)點的選擇間隔從 k 增加到 k*γ俺抽,定義為擴展的 k 最近鄰(eKNN),然后選擇 eKNN 中的 k 個節(jié)點作為 1-hop 鄰居较曼,用于一定程度上控制了正負樣本的分布磷斧。

圖 1 展示了通過不同方法選擇的一些子圖示例的 1 跳節(jié)點。假設(shè)k=10,γ=1.5弛饭,在每個子圖中冕末,綠色實心圓圈包圍的節(jié)點為pivot樣本,1-hop候選節(jié)點由pivot在特征空間的15-NN組成侣颂。圖1(a)表示使用L-GCN選擇的k個鄰居档桃,其中選擇了在特征空間中最接近樞軸的10個節(jié)點,沒有考慮樣本的不平衡問題憔晒。采用常規(guī)重采樣策略時藻肄,選擇的 1 跳鄰居如圖 1(b)所示,其中隨機選擇 5 個正樣本(藍點)(欠采樣)拒担,選擇 5 個負樣本.如果負樣本數(shù)量不足嘹屯,則需要通過重復(fù)進行過采樣。

如圖2所示从撼,RIWS流程如下州弟。首先,對于每個pivot低零,將其eKNN中的節(jié)點作為其子圖的候選節(jié)點婆翔,根據(jù)正負樣本的個數(shù)計算每個候選樣本的權(quán)重

其中 wij 是第 i 個樣本的 eKNN 中第 j 個鄰居節(jié)點的權(quán)重(即,第 j 個鄰居節(jié)點被選為以第 i 個樣本節(jié)點為軸的子圖中的節(jié)點的概率)毁兆。然后浙滤,根據(jù)這些權(quán)重從每個 eKNN 中選擇 k 個節(jié)點來構(gòu)建其子圖。這樣子圖的平衡性和多樣性都可以得到保證气堕。一方面纺腊,這個平衡權(quán)重可以保證1-hop鄰居中正負樣本的整體分布是平衡的;另一方面茎芭,加權(quán)隨機抽樣過程提供了多種結(jié)構(gòu)(包括圖1(a揖膜,b,c梅桩,d)所示的所有結(jié)構(gòu))壹粟。這兩個屬性共同有助于解決標簽不平衡和圖表示有偏差的問題。

5個實驗

在本節(jié)中宿百,我們構(gòu)建不平衡數(shù)據(jù)集并進行廣泛的實驗趁仙,以評估傳統(tǒng)不平衡分類問題的方法在擴展到基于 GCN 的鏈接預(yù)測任務(wù)時是否仍然有效,并驗證我們提出的 RIWS 方法的性能垦页。

5.1 設(shè)置

不平衡的數(shù)據(jù)集構(gòu)建雀费。為了評估每種方法在不平衡數(shù)據(jù)集上的性能,參考 [Liu et al., 2020]痊焊,我們基于兩個公共數(shù)據(jù)集構(gòu)建了一系列不平衡數(shù)據(jù)集:MS-Celeb-1M [Guo et al., 2016] 和 DeepFashion [劉等人盏袄,2016]忿峻。以 MS-Celeb-1M 為例,不平衡數(shù)據(jù)集的構(gòu)建過程如下辕羽。

基于清理后的 MS-Celeb-1M [Yang et al., 2020] 的第 0 部分逛尚,我們根據(jù)兩個超參數(shù)合成了 8 個不平衡的訓(xùn)練集:多數(shù)身份計數(shù) m 和少數(shù)身份大小 n。具體來說刁愿,身份按其樣本數(shù)排序绰寞,并選擇前 m 個身份作為多數(shù)類。對于其余部分酌毡,從每個身份中隨機抽取 n 個樣本克握。如果身份大小小于 n,則將抽取所有樣本枷踏。 m 采用 200、500掰曾、1000旭蠕、2000,n 采用 3旷坦、5掏熬。這樣就可以構(gòu)造出8個不平衡的數(shù)據(jù)集,分別記為(H200, S3)秒梅、(H200, S5)等旗芬。我們在 8 個不平衡數(shù)據(jù)集上訓(xùn)練模型,然后分別在清理后的 MS-Celeb-1M 的第 1 部分上對其進行測試捆蜀。

與 MS-Celeb-1M 類似疮丛,我們也構(gòu)建了 2 個基于 DeepFashion 的不平衡訓(xùn)練集。

評估指標辆它。我們將邊緣分類模塊和聚類的鏈接合并階段解耦誊薄,以消除鏈接合并階段的影響。在邊緣分類階段锰茉,選擇AP(Average Precision)作為評價指標呢蔫,在聚類階段,選擇Bcubed F score飒筑。

5.2 每種方法和組合的人臉聚類比較實驗片吊。

為了消除合并階段超參數(shù)的影響,我們選擇邊緣分類AP作為基本度量來展示每種方法及其組合的性能协屡。

表 1 的上半部分顯示了邊緣分類 AP

基于 MS-Celeb-1M 構(gòu)建的 8 個數(shù)據(jù)集上的 L-GCN 和其他方法俏脊。在這些方法中,CB 代表類平衡損失著瓶,F(xiàn)L 代表焦點損失联予,RS 代表傳統(tǒng)的重采樣方法啼县。

除個別情況外,每種方法對不平衡問題的表現(xiàn)都明顯優(yōu)于基線方法沸久。在多數(shù)身份計數(shù)較小的子數(shù)據(jù)集中季眷,例如子數(shù)據(jù)集(H200,S3)卷胯,focal loss 取得了更好的結(jié)果子刮,為 0.9694∫ふ觯可能正負樣本之間的不平衡比例在這種配置中更為嚴重挺峡,因此焦點損失可以通過其對困難示例的學(xué)習(xí)能力和降低眾多簡單負例的能力來緩解不平衡問題,而基于采樣的方法執(zhí)行由于缺乏足夠的樣本進行采樣担钮,因此效果不佳橱赠。在多數(shù)同一性計數(shù)較大的子數(shù)據(jù)集中,有偏差的圖表示的影響逐漸顯現(xiàn)箫津。本文提出的RIWS方法取得了比其他方法更好的結(jié)果狭姨,在子數(shù)據(jù)集(H2000,S5)中達到了0.9867的高AP苏遥。

這四種方法可以分為兩類:重采樣方法和重新加權(quán)方法饼拍。前一種方法主要用于子圖構(gòu)建階段,而后一種方法用于分類器的訓(xùn)練田炭。

為了進一步展示每種方法的性能师抄,我們將兩類方法結(jié)合起來,實驗結(jié)果如表1底部所示教硫。所有結(jié)果均顯著高于baseline的實驗結(jié)果叨吮。結(jié)合RIWS的類平衡損失明顯高于使用常規(guī)重采樣方法的類平衡損失,并且除了(H200栋豫,S3)子數(shù)據(jù)集外挤安,RIWS的focal loss遠遠超過結(jié)合重采樣方法的focal loss,說明該方法本文提出的方法不僅在單獨使用時比重采樣方法表現(xiàn)出更好的效果丧鸯,而且在與重加權(quán)方法結(jié)合使用時也有更好的效果蛤铜。

超參數(shù)靈敏度的比較。在本文中丛肢,我們引入了一個新參數(shù) γ围肥,它控制每個子圖的候選節(jié)點和選定鄰居的比率。當 γ = 1 時蜂怎,我們的子圖構(gòu)建方法等效于 L-GCN 基線穆刻。常規(guī)重采樣和 RIWS 方法在不同 γ 值下的性能如圖 3 所示。點劃線杠步、虛線和實線分別表示基線氢伟、重采樣和RIWS方法榜轿。并且每種方法都基于基線緩解了不平衡問題。

隨著γ的增大朵锣,重采樣方法的性能先增大后下降谬盐,在γ=1.2時達到最大值,而RIWS隨著γ的增大繼續(xù)增大诚些,在γ處增長速度開始急劇放緩=2.0飞傀。在我們的實驗中,我們?yōu)橹夭蓸臃椒ㄟx擇 γ=1.2诬烹,為了不增加過多的計算開銷砸烦,RIWS 方法選擇了 2.0。在這種配置中绞吁,重采樣和 RIWS 方法分別在 8 個不平衡子數(shù)據(jù)集上獲得平均 AP 值 0.9739 和 0.9783幢痘,均遠遠超過基線 0.9688。我們提出的 RIWS 方法在每個子數(shù)據(jù)集中明顯優(yōu)于常規(guī)重采樣方法家破。

5.3 時尚聚類實驗

為了驗證方法對不平衡問題的泛化能力雪隧,我們在 DeepFashion 的兩個子數(shù)據(jù)集(H200,S3)和(H500员舵,S3)上進行了實驗。如表2所示藕畔,除focal loss外的所有方法都超過了L-GCN基線马僻,而結(jié)合RIWS的類平衡損失達到了最佳性能。

5.4 部分/完整數(shù)據(jù)集的實驗

表 3 展示了不平衡方法的最佳組合與基線之間的比較注服。請注意韭邓,我們的組合是在不平衡的子數(shù)據(jù)集上訓(xùn)練的,而基線是在完整數(shù)據(jù)集上訓(xùn)練的溶弟。標有星號的結(jié)果來自 [Yang et al., 2020]女淑。盡管在分布不平衡的較少數(shù)據(jù)上進行了訓(xùn)練,但我們的方法獲得了與在完整 MS-Celeb-1M 或 DeepFashion 數(shù)據(jù)集上訓(xùn)練的基線相當?shù)慕Y(jié)果辜御,這有力地驗證了我們方法的有效性鸭你。

6 結(jié)論與討論

本文首次從不平衡標簽和有偏圖表示兩個方面研究了基于 GCN 的鏈接預(yù)測任務(wù)中的不平衡問題。進行了廣泛的實驗來評估四種典型的圖像分類不平衡問題方法在解決基于 GCN 的任務(wù)中不平衡標簽問題的有效性擒权,表明它們都可以帶來一定程度的性能提升袱巨,并且它們的一些組合可以進一步擴展改進。本文提出了一種反向不平衡加權(quán)采樣(RIWS)策略碳抄,作為解決標簽不平衡和有偏圖表示問題的試驗愉老,其有效性在 MS-Celeb-1M 和 DeepFashion 上的大量實驗中得到證明數(shù)據(jù)集。

這些結(jié)果為選擇和設(shè)計解決基于 GCN 的節(jié)點和邊緣分類任務(wù)(不僅是 L-GCN)中的不平衡問題的方法提供了一些參考剖效,其中不平衡的數(shù)據(jù)會導(dǎo)致上述兩個方面的問題:不平衡的標簽和有偏差的圖表示嫉入。 RIWS 策略是嘗試設(shè)計同時解決這兩個問題的方法焰盗,但不一定是最佳方法。需要和歡迎更多的研究來為各種場景提供更好的解決方案咒林。從 MS-Celeb-1M 和 DeepFashion 合成的代碼和基準測試不平衡數(shù)據(jù)集可在 https://github.com/espectre/GCNs 上的不平衡數(shù)據(jù)集上獲得熬拒。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市映九,隨后出現(xiàn)的幾起案子梦湘,更是在濱河造成了極大的恐慌,老刑警劉巖件甥,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件捌议,死亡現(xiàn)場離奇詭異,居然都是意外死亡引有,警方通過查閱死者的電腦和手機瓣颅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來譬正,“玉大人宫补,你說我怎么就攤上這事≡遥” “怎么了粉怕?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長抒巢。 經(jīng)常有香客問我贫贝,道長,這世上最難降的妖魔是什么蛉谜? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任稚晚,我火速辦了婚禮,結(jié)果婚禮上型诚,老公的妹妹穿的比我還像新娘客燕。我一直安慰自己,他們只是感情好狰贯,可當我...
    茶點故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布也搓。 她就那樣靜靜地躺著,像睡著了一般暮现。 火紅的嫁衣襯著肌膚如雪还绘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天栖袋,我揣著相機與錄音拍顷,去河邊找鬼。 笑死塘幅,一個胖子當著我的面吹牛昔案,可吹牛的內(nèi)容都是我干的尿贫。 我是一名探鬼主播,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼踏揣,長吁一口氣:“原來是場噩夢啊……” “哼庆亡!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起捞稿,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤又谋,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后娱局,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體彰亥,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年衰齐,在試婚紗的時候發(fā)現(xiàn)自己被綠了任斋。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,841評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡耻涛,死狀恐怖废酷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情抹缕,我是刑警寧澤澈蟆,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站卓研,受9級特大地震影響丰介,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鉴分,卻給世界環(huán)境...
    茶點故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望带膀。 院中可真熱鬧志珍,春花似錦、人聲如沸垛叨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春休建,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背境肾。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工蚂夕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人佩谷。 一個月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓旁壮,卻偏偏與公主長得像监嗜,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子抡谐,可洞房花燭夜當晚...
    茶點故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容