Progressive Feature Alignment for Unsupervised Domain Adaptation
來源:CVPR 2019,廈門大學(xué)信息科學(xué)與工程學(xué)院,騰訊AI實驗室斩狱。
作者:Chaoqi Chen, Weiping Xie等
數(shù)據(jù)集:Office-31(31類樣本涵卵,三個域,A,W,D泉唁,本文適配6次),ImageCLEF-DA(12類樣本,三個域,I,P,C妓忍,本文適配6次),MNIST,SVHN,USPS(這三個數(shù)據(jù)集甲喝,MNIST的圖片size是28*28尝苇,SVHN的圖片size是16*16,USPS的圖片size是32*32埠胖,并且一張圖片上通常有多個數(shù)字糠溜,文中沿襲之前的工作,進(jìn)行MNIST到SVHN的雙向適配直撤,MNIST到USPS的單向適配)
實現(xiàn)框架:Caffe
實驗的backbone:AlexNet
損失函數(shù):
筆記里我記得比較雜非竿,可能突出不了本文的重點。目前正在探索中谋竖,目標(biāo)是红柱,既突出重點,又能把從該篇論文中得到的關(guān)于已學(xué)知識的進(jìn)一步認(rèn)識給記錄下來蓖乘。
摘要部分
之前有人提出用加入偽標(biāo)簽的方法來進(jìn)行原域和目標(biāo)域的類分布(class-level distribution)的對齊锤悄,但是這種方法對錯誤累積(error calculation)非常敏感,因而不能保留跨域的種類一致性(cross-domain category consistency)嘉抒。
本文提出用PFAN通過探索目標(biāo)域的類內(nèi)的多樣性來對齊原域和目標(biāo)域的有辨別力的特征零聚。
?We propose the Progressive Feature Alignment Network (PFAN) to align the discriminative features across domains progressively and effectively, via exploiting the intra-class variation in the target domain.
特別地,本文用特別提出用Easy to-Hard Transfer Strategy (EHTS) 和 Adaptive Prototype Alignment (APA) 來訓(xùn)練模型众眨。
?同時握牧,為了減慢原域分類損失的收斂速度,本文把在softmax函數(shù)中加入了一個temperature variate娩梨。
Introduction
圓圈代表原域樣本沿腰,三角代表目標(biāo)域樣本,綠色代表數(shù)字9狈定,橘色代表數(shù)字7颂龙,藍(lán)色代表數(shù)字1.
用原域樣本訓(xùn)練出分類器,對目標(biāo)域樣本進(jìn)行分類纽什,可以看到措嵌,目標(biāo)域樣本(三角形)可分成三種情況:
第一種,作者稱為easy samples芦缰。
這類目標(biāo)域樣本企巢,由于和原域非常接近,被分類器分對的可能性很大让蕾,不需要適配就能給它們分配偽標(biāo)簽浪规。
第二種稱為hard samples或听。圖中紫色圓圈圈住的樣本。
它們是那些離原域很遠(yuǎn)的目標(biāo)域樣本笋婿,,它們位于分類邊界附近誉裆,分類器不知道把它們分成哪一類。
第三種稱為叫做false-easy samples缸濒。圖中紅色圓圈圈住的樣本足丢。
它們屬于easy samples,但是分類器給它們分配的偽標(biāo)簽是錯誤的庇配。雖然分類器把這類樣本分錯了斩跌,但是分類器對自己
迷之自信,認(rèn)為自己分得是非常正確的讨永,換句話說滔驶,分類器對自己的分類結(jié)果有很高的confidence。
作者認(rèn)為卿闹,這些false-easy samples會給種類對齊(catagory alignment)帶來錯誤信息揭糕,可能會造成錯誤累積。
作者提出的PFAN網(wǎng)絡(luò)锻霎,主要采取EHTS和APA著角。EHTS的作用是漸進(jìn)式地選擇那些值得信賴的目標(biāo)域樣本(已經(jīng)被分配了偽標(biāo)簽),APA的作用是對于原域和目標(biāo)域中的每一類旋恼,對齊它們的原型(prototype).
EHTS和APA是相互作用的吏口,EHTS可以促進(jìn)APA,APA又可以反過來促進(jìn)EHTS冰更。
In this paper, we propose a Progressive Feature AlignmentNetwork (PFAN), which largely extends the abilityof prior discriminative representations-based approaches byexplicitly enforcing the category alignment in a progressivemanner. Firstly, an Easy-to-Hard Transfer Strategy(EHTS) progressively selects reliable pseudo-labeled targetsamples with cross-domain similarity measurements. However,the selected samples may include some misclassifiedtarget samples with high confidence. Then, to suppressthe negative influence of falsely-labeled samples, we proposean Adaptive Prototype Alignment (APA) to align thesource and target prototypes for each category. Rather thanbackpropagating the category loss for target samples basedon pseudo-labeled samples, our work statistically align thecross-domain class distributions based on the source samplesand the selected pseudo-labeled target samples产徊。
接下來是過于詳細(xì)的解說:
??????? 每一個原域樣本通過嵌入函數(shù)G(即圖2中的特征提取器)后,會得到一個D維的特征向量蜀细,本文假定原域和目標(biāo)域中的樣本均有C類舟铜,對原域中的每一類樣本,計算其經(jīng)過潛入函數(shù)后得到向量的均值奠衔,該均值就是文中提到的source prototype谆刨,這個均值也是一個D維的向量。故原域中共有C個prototype.归斤。
對于一個不帶標(biāo)簽的目標(biāo)域樣本痊夭,文中通過以下方式為其分配偽標(biāo)簽。
????????? 首先脏里,文中定義一個相似性度量函數(shù)psi她我,該函數(shù)是一個cosine相似度函數(shù),用于衡量經(jīng)過特征提取器提取后的目標(biāo)域向量和原域的某一類prototype之間相似性,原域有C類番舆,共有C個prototype,這樣根吁,就計算出了C個結(jié)果,最后合蔽,在這C個結(jié)果中選取psi最大的值對應(yīng)的類別數(shù)作為該目標(biāo)域樣本的標(biāo)簽。
?????? 接下來開始選擇目標(biāo)域樣本的easy samples介返,選擇的標(biāo)準(zhǔn)是設(shè)置一個閾值tau拴事,剛才,我們?yōu)槊恳粋€目標(biāo)域樣本都計算出了C個psi值圣蝎,選擇最大的psi值和tau比較刃宵,若大于tau,則該目標(biāo)域樣本被選中成easy samples徘公。
??? 由于隨著訓(xùn)練的進(jìn)行牲证,psi的值是逐漸增大的,所以為了控制easy samples的生成速率关面,文中對于tau值的設(shè)定是隨著訓(xùn)練的進(jìn)行而不斷變化的坦袍,文中給出了tau的計算公式。
APA通過對齊原域的prototype和被選擇出來的目標(biāo)域樣本的prototype來減弱false-easy samples的負(fù)面影響以及促進(jìn)原域和目標(biāo)域的種類一致性等太。對齊是通過最小化原域和目標(biāo)域的prototype之間的歐氏距離來實現(xiàn)的捂齐。
等式5里面提到的prototype是全局的,也就是說要找出原域中某一類的全部樣本缩抡,然后再計算prototype奠宜,但是實際訓(xùn)練中,是用mini-batch方法訓(xùn)練的瞻想,每次只處理batchsize個樣本压真,因而,可以用原域樣本中batchsize個樣本去算出原域的一個local prototype蘑险,再用目標(biāo)域里通過EHTS選取出的樣本來算出目標(biāo)域的local prototype滴肿,然后去對齊這兩個prototype。
但是這種方法有缺點漠其,那就是當(dāng)每一個mini-batch中包含的樣本類別不到C時嘴高,目標(biāo)域里的一個false-sample樣本就會讓計算出的prototype和真實的prototype之間產(chǎn)生很大的差異。
基于上面的問題和屎,本文采用如下方式解決:首先APA根據(jù)最初選取的目標(biāo)域的easy-samples計算出目標(biāo)域的一個global prototype拴驮,然后,在每次迭代過程中柴信,都要去計算C個目標(biāo)域的local prototype套啤,迭代到當(dāng)前,總共迭代了I次,一共計算出了I*C個目標(biāo)域的local prototype潜沦,那么每一種類的樣本都計算出了I個local prototype萄涯,把這I個local prototype取平均值,然后利用這個平均值唆鸡,通過公式8所表達(dá)的那樣來得到當(dāng)前迭代次數(shù)下的某一類的global prototype涝影。公式8里首先用前面提到的psi函數(shù)來度量當(dāng)前上一迭代步的global prototype和本次迭代步計算出的平均值之間的相似度,然后利用這個相似度的平方和1減去這個相似度的平方分別做系數(shù)争占,根據(jù)這個平均數(shù)以及上一迭代步的global prototype來計算新的global prototype燃逻。原域樣本某一類的global prototype也通過這種方式來計算。
在這篇論文里伯襟,提到了其他運用偽標(biāo)簽的論文,我讀過的有Learning Semantic Representations for Unsupervised Domain Adaptation以及Collaborative and Adversarial Network for Unsupervised domain adaptation握童。這兩篇都是用對抗方法的姆怪。
關(guān)于對之前方法的總結(jié),我認(rèn)為作者總結(jié)得不錯的部分澡绩,摘抄下來:
Many approaches utilize a distance metric to measurethe domain discrepancy between the source and target domains,such as maximum mean discrepancy (MMD), KLdivergenceor Wasserstein distance [12, 22, 37, 24, 42, 6].Most prior efforts intend to achieve domain alignment bymatching P(Xs) and P(Xt). However, an exact domainlevelalignment does not imply a fine-grained class-to-classoverlap.