摘自 https://zhuanlan.zhihu.com/p/21441807 深度學(xué)習(xí)大講堂
領(lǐng)域自適應(yīng)問題中兩個(gè)至關(guān)重要的概念:源域(source domain)表示與測(cè)試樣本不同的領(lǐng)域胸嘁,但是有豐富的監(jiān)督信息,目標(biāo)域(target domain)表示測(cè)試樣本所在的領(lǐng)域拴清,無標(biāo)簽或者只有少量標(biāo)簽栅哀。源域和目標(biāo)域往往屬于同一類任務(wù),但是分布不同而账。
根據(jù)目標(biāo)域和源域的不同類型胰坟,領(lǐng)域自適應(yīng)問題有四類不同的場(chǎng)景:無監(jiān)督的,有監(jiān)督的福扬,異構(gòu)分布和多個(gè)源域問題腕铸。
機(jī)器學(xué)習(xí)的經(jīng)典流程可以看作:收集訓(xùn)練集的數(shù)據(jù),提取特征铛碑,在訓(xùn)練集上依據(jù)經(jīng)驗(yàn)誤差最小準(zhǔn)則學(xué)習(xí)分類器狠裹。如果訓(xùn)練集和測(cè)試集分布一致,則模型效果好汽烦。如果分布不一致涛菠,在源域過擬合,在目標(biāo)域上效果不好。
通過在上述流程的不同階段進(jìn)行領(lǐng)域自適應(yīng)俗冻,研究者提出了三種不同的領(lǐng)域自適應(yīng)方法:1)樣本自適應(yīng)礁叔,對(duì)源域樣本進(jìn)行加權(quán)重采樣,從而逼近目標(biāo)域的分布迄薄。2)特征層面自適應(yīng)琅关,將源域和目標(biāo)域投影到公共特征子空間。3)模型層面自適應(yīng)讥蔽,對(duì)源域誤差函數(shù)進(jìn)行修改涣易,考慮目標(biāo)域的誤差。
樣本自適應(yīng):其基本思想是對(duì)源域樣本進(jìn)行重采樣冶伞,從而使得重采樣后的源域樣本和目標(biāo)域樣本分布基本一致新症,在重采樣的樣本集合上重新學(xué)習(xí)分類器
特征自適應(yīng):其基本思想是學(xué)習(xí)公共的特征表示,在公共特征空間响禽,源域和目標(biāo)域的分布要盡可能相同徒爹。上圖中所示為L(zhǎng)ong等人基于DL的遷移學(xué)習(xí)框架,其網(wǎng)絡(luò)結(jié)構(gòu)和標(biāo)準(zhǔn)CNN基本一致芋类,不同之處在于對(duì)最后的全連接層特征增加了一個(gè)MMD約束隆嗅,使得源域和目標(biāo)域要具有盡可能相同的分布。通過特征自適應(yīng)梗肝,將輸入的樣本投影到公共子空間榛瓮,通過計(jì)算源域的經(jīng)驗(yàn)誤差铺董,逼近目標(biāo)域的經(jīng)驗(yàn)誤差能相同的分布
模型自適應(yīng):其基本思想是直接在模型層面進(jìn)行自適應(yīng)巫击。模型自適應(yīng)的方法有兩種思路,一是直接建模模型精续,但是在模型中加入“domain間距離近”的約束坝锰,二是采用迭代的方法,漸進(jìn)的對(duì)目標(biāo)域的樣本進(jìn)行分類重付,將信度高的樣本加入訓(xùn)練集顷级,并更新模型。
樣本自適應(yīng)作用于最前端确垫,適合于源域和目標(biāo)域分布差異小的情況弓颈。特征自適應(yīng)適用于于源域和目標(biāo)域有一定差異的情況。模型自適應(yīng)的適用范圍最廣删掀,能夠應(yīng)用于源域和目標(biāo)域差異比較大的場(chǎng)景翔冀。
未來工作:
1)探索新的度量域分布差異的準(zhǔn)則。
2)如何避免有害的遷移披泪。
3)如何對(duì)特定應(yīng)用選擇適合的遷移學(xué)習(xí)方法纤子。
4)無監(jiān)督的領(lǐng)域自適應(yīng):大規(guī)模的無標(biāo)注目標(biāo)域數(shù)據(jù)以及深度遷移學(xué)習(xí)方法。
最新進(jìn)展可參考:https://mp.weixin.qq.com/s/TJjgyL4dR2cMfbk8DUmbfw
綜述文章:Generalizing to Unseen Domains: A Survey on Domain Generalization