Domain Adaptation
經典的機器學習問題中焦蘑,訓練集和測試集分布一致,這樣我們在訓練集上訓練模型弥喉,在測試集上測試郁竟,比較容易得到測試準確度高的機器學習模型。然而在實際問題中由境,訓練集和測試集的分布往往有很大差異棚亩,用訓練集訓練好的模型對測試集進行測試時,會出現(xiàn)過擬合的問題虏杰。遷移學習技術就是因此而產生的讥蟆。
Domain Adaptation(域自適應)是遷移學習中的一種代表性方法,其含義是利用信息豐富的源域樣本來提升目標域模型的性能嘹屯。
源域(source domain)表示與測試樣本不同的領域攻询,但是有豐富的監(jiān)督信息;目標域(target domain)表示測試樣本所在的領域州弟,無標簽或者只有少量標簽。源域和目標域的數(shù)據(jù)分布不同低零,但任務相同婆翔。這種特殊的遷移學習叫做域適應。個人理解就是一種減小因訓練集和測試集分布不同而導致過擬合的負面影響掏婶,采取的方法核心也是為了降低它們分布的差異啃奴。
根據(jù)目標域和源域的不同類型,域自適應問題有四類不同的場景:無監(jiān)督的雄妥,有監(jiān)督的最蕾,異構分布和多個源域問題。
根據(jù)在不同階段進行域適應老厌,研究者提出了三種不同的領域自適應方法:1)樣本自適應瘟则,對源域樣本進行加權重采樣,從而逼近目標域的分布枝秤。2)特征層面自適應醋拧,將源域和目標域投影到公共特征子空間。3)模型層面自適應淀弹,對源域誤差函數(shù)進行修改丹壕,考慮目標域的誤差。
域適應方法
樣本自適應
樣本遷移:對源域樣本進行重采樣薇溃,重采樣后的源域樣本與目標域樣本分布基本一致菌赖,然后在重采樣后的樣本上重新學習分類器。比如沐序,增大源域中與目標域樣本相似的樣本數(shù)據(jù)權重琉用。
特征層面自適應
學習公共的特征表示 忿峻,在公共特征空間內,源域和目標域的分布要盡可能相同辕羽。
特征遷移:對源域和目標域的一些共同的交叉特征進行特征變換逛尚,投影到相同的特征空間,使得在該空間內源域數(shù)據(jù)和目標域數(shù)據(jù)具有相同的數(shù)據(jù)分布刁愿。
模型自適應
兩種方法:一是建模時绰寞,加入“域間距離近”的約束;二是迭代铣口,漸進的對目標域的樣本進行分類滤钱,將信度高的樣本加入訓練集,并更新迭代模型脑题。
模型遷移:用大量數(shù)據(jù)訓練好的一個預測系統(tǒng)件缸,在遇到一個新的相關的預測問題時(比如圖像識別),只需要添加較少的訓練數(shù)據(jù)(圖片)叔遂,將原來訓練好的模型遷移到新的領域就可以他炊,避免了大量重復訓練。
參考資料
【1】https://blog.csdn.net/u013841196/article/details/80956828