歡迎大家關(guān)注微信公眾號(hào):baihuaML浙宜,白話機(jī)器學(xué)習(xí)平夜。
碼字不易线脚,如轉(zhuǎn)載請(qǐng)私信我:焓 额各!原文鏈接:https://zhuanlan.zhihu.com/p/56365256
在這里,我們一起分享AI的故事吧恃。
您可以在后臺(tái)留言虾啦,關(guān)于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的問題痕寓,我們會(huì)選擇其中的優(yōu)質(zhì)問題進(jìn)行回答傲醉!
本期問題
關(guān)于深度學(xué)習(xí)中的小樣本問題,有哪些研究進(jìn)展呻率?
正所謂“巧婦難為無米之炊”硬毕,在是使用深度學(xué)習(xí)解決各種問題的時(shí)候,難免會(huì)遇到樣本不充足的情況礼仗。那這個(gè)時(shí)候應(yīng)該怎樣做呢吐咳?
什么是小樣本問題?
小樣本問題是指研究如何從少量的樣本中去學(xué)習(xí)元践。眾所周知温鸽,深度學(xué)習(xí)的訓(xùn)練需要大量的數(shù)據(jù)佳窑,然而纫溃,在實(shí)際的生產(chǎn)生活中巍沙,可能由于數(shù)據(jù)采集困難,樣本標(biāo)注代價(jià)高等問題象浑,使得訓(xùn)練樣本的規(guī)模不大蔫饰,因此,小樣本問題就成為了機(jī)器學(xué)習(xí)領(lǐng)域中重要的研究方向之一愉豺。本篓吁。
小樣本會(huì)對(duì)模型訓(xùn)練帶來什么影響?
小樣本訓(xùn)練模型時(shí)蚪拦,容易產(chǎn)生過擬合現(xiàn)象杖剪。具體以分類問題為例:
對(duì)于classification model节腐,有如下結(jié)論
訓(xùn)練樣本N,h為Vc維數(shù),詳見https://www.cnblogs.com/HappyAngel/p/3633989.html
如果現(xiàn)在訓(xùn)練模型的算法能使得training error很小摘盆,而model complexity penalty又很小,就能保證test error也很小的概率是 1-η饱苟。所以要使得模型的generalization比較好孩擂,要保證training error和model complexity penalty都能比較小。觀察model complexity penalty項(xiàng)箱熬,可以看到类垦,h越大,model complexity penalty就會(huì)越大城须。N越大蚤认,model complexity penalty則會(huì)越小。大致上講糕伐,越復(fù)雜的模型有著越大的h(VC dimension)砰琢,所以為了使得模型有著好的generalization,需要有較大的N來壓低model complexity penalty良瞧。 這就是為什么深度學(xué)習(xí)的模型需要大量的數(shù)據(jù)來訓(xùn)練陪汽,否則模型的generalization會(huì)比較差,也就是過擬合褥蚯。
目前關(guān)于小樣本問題挚冤,有哪些研究進(jìn)展?
對(duì)于小樣本問題的研究主要有:
1. zero-shot learning(零樣本學(xué)習(xí))赞庶,即要識(shí)別訓(xùn)練集中沒有出現(xiàn)過的類別樣本训挡,雖然類別不存在,但是我們可以學(xué)習(xí)到一個(gè)映射X->Y歧强。如果這個(gè)映射足夠好的話澜薄,我們就可以處理沒有看到的類了。 比如誊锭,我們?cè)谟?xùn)練時(shí)沒有看見過獅子的圖像表悬,但是我們可以用這個(gè)映射得到獅子的特征。一個(gè)好的獅子特征丧靡,可能就和貓蟆沫,老虎等等比較接近,和汽車温治,飛機(jī)比較遠(yuǎn)離饭庞。
最早出現(xiàn)zero-shot的文章:
http://www.cs.cmu.edu/afs/cs/project/theo-73/www/papers/zero-shot-learning.pdf?(zero-shot)
目前關(guān)于zero-shot已經(jīng)出現(xiàn)很多優(yōu)秀的成果,比如:
【1】Zero-Shot Object Detection
【2】Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths
【3】Zero-shot Recognition via Semantic Embeddings and Knowledge Graphs
【4】Xian Y, Lampert C H, Schiele B, et al.?Zero-shot learning-A comprehensive evaluation of the good, the bad and the ugly[J]. IEEE transactions on pattern analysis and machine intelligence, 2018
【4】等等
2. one-shot learning/few shot learning熬荆,即在訓(xùn)練集中舟山,每一類都有一張或者幾張樣,主要方法可以關(guān)注遷移學(xué)習(xí)、meta-learning累盗,metric-learning的相關(guān)研究進(jìn)展寒矿。單例學(xué)習(xí)是遷移學(xué)習(xí)/Domain Adaptation的一個(gè)特例。模型在source domain訓(xùn)練好之后若债,遷移到target domain符相,target domain只用一個(gè)標(biāo)記樣本去訓(xùn)練模型的參數(shù)就可以了。
圖8 平衡車單例識(shí)別
比如識(shí)別平衡車蠢琳。訓(xùn)練時(shí)啊终,source domain有大量標(biāo)記樣本,比如自行車傲须、獨(dú)行車蓝牲、摩托車和轎車等類別,模型可以從source domain學(xué)到表示車的有效特征泰讽,比如有輪子例衍、輪子尺寸大小、有踏板已卸、方向盤或龍頭等肄渗。測(cè)試時(shí),在target domian咬最,只需要一個(gè)或很少一些target domain的標(biāo)記樣本翎嫡,比如只需要在模型可以準(zhǔn)確識(shí)別車的條件下,給模型一張平衡車的標(biāo)記圖片就可以了永乌。
更多內(nèi)容推薦閱讀:
【領(lǐng)域報(bào)告】小樣本學(xué)習(xí)年度進(jìn)展|VALSE2018惑申,連接地址:https://blog.csdn.net/XWUkefr2tnh4/article/details/80729940
《few shot learning調(diào)研》鏈接地址:https://zhuanlan.zhihu.com/p/56014325
最早出現(xiàn)one-shot的文章:http://vision.stanford.edu/documents/Fei-FeiFergusPerona2006.pdf?(one-shot)
實(shí)際上,Zero/One-shot learning都屬于transfer learning翅雏,要點(diǎn)在于先學(xué)到好的X->Y的關(guān)系圈驼,希望能應(yīng)用到其他問題上。
3. 從數(shù)據(jù)增強(qiáng)的角度來看望几,也可以用來解決one-shot绩脆,zero-shot的相關(guān)問題
第一,利用流信息學(xué)習(xí)one-shot模型橄抹,常見的有半監(jiān)督學(xué)習(xí)和transductive learning靴迫,探討的是如何用無標(biāo)簽數(shù)據(jù)去做one-shot learning。
第二楼誓,在有預(yù)訓(xùn)練模型時(shí)玉锌,用這些預(yù)訓(xùn)練模型進(jìn)行數(shù)據(jù)增強(qiáng)。
第三疟羹,從相近的類別借用數(shù)據(jù)主守,來增強(qiáng)訓(xùn)練數(shù)據(jù)集禀倔。
第四,合成新的有標(biāo)簽訓(xùn)練數(shù)據(jù)参淫,用一些遙感里的方法救湖,可以合成一些圖像,或者3d物體涎才。
第五捎谨,用GAN來學(xué)習(xí)合成模型,比如最近用GAN來做personal ID和人臉相關(guān)研究憔维。
第六,屬性引導(dǎo)的增強(qiáng)方法畏邢。具體大家可以在文章里進(jìn)行詳細(xì)了解业扒。?
幾個(gè)小樣本問題的數(shù)據(jù)集
1. 提供幾個(gè)最常用的Zero-Shot Learning的數(shù)據(jù)集,均為GoogleNet提取的圖片特征舒萎,引用相應(yīng)數(shù)據(jù)時(shí)程储,請(qǐng)注意對(duì)應(yīng)作者的引用說明。
AwA:http://pan.baidu.com/s/1nvPzsXb
CUB:http://pan.baidu.com/s/1nv3KCYH
aPaY:http://pan.baidu.com/s/1hseSzVe
SUN:http://pan.baidu.com/s/1gfAc33X
ImageNet2:http://pan.baidu.com/s/1pLfZYQ3
2. one-shot learning 數(shù)據(jù)集
Omniglot
行人Reid數(shù)據(jù)集:Viper/CUHK01
歡迎加入深度學(xué)習(xí)臂寝、機(jī)器學(xué)習(xí)技術(shù)研討群章鲤!
745224003
歡迎關(guān)注我們的微信公眾號(hào):baihuaML,白話機(jī)器學(xué)習(xí)
關(guān)注知乎“會(huì)寫代碼的好廚師”