注明:本文是對一篇整理166篇文獻(xiàn)的綜述翻譯砸民,其中對應(yīng)文獻(xiàn)地址都已附上為方便點(diǎn)擊查看學(xué)習(xí)图谷。查看有的文獻(xiàn)可能需要科學(xué)上網(wǎng)。原文文末附有阱洪。由于篇幅太長分為上下倆部分便贵。
機(jī)器學(xué)習(xí)在數(shù)據(jù)密集型應(yīng)用程序中非常成功,但是在數(shù)據(jù)集較小時通常會受到阻礙冗荸。最近承璃,提出了Few-Shot Learning(FSL)來解決這個問題。使用先驗(yàn)知識蚌本,F(xiàn)SL可以快速推廣到僅包含少數(shù)帶有監(jiān)督信息的樣本的新任務(wù)盔粹。在本文中,我們進(jìn)行了徹底的調(diào)查程癌,以全面了解FSL舷嗡。從FSL的正式定義開始,我們將FSL與幾個相關(guān)的機(jī)器學(xué)習(xí)問題區(qū)分開來嵌莉。然后进萄,我們指出FSL的核心問題是經(jīng)驗(yàn)風(fēng)險最小化器不可靠∪袂停基于如何使用先驗(yàn)知識來處理此核心問題中鼠,我們從三個角度對FSL方法進(jìn)行了分類:(i)數(shù)據(jù),它使用先驗(yàn)知識來增強(qiáng)監(jiān)督經(jīng)驗(yàn)沿癞; (ii)模型援雇,該模型使用先驗(yàn)知識來減小假設(shè)空間的大小椎扬; (iii)算法惫搏,該算法使用先驗(yàn)知識來改變對給定假設(shè)空間中最佳假設(shè)的搜索。通過這種分類法蚕涤,我們將審查和討論每個類別的利弊筐赔。在FSL問題設(shè)置,技術(shù)钻趋,應(yīng)用和理論方面川陆,也提出了有前途的方向,以為未來的研究提供見識。
1 引言
“機(jī)器可以思考嗎较沪?”這是艾倫·圖靈(Alan Turing)在1950年發(fā)表的開創(chuàng)性論文Computing Machinery and Intelligence中提出的問題鳞绕。他說:“可以解釋數(shù)字計算機(jī)背后的思想,說這些計算機(jī)旨在執(zhí)行任何可能的操作尸曼,由人機(jī)完成”们何。換句話說,機(jī)器的最終目標(biāo)是要像人類一樣聰明控轿。近年來冤竹,由于功能強(qiáng)大的計算設(shè)備(例如GPU和分布式平臺)的出現(xiàn),大數(shù)據(jù)集(例如具有1000類的ImageNet數(shù)據(jù)imageNet: A large-scale hierarchical image database)茬射,高級模型和算法(例如卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural networks-CNN)ImageNet classification with deep convolutional neural networks)和長短期記憶 (LSTM)Long short-term memory
)鹦蠕,人工智能加快了步伐,使其像人類一樣在許多領(lǐng)域擊敗了人類在抛。僅舉幾例钟病,AlphaGo Mastering the game of Go with deep neural networks and tree search在古代的圍棋比賽中擊敗了人類冠軍;殘差網(wǎng)絡(luò)(residual network-ResNet)High-risk learning:acquiring new word vectors from tiny data在ImageNet上比人類獲得更好的分類性能刚梭。人工智能還支持日常生活中許多方面的智能工具的開發(fā)肠阱,例如語音助手,搜索引擎朴读,自動駕駛汽車和工業(yè)機(jī)器人屹徘。
盡管火熱,但當(dāng)前的AI技術(shù)無法從少量樣本中快速推廣衅金。上述成功的AI應(yīng)用依賴于從大規(guī)模數(shù)據(jù)中學(xué)習(xí)噪伊。相反,人類可以利用過去的經(jīng)驗(yàn)快速學(xué)習(xí)新任務(wù)典挑。例如酥宴,一個學(xué)習(xí)了加法的孩子可以迅速給出自己的知識來學(xué)習(xí)乘法(例如2×3 = 2 + 2 + 2和1×3 = 1 + 1 + 1)啦吧。另一個例子是您觉,給定幾張陌生人的照片悲酷,孩子可以輕松地從大量照片中識別同一個人举庶。
彌合人工智能與人類之間的鴻溝是一個重要的方向。機(jī)器學(xué)習(xí)可以解決這個問題吊档,機(jī)器學(xué)習(xí)涉及如何構(gòu)建隨經(jīng)驗(yàn)而自動提高的計算機(jī)程序[92,94]般堆。為了從監(jiān)督信息的有限樣本中學(xué)習(xí)在孝,提出了一種新的機(jī)器學(xué)習(xí)范式,稱為Few-Shot Learning (FSL)[One-Shot Learning of Object
Categories淮摔,Object Classification from a Single Example]私沮。一個典型的例子是字符生成[Human-level concept learning through probabilistic program induction],在其中給出了一些樣本和橙,要求計算機(jī)程序解析并生成新的手寫字符仔燕。要處理此任務(wù)造垛,可以將字符分解為可在各個字符之間轉(zhuǎn)移的較小部分,然后將這些較小的組件聚合為新字符晰搀。這是一種像人類一樣的學(xué)習(xí)方法[Building machines that learn and think like people]五辽。當(dāng)然,F(xiàn)SL還可以推動機(jī)器人技術(shù)[Introduction to Robotics: Mechanics and Control]外恕,后者開發(fā)出可以復(fù)制人類行為的機(jī)器杆逗。例子包括一眼模仿(one-shot imitation)[Towards one shot learning by imitation for humanoid robots],多臂老虎機(jī)問題(multi-armedbandits)[One-shot imitation learning]鳞疲,視覺導(dǎo)航(visualnavigation)[Model-agnostic meta-learning for fast adaptation of deep networks]和連續(xù)控制(continuouscontrol)[Bayesian model-agnostic meta-learning]罪郊。
另一個經(jīng)典的FSL場景是,由于隱私尚洽,安全或道德問題排龄,很難或不可能獲取帶有監(jiān)督信息的樣本。一個典型的例子是藥物發(fā)現(xiàn)翎朱,它試圖發(fā)現(xiàn)新分子的特性橄维,以便將有用的分子識別為新藥[Low Data Drug Discovery with One-Shot Learning]。由于可能的毒性拴曲,低活性和低溶解度争舞,新分子在臨床候選藥物上沒有很多真實(shí)的生物學(xué)記錄。因此澈灼,從少量樣本中有效學(xué)習(xí)就顯得重要了竞川。目標(biāo)任務(wù)沒有很多樣本,類似示例包括FSL轉(zhuǎn)換[Learning to remember rare events]和冷啟動項(xiàng)目推薦[A meta-learning perspective on cold-start recommendations for items]叁熔。通過FSL委乌,可以為這些罕見情況學(xué)習(xí)合適的模型。
FSL還可以幫助減輕收集大規(guī)模監(jiān)督數(shù)據(jù)的負(fù)擔(dān)荣回。例如遭贸,盡管ResNet[Deep residual learning for image recognition]在ImageNet上的表現(xiàn)優(yōu)于人類,但每個類別都需要有足夠的帶標(biāo)簽的圖像心软,這些圖像可能很難收集壕吹。 FSL可以減少數(shù)據(jù)密集型應(yīng)用程序的數(shù)據(jù)收集工作。例如包括圖像分類[Matching networks for one shot learning.]删铃,圖像檢索[Few-shot learning through an information retrieval lens]耳贬,對象跟蹤[Learning feed-forward one-shot learners],手勢識別[Domain-adaptive discriminative one-shot learning of gestures]猎唁,圖像標(biāo)題咒劲,視覺問答[Fast parameter adaptation for few-shot image captioning and visual question answering],視頻事件檢測[Multi-task transfer methods to improve one-shot learning for multimedia event detection],語言建模[Matching networks for one shot learning]和神經(jīng)體系結(jié)構(gòu)搜索[SMASH: One-shot model architecture search through hypernetworks]腐魂。
在AI接近人類的學(xué)術(shù)目標(biāo)以及對廉價學(xué)習(xí)的工業(yè)需求的推動下慕的,F(xiàn)SL引起了很多關(guān)注,并且現(xiàn)在已成為熱門話題挤渔。 已經(jīng)提出了許多相關(guān)的機(jī)器學(xué)習(xí)方法肮街,例如元學(xué)習(xí)(meta-learning)[Model-agnostic meta-learning for fast adaptation of deep networks,Optimization as a model for few-shot learning判导,Meta-learning with memory-augmented neural networks]嫉父,嵌入學(xué)習(xí)(embedding learning)[Learning feed-forward one-shot learners,Learning to compare: Relation network for few-shot learning眼刃,Matching networks for one shot learning]和生成模型( generative modeling )[Towards a neural statistician绕辖,One-shot learning of object categories,One-shot learning with a hierarchical nonparametric Bayesian model]擂红。 但是仪际,目前尚無提供連接這些FSL方法的有組織分類法的工作,沒有解釋為什么某些方法有效而其他方法卻無效的工作昵骤,也沒有討論不同方法的利弊树碱。 因此,本文對FSL問題進(jìn)行了調(diào)查变秦。 相反成榜,[Small sample learning in big data era]中的調(diào)查僅關(guān)注概念學(xué)習(xí)和小樣本經(jīng)驗(yàn)學(xué)習(xí)。
這項(xiàng)調(diào)查的貢獻(xiàn)可以總結(jié)如下:
?我們給出了關(guān)于FSL的正式定義蹦玫,該定義自然與[Machine Learning赎婚,Foundations of machine learning]中的經(jīng)典機(jī)器學(xué)習(xí)定義相關(guān)。該定義不僅足夠籠統(tǒng)以包括現(xiàn)有的FSL作品??樱溉,而且還足夠具體以闡明FSL的目標(biāo)是什么以及我們?nèi)绾谓鉀Q它挣输。該定義有助于在FSL領(lǐng)域設(shè)定未來的研究目標(biāo)。
?我們通過具體例子列出了FSL的相關(guān)學(xué)習(xí)問題福贞,闡明了它們與FSL的相關(guān)性和差異撩嚼。這些討論可以幫助更好地區(qū)分和定位FSL在各種學(xué)習(xí)之間的問題。
?我們指出肚医,F(xiàn)SL監(jiān)督學(xué)習(xí)問題的核心問題是不可靠的經(jīng)驗(yàn)風(fēng)險最小化器绢馍,它是基于機(jī)器學(xué)習(xí)中的錯誤分解[The tradeoffs of large scale learning]進(jìn)行分析的。這為以更組織和系統(tǒng)的方式改進(jìn)FSL方法提供了思路肠套。
?我們進(jìn)行了廣泛的文獻(xiàn)綜述,并從數(shù)據(jù)猖任,模型和算法的角度將它們組織在統(tǒng)一的分類法中你稚。我們還提供了一些見解的摘要,并就每個類別的利弊進(jìn)行了討論。這些可以幫助您更好地理解FSL方法刁赖。
?我們在問題設(shè)置搁痛,技術(shù),應(yīng)用和理論方面為FSL提出了有希望的未來方向宇弛。這些見解基于FSL當(dāng)前開發(fā)的弱點(diǎn)鸡典,并可能在將來進(jìn)行改進(jìn)。
1.1 調(diào)查組織
本調(diào)查的其余部分安排如下枪芒。第2節(jié)概述了FSL彻况,包括FSL的正式定義,相關(guān)的學(xué)習(xí)問題舅踪,核心問題以及現(xiàn)有作品的數(shù)據(jù)纽甘,模型和算法分類。 第3節(jié)介紹用于擴(kuò)充數(shù)據(jù)以解決FSL問題的方法抽碌。 第4節(jié)介紹了減小假設(shè)空間大小以使FSL可行的方法悍赢。 第5節(jié)介紹了更改算法搜索策略以處理FSL問題的方法。 在第6節(jié)中货徙,我們在問題設(shè)置左权,技術(shù),應(yīng)用和理論方面提出了FSL的未來發(fā)展方向痴颊。 最后涮总,調(diào)查在第7節(jié)中結(jié)束
1.2 符號和術(shù)語
考慮一個學(xué)習(xí)任務(wù)T,F(xiàn)SL處理數(shù)據(jù)集瀑梗,其中包括一個訓(xùn)練集(其中不大)和一個測試集裳扯。 設(shè)為輸入x和輸出y的聯(lián)合概率分布,是從到的最優(yōu)假設(shè)饰豺。 FSL通過擬合并在上進(jìn)行測試來學(xué)習(xí)發(fā)現(xiàn)亿鲜。 為了逼近,F(xiàn)SL模型確定了假設(shè)的假設(shè)空間冤吨,其中表示使用的所有參數(shù)蒿柳。 這里使用參數(shù),因?yàn)榉菂?shù)模型通常需要大量數(shù)據(jù)集漩蟆,因此不適合FSL垒探。 FSL算法是一種搜索的優(yōu)化策略,以找到參數(shù)化最佳的怠李。FSL性能由預(yù)測上定義的損失函數(shù)和觀察到的輸出來衡量圾叼。
2 概述
在本節(jié)中蛤克,我們首先在2.1節(jié)中提供FSL問題的正式定義,并提供具體示例夷蚊。 為了區(qū)分FSL問題和相關(guān)的機(jī)器學(xué)習(xí)問題构挤,我們將在2.2節(jié)中討論它們的相關(guān)性和差異。 在第2.3節(jié)中惕鼓,我們討論了使FSL變得困難的核心問題筋现。 然后,第2.4節(jié)根據(jù)現(xiàn)有作品如何處理核心問題提出了統(tǒng)一的分類法箱歧。
2.1 定義
由于FSL是機(jī)器學(xué)習(xí)的一個子領(lǐng)域矾飞,因此在給出FSL的定義之前,讓我們回顧一下文獻(xiàn)中機(jī)器學(xué)習(xí)是如何定義的叫胁。 定義2.1(MachineLearning [Machine Learning凰慈,Foundations of machine learning])。如果某項(xiàng)任務(wù)的性能可以用測得的上的來提高驼鹅,則可以從計算機(jī)上學(xué)習(xí)有關(guān)任務(wù)和性能度量的某些類的經(jīng)驗(yàn)微谓。
例如,考慮到圖像分類任務(wù)()输钩,機(jī)器學(xué)習(xí)程序可以通過訓(xùn)練大量帶標(biāo)簽的圖像(例如ImageNet數(shù)據(jù)集[ImageNet classification with deep convolutional neural networks
])來通過獲得提高的分類精度()豺型。另一個示例是此處的計算機(jī)程序AlphaGo [Mastering the game ofGo with deep neural networks and tree search],它在人類的大勝率上證明了這一點(diǎn)(經(jīng)過30倍的時間)买乃,專家們就不斷地訓(xùn)練了()()姻氨。 就像反復(fù)與自己比賽。 這些總結(jié)在表1中剪验。
如上述示例中所示肴焊,典型的機(jī)器學(xué)習(xí)應(yīng)用程序需要大量帶有監(jiān)督信息的樣本。 但是功戚,如引言中所述娶眷,這可能是困難的,甚至是不可能的啸臀。 FSL是機(jī)器學(xué)習(xí)的一種特殊情況届宠,在訓(xùn)練集中提供有限的監(jiān)督信息的情況下,其目標(biāo)是獲得良好的學(xué)習(xí)性能乘粒,該訓(xùn)練集包括輸入以及其對應(yīng)的輸出的樣本[Pattern Recognition and Machine Learning]
正式地豌注,我們在定義2.2中定義FSL。Few-Shot Learning (FSL)是一類機(jī)器學(xué)習(xí)問題(由和指定)轧铁,其中僅包含有限數(shù)量的樣本,其中包含針對目標(biāo)的監(jiān)督信息竟稳。
現(xiàn)有的FSL問題主要是監(jiān)督學(xué)習(xí)問題属桦。具體來說熊痴,few-shot classification 僅在每個類的幾個帶標(biāo)簽的樣本中學(xué)習(xí)分類器他爸。示例應(yīng)用包括圖像分類[Matching networks for one shot learning]聂宾,短文本的情感分類[Diverse few-shot text classification with multiple metrics]和對象識別[One-shot learning of object categories]。形式上诊笤,使用1.2節(jié)中的符號系谐,few-shot classification學(xué)習(xí)了一個分類器,它預(yù)測每個輸入的標(biāo)簽讨跟。通常纪他,人們會考慮使用分類法[Model-agnostic meta-learning for fast adaptation of deep networks,Matching networks for one shot learning]晾匠,其中包含個樣本茶袒,這些示例來自個分類,每個分類都有個樣本凉馆。Few-shot regression [Model-agnostic meta-learning for fast adaptation of deep networks薪寓,Bayesian model-agnostic meta-learning]在僅從該函數(shù)采樣的幾個輸入-輸出樣本對的情況下估計回歸函數(shù),其中輸出是因變量的觀測值澜共,而是記錄觀測值的輸入自變量的值向叉。除了少量樣本的監(jiān)督學(xué)習(xí)之外,F(xiàn)SL的另一個實(shí)例是few-shot reinforcement learning [Continuous adaptation via metalearning in nonstationary and competitive environments嗦董,One-shot imitation learning]母谎,其目標(biāo)是在僅給出由狀態(tài)-動作對組成的少數(shù)軌跡的情況下找到一種策略。
現(xiàn)在京革,我們展示FSL的三種典型情況(表2):
?像人類一樣充當(dāng)學(xué)習(xí)的試驗(yàn)床奇唤。為了向人類智能邁進(jìn),計算機(jī)程序能夠解決FSL問題至關(guān)重要匹摇。一個流行的任務(wù)()是僅給出幾個例子就生成一個新角色的樣本[Human-level concept learning through probabilistic program induction]咬扇。受人類學(xué)習(xí)方式的啟發(fā),計算機(jī)程序使用E進(jìn)行學(xué)習(xí)来惧,由既有監(jiān)督信息的給定樣本以及經(jīng)過預(yù)訓(xùn)練的內(nèi)容(如部件和關(guān)系)作為先驗(yàn)知識組成冗栗。通過視覺圖靈測試()的通過率評估生成的字符,該測試可區(qū)分圖像是由人還是由機(jī)器生成供搀。有了這些先驗(yàn)知識隅居,計算機(jī)程序還可以像人類學(xué)習(xí)分類,解析和生成新的手寫字符
?學(xué)習(xí)稀有的情況葛虐。當(dāng)很難或不可能獲得帶有充足的監(jiān)督信息樣本時胎源,F(xiàn)SL可以為稀有情況學(xué)習(xí)模型。例如屿脐,考慮一個藥物發(fā)現(xiàn)任務(wù)()涕蚤,該任務(wù)試圖預(yù)測一個新分子是否具有毒性作用[Low data drug discovery with one-shot learning]宪卿。通過新分子的有限測定和許多類似分子的測定(即先驗(yàn)知識)獲得的,正確分配為有毒或無毒()分子的百分比會提高万栅。
?減少數(shù)據(jù)收集工作量和計算成本佑钾。 FSL可以幫助減輕收集大量帶有監(jiān)督信息的示例的負(fù)擔(dān)》沉#考慮少量樣本圖像分類任務(wù)()[One-shot learning of object categories]休溶。圖像分類精度()隨目標(biāo)類別T的每個類別的少量標(biāo)記圖像獲得的E以及從其他類別中提取的先驗(yàn)知識(例如原始圖像到共同訓(xùn)練)而提高。成功完成此任務(wù)的方法通常具有較高的通用性扰她。因此兽掰,它們可以輕松地應(yīng)用于許多樣本的任務(wù)。
與表1相比徒役,表2在“經(jīng)驗(yàn)”下有一個額外的列孽尽,標(biāo)記為由于僅包含幾個與直接相關(guān)的受監(jiān)管信息的樣本,這也就很自然忧勿,常見的受監(jiān)管學(xué)習(xí)方法常常在FSL問題上失敗杉女,因此,F(xiàn)SL方法通過結(jié)合可用的受監(jiān)管信息使對目標(biāo)的學(xué)習(xí)變得可行在中具有一些先驗(yàn)知識狐蜕,即“學(xué)習(xí)者在查看樣本之前具有的有關(guān)未知功能的任何信息” [Quantifying prior determination knowledge using the PAC learning model]宠纯。 FSL方法的一種典型類型是貝葉斯學(xué)習(xí)[One-shot learning of object categories,Human-level concept learning through probabilistic program induction]层释。它結(jié)合了提供的訓(xùn)練集和一些先驗(yàn)概率分布婆瓜,這些概率分布在給出之前就可用[Pattern Recognition and Machine Learning]。
備注1.當(dāng)E中只有一個帶有監(jiān)督信息的樣本時贡羔,F(xiàn)SL被稱為單發(fā)學(xué)習(xí)[Learning feed-forward one-shot learners廉白,One-shot learning of object categories,Matching networks for one shot learning]乖寒。當(dāng)E不包含任何帶有目標(biāo)T監(jiān)督信息的樣本時猴蹂,F(xiàn)SL成為零次學(xué)習(xí)問題(ZSL)[Learning to detect unseen object classes by between-class attribute transfer]。由于目標(biāo)類不包含帶有監(jiān)督信息的示例楣嘁,因此ZSL要求E包含其他模態(tài)(例如屬性磅轻,WordNet和稀有對象識別任務(wù)中使用的單詞嵌入)中的信息,以便傳遞一些監(jiān)督信息并使學(xué)習(xí)成為可能逐虚。
2.2相關(guān)的學(xué)習(xí)問題
在本節(jié)中聋溜,我們討論一些相關(guān)的機(jī)器學(xué)習(xí)問題。 闡明了與FSL的相關(guān)性和差異叭爱。
?弱監(jiān)督學(xué)習(xí)[A brief introduction to weakly supervised learning]從僅包含弱監(jiān)督(例如不完整撮躁,不精確,不準(zhǔn)確或嘈雜的受監(jiān)督信息)的經(jīng)驗(yàn)中學(xué)習(xí)买雾。與FSL最相關(guān)的問題是缺乏監(jiān)督的弱監(jiān)督學(xué)習(xí)把曼,其中只有少量樣本具有監(jiān)督信息杨帽。根據(jù)是oracle還是人類利用干預(yù),可以進(jìn)一步將其分為以下幾類:
–半監(jiān)督學(xué)習(xí)Semi-supervised learning literature survey]嗤军,它從E中的少量標(biāo)記樣本和(通常是大量)未標(biāo)記樣本中學(xué)習(xí)注盈。示例應(yīng)用是文本和網(wǎng)頁分類。陽性無標(biāo)記學(xué)習(xí)[Positive unlabeled learning for data stream classification]是半監(jiān)督學(xué)習(xí)的一種特殊情況型雳,其中僅給出陽性和未標(biāo)記的樣本当凡。例如山害,要推薦社交網(wǎng)絡(luò)中的朋友纠俭,我們僅根據(jù)朋友列表了解用戶的當(dāng)前朋友,而他們與其他人的關(guān)系是未知的浪慌。
–主動學(xué)習(xí)[Active learning literature survey]冤荆,它選擇信息量豐富的未標(biāo)記數(shù)據(jù),以向oracle查詢輸出权纤。通常用于注釋標(biāo)簽價格昂貴的應(yīng)用钓简,例如行人檢測。
根據(jù)定義汹想,具有不完全監(jiān)督的弱監(jiān)督學(xué)習(xí)僅包括分類和回歸外邓,而FSL還包括強(qiáng)化學(xué)習(xí)問題。此外古掏,在不完全監(jiān)督的情況下损话,弱監(jiān)督學(xué)習(xí)主要使用未標(biāo)記的數(shù)據(jù)作為E中的附加信息,而FSL利用了各種先驗(yàn)知識槽唾,例如預(yù)訓(xùn)練模型丧枪,來自其他領(lǐng)域或方式的監(jiān)督數(shù)據(jù),并且不限于使用未標(biāo)記的數(shù)據(jù)庞萍。因此拧烦,只有當(dāng)先驗(yàn)知識是未標(biāo)記的數(shù)據(jù)并且任務(wù)是分類或回歸時,F(xiàn)SL才成為弱監(jiān)督學(xué)習(xí)問題钝计。
?學(xué)習(xí)失衡[Learning from imbalanced data]從經(jīng)驗(yàn)中學(xué)習(xí)y的分布偏斜恋博。當(dāng)很少使用的某些值時(例如在欺詐檢測和巨災(zāi)預(yù)測應(yīng)用程序中),就會發(fā)生這種情況私恬。它會訓(xùn)練和測試以在所有可能的中進(jìn)行選擇债沮。相比之下,F(xiàn)SL通過一些樣本對進(jìn)行訓(xùn)練和測試践付,同時可能會將其他作為學(xué)習(xí)的先驗(yàn)知識秦士。
?遷移學(xué)習(xí)[A survey on transfer learning]將知識從訓(xùn)練數(shù)據(jù)豐富的源域/任務(wù)轉(zhuǎn)移到缺乏訓(xùn)練數(shù)據(jù)的目標(biāo)域/任務(wù)。 它可用于跨域推薦永高,跨時間段隧土,空間和移動設(shè)備的WiFi本地化等應(yīng)用提针。 域適應(yīng)[Analysis of representations for domain adaptation]是一種遷移學(xué)習(xí),其中源/目標(biāo)任務(wù)相同曹傀,但源/目標(biāo)域不同辐脖。 例如,在情感分析中皆愉,源域數(shù)據(jù)包含電影的客戶評論嗜价,而目標(biāo)域數(shù)據(jù)包含日用品的客戶評論。 遷移學(xué)習(xí)方法在FSL [Multi-content GAN for few-shot font style transfer幕庐,Feature space transfer for data augmentation久锥,Label efficient learning oftransferable representations acrosss domains and tasks]中得到了廣泛使用,其中先驗(yàn)知識從源任務(wù)轉(zhuǎn)移到了少樣本任務(wù)异剥。
?元學(xué)習(xí)[Learning to learn using gradient descent]通過提供的數(shù)據(jù)集和元學(xué)習(xí)者跨任務(wù)提取的元知識來改進(jìn)新任務(wù)的瑟由。 具體地,元學(xué)習(xí)者逐漸學(xué)習(xí)跨任務(wù)的通用信息(元知識)冤寿,并且學(xué)習(xí)者使用任務(wù)特定信息將元學(xué)習(xí)者概括為新任務(wù)歹苦。 它已成功應(yīng)用于學(xué)習(xí)優(yōu)化器[Learning to learn by gradient descent by gradient descent、Learning Gradient Descent: Better Generalization and Longer Horizons]督怜,協(xié)作過濾中的冷啟動問題[A meta-learning perspective on cold-start recommendations for items]和自然語言指導(dǎo)策略等問題中殴瘦。 元學(xué)習(xí)方法可用于處理FSL問題。 如第4節(jié)和第5節(jié)所示号杠,元學(xué)習(xí)器被視為指導(dǎo)每個特定FSL任務(wù)的先驗(yàn)知識蚪腋。 附錄A中提供了元學(xué)習(xí)的正式定義及其如何用于FSL問題。
2.3核心問題
在任何機(jī)器學(xué)習(xí)問題中究流,通常都存在預(yù)測錯誤辣吃,并且無法獲得完美的預(yù)測。 在本節(jié)中芬探,我們說明了有監(jiān)督機(jī)器學(xué)習(xí)中基于錯誤分解的FSL的核心問題[The tradeoffs of large scale learning神得,Optimization methods for large-scale machine learning]。 該分析適用于FSL監(jiān)督學(xué)習(xí)偷仿,包括分類和回歸哩簿,還可以為理解FSL強(qiáng)化學(xué)習(xí)提供見解。
2.3.1 經(jīng)驗(yàn)風(fēng)險最小化
給定假設(shè)酝静,我們希望將其預(yù)期風(fēng)險最小化节榜,是相對于測得的損失别智。 特別宗苍,
由于是未知的,因此存在經(jīng)驗(yàn)風(fēng)險(這是個樣本的訓(xùn)練集上樣本損失的平均值)
通常用作的代理讳窟,從而使經(jīng)驗(yàn)風(fēng)險最小化[Foundations of Machine Learning让歼,Principles of risk minimization for learning theory](可能有一些調(diào)節(jié)器)。 為了說明丽啡,令:
? = 是最小化預(yù)期風(fēng)險的函數(shù);
? 是在最小化預(yù)期風(fēng)險的函數(shù);
? 是在最小化經(jīng)驗(yàn)風(fēng)險的函數(shù).
由于是未知的谋右,因此必須將其近似某個。是中的最佳近似值补箍,而是通過經(jīng)驗(yàn)風(fēng)險最小化獲得的中的最佳假設(shè)改执。 為簡單起見,我們假設(shè)和是唯一的辈挂。 總誤差可分解為[The tradeoffs of large scale learning,Optimization methods for large-scale machine learning]:
對的隨機(jī)選擇的期望霞丧。 近似誤差衡量中的函數(shù)可以接近最佳假設(shè)的程度呢岗,而估計誤差衡量將經(jīng)驗(yàn)風(fēng)險最小化而不是預(yù)期風(fēng)險在中的。
如圖所示蛹尝,總誤差受(假設(shè)空間)和(樣本的數(shù)量)。 換句話說悉尾,可以從(i)提供的數(shù)據(jù)突那; (ii)確定的模型; (iii)搜索適合的最優(yōu)的算法的角度嘗試學(xué)習(xí)減少總誤差
2.3.2 不可靠的經(jīng)驗(yàn)風(fēng)險最小化器
通常构眯,可以通過使用更多樣本[The tradeoffs of large scale learning愕难,Optimization methods for large-scale machine learning、The Elements of Statistical Learning:data mining,inference,and prediction]來減少惫霸。 因此猫缭,當(dāng)有足夠的帶有監(jiān)督信息的訓(xùn)練數(shù)據(jù)時(即,是大的)壹店,經(jīng)驗(yàn)風(fēng)險最小化器可以為中的提供最佳的近似值猜丹。
然而在FSL中,可用樣本的數(shù)量很少硅卢。 然后射窒,經(jīng)驗(yàn)風(fēng)險與預(yù)期風(fēng)險的近似值相差甚遠(yuǎn),并且由此產(chǎn)生的經(jīng)驗(yàn)風(fēng)險最小化指標(biāo)過擬合将塑。 的確脉顿,這是FSL監(jiān)督學(xué)習(xí)的核心問題,即經(jīng)驗(yàn)風(fēng)險最小化不再可靠点寥。 因此翔横,F(xiàn)SL困難得多斋泄。 圖1顯示了學(xué)習(xí)量與訓(xùn)練量足夠少的比較宴抚。
2.4 分類法
為了減輕在FSL監(jiān)督學(xué)習(xí)中具有不可靠的經(jīng)驗(yàn)風(fēng)險最小化因素的問題躬拢,必須使用先驗(yàn)知識。 基于使用先驗(yàn)知識對哪個方面進(jìn)行了增強(qiáng)脆贵,可以將現(xiàn)有的FSL工作分為以下幾個方面(圖2)。
?數(shù)據(jù)。 這些方法使用先驗(yàn)知識來增強(qiáng)兽间,并將樣本數(shù)量從增加到,其中正塌。然后嘀略,可以在擴(kuò)增后的數(shù)據(jù)上使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)模型和算法,并可以得到更準(zhǔn)確的經(jīng)驗(yàn)風(fēng)險最小化因子(圖2(a))乓诽。
?模型帜羊。 這些方法使用先驗(yàn)知識來約束的復(fù)雜度,從而導(dǎo)致更小的假設(shè)空間鸠天。 如圖2(b)所示讼育,如圖2(b)所示,灰色區(qū)域沒有考慮進(jìn)行優(yōu)化稠集,因?yàn)楦鶕?jù)先驗(yàn)知識奶段,它們不大可能包含最佳。 對于這個較小的剥纷,足以學(xué)習(xí)可靠的 [43痹籍,86,99]晦鞋。
?算法蹲缠。 這些方法使用先驗(yàn)知識來搜索參數(shù)化中最佳假設(shè)的。先驗(yàn)知識通過提供良好的初始化(圖2(c)中的灰色三角形)或指導(dǎo)搜索步驟(灰色來改變搜索策略)悠垛。 圖2(b)中的虛線)线定。 對于后者,結(jié)果搜索步驟受先驗(yàn)知識和經(jīng)驗(yàn)風(fēng)險最小化因素的影響确买。
因此斤讥,現(xiàn)有作品可以分類為統(tǒng)一的分類法,如圖3所示拇惋。我們將在以下各節(jié)中詳細(xì)介紹每個類別周偎。
3 數(shù)據(jù)
本節(jié)中的FSL方法使用先驗(yàn)知識來增強(qiáng)數(shù)據(jù),以便豐富中的受監(jiān)管信息撑帖。使用擴(kuò)充樣本集蓉坎,數(shù)據(jù)足以獲得可靠的(圖4)。
通過手工制定的規(guī)則進(jìn)行的數(shù)據(jù)擴(kuò)充通常用作FSL方法中的預(yù)處理胡嘿。他們可以引入不同種類的不變性以供模型捕獲蛉艾。例如,在圖像上,可以使用平移[One-shot unsupervised cross domain translation勿侯、Human-level concept learning through probabilistic program induction拓瞪、Meta-learning with memory-augmented neural networks、Attentive recurrent comparators]助琐,翻轉(zhuǎn)[Low-shot learning with imprinted weights祭埂、Attentive recurrent comparators
],剪切[Attentive recurrent comparators]兵钮,縮放[Human-level concept learning through probabilistic program induction蛆橡、Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data],反射[Towards a neural statistician掘譬、CLEAR: Cumulative learning for one-shot one-class image recognition]泰演,裁剪[Low-shot learning with imprinted weights, Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data]和旋轉(zhuǎn)[Meta-learning with memory-augmented neural networks葱轩,Matching networks for one shot learning]睦焕。但是,設(shè)計這些規(guī)則在很大程度上取決于領(lǐng)域知識靴拱,并且需要昂貴的人工成本垃喊。此外,擴(kuò)充規(guī)則可以特定于數(shù)據(jù)集缭嫡,從而使其難以應(yīng)用于其他數(shù)據(jù)集缔御。而且,人類不可能列舉出所有可能的不變性妇蛀。因此,手動數(shù)據(jù)擴(kuò)充不能完全解決FSL問題[One-shot unsupervised cross domain translation笤成、Towards a neural statistician评架、CLEAR: Cumulative learning for one-shot one-class image recognition、Human-level concept learning through probabilistic program induction炕泳、Meta-learning with memory-augmented neural networks纵诞、Attentive recurrent comparators]。
除了這些手工制定的規(guī)則培遵,我們還將在以下更高級的數(shù)據(jù)擴(kuò)充中進(jìn)行回顧方法浙芙。根據(jù)要轉(zhuǎn)換并添加到的樣本,我們將這些方法分類籽腕,如表3所示嗡呼。
3.1 基于訓(xùn)練數(shù)據(jù)轉(zhuǎn)換樣本
此策略通過將每個轉(zhuǎn)換為多個具有變化的樣本來增強(qiáng)。轉(zhuǎn)換過程作為先驗(yàn)知識包含在經(jīng)驗(yàn)E中皇耗,以便生成其他樣本南窗。早期的FSL論文[Learning from one example through shared densities on transforms]通過將每個樣本與其他樣本反復(fù)對齊,從相似的類中學(xué)習(xí)了一組幾何變換。將學(xué)習(xí)到的變換應(yīng)用于每個窒悔,以形成一個大數(shù)據(jù)集,然后可以通過標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)方法來學(xué)習(xí)該數(shù)據(jù)集敌买。類似地简珠,從[Delta Encoder: An effective sample synthesis method for few-shot object recognition]中的相似類中學(xué)習(xí)了一組自動編碼器,每個自動編碼器代表一個類內(nèi)可變性虹钮。通過將習(xí)得的變化量添加到來生成新樣本聋庵。在[Low-shot visual recognition by shrinking and hallucinating features]中,通過假設(shè)所有類別在樣本之間共享一些可變換的可變性芜抒,可以學(xué)習(xí)單個變換函數(shù)珍策,將從其他類別學(xué)習(xí)到的樣本對之間的差異轉(zhuǎn)移到宅倒。在[One-shot learning of scene locations via feature trajectory transfer]中攘宙,不是枚舉成對的變量,而是使用從大量場景圖像中獲悉的一組獨(dú)立的屬性強(qiáng)度回歸將每個轉(zhuǎn)換為幾個樣本拐迁,并將原始的標(biāo)簽分配給這些新樣本蹭劈。在[One-shot learning of scene locations via feature trajectory transfer]的基礎(chǔ)上進(jìn)行了改進(jìn),在[ Feature space transfer for data augmentation]中线召,連續(xù)屬性子空間用于向添加屬性變化铺韧。
3.2 基于弱標(biāo)注或無標(biāo)注數(shù)據(jù)轉(zhuǎn)換樣本
此策略通過從標(biāo)記弱或未標(biāo)記的大數(shù)據(jù)集中選擇帶有目標(biāo)標(biāo)記的樣本來增強(qiáng)。例如缓淹,在用監(jiān)視攝像機(jī)拍攝的照片中哈打,有人,汽車和道路讯壶,但沒有一個被標(biāo)記料仗。另一個示例是一段較長的演示視頻。它包含說話者的一系列手勢伏蚊,但是沒有一個被明確注釋立轧。由于此類數(shù)據(jù)集包含樣本的較大變化,因此將其增加到有助于描述更清晰的氛改。此外,由于不需要人工來標(biāo)記比伏,因此收集這樣的數(shù)據(jù)集更加容易胜卤。但是,盡管收集成本很低凳怨,但主要問題是如何選擇帶有目標(biāo)標(biāo)簽的樣本以增加到瑰艘。在[Domain-adaptive discriminative one-shot learning of gestures]中是鬼,為中的每個目標(biāo)標(biāo)簽學(xué)習(xí)了一個示例SVM,然后將其用于從弱標(biāo)簽數(shù)據(jù)集中預(yù)測樣本的標(biāo)簽紫新。然后將具有目標(biāo)標(biāo)簽的樣品添加到中均蜜。在[Low-shot learning with large-scale diffusion]中,標(biāo)簽傳播直接用于標(biāo)記未標(biāo)記的數(shù)據(jù)集芒率,而不是學(xué)習(xí)分類器囤耳。在[Exploit the unknown gradually: One-shot video-based person re-identification by stepwise learning]中,采用漸進(jìn)策略來選擇內(nèi)容豐富的未標(biāo)記樣品偶芍。然后為選定的樣本分配偽標(biāo)簽充择,并用于更新CNN。
3.3 基于類似數(shù)據(jù)集轉(zhuǎn)換樣本
此策略通過聚合和改編來自相似但較大的數(shù)據(jù)集中的輸入輸出對來增強(qiáng)匪蟀。聚集權(quán)重通匙德螅基于樣本之間的某種相似性度量。在[Improving one-shot learning through fusing side information]中材彪,它從輔助文本語料庫中提取聚合權(quán)重观挎。由于這些樣本可能不是來自目標(biāo)FSL類,因此直接將匯總樣本增加到可能會產(chǎn)生誤導(dǎo)段化。因此嘁捷,生成對抗網(wǎng)絡(luò)(generative adversarial network -GAN)[Generative adversarial nets]旨在從許多樣本的數(shù)據(jù)集中生成難以區(qū)分的合成聚合的[Low-shot learning via covariance-preserving adversarial augmentation networks]。它有兩個
生成器显熏,一個將少數(shù)類別的樣本映射到大規(guī)模類別雄嚣,另一種將大型類別的樣本映射到少數(shù)類別(以彌補(bǔ)GAN訓(xùn)練中樣本的不足)。
3.4 討論和總結(jié)
使用哪種擴(kuò)充策略的選擇取決于應(yīng)用程序喘蟆。有時缓升,對于目標(biāo)任務(wù)(或類),存在大量弱監(jiān)督或未標(biāo)記的樣本蕴轨,但由于收集注釋數(shù)據(jù)和/或計算成本高昂(這對應(yīng)于在第2.1節(jié))仔沿。在這種情況下,可以通過轉(zhuǎn)換標(biāo)記較弱或未標(biāo)記的數(shù)據(jù)集中的樣本來執(zhí)行增強(qiáng)尺棋。當(dāng)難以收集大規(guī)模的未標(biāo)記數(shù)據(jù)集,但是少量類別具有某些相似類時绵跷,可以從這些相似類中轉(zhuǎn)換樣本膘螟。如果只有一些學(xué)習(xí)的轉(zhuǎn)換器而不是原始樣本可用,則可以通過轉(zhuǎn)換中的原始樣本來進(jìn)行擴(kuò)充碾局。
通常荆残,通過增加解決FSL問題非常簡單明了。通過利用目標(biāo)任務(wù)的先驗(yàn)信息來擴(kuò)充數(shù)據(jù)净当。另一方面内斯,通過數(shù)據(jù)擴(kuò)充來解決FSL問題的弱點(diǎn)在于蕴潦,擴(kuò)充策略通常是針對每個數(shù)據(jù)集量身定制的,并且不能輕易地用于其他數(shù)據(jù)集(尤其是來自其他域的數(shù)據(jù)集)俘闯。最近潭苞,提出了自動學(xué)習(xí)用于深度網(wǎng)絡(luò)訓(xùn)練的增強(qiáng)策略的AutoAugment [AutoAugment:Learning Augmentation Strategies from Data]來解決這個問題。除此之外真朗,現(xiàn)有的方法主要是針對圖像設(shè)計的此疹,因?yàn)樯傻膱D像可以很容易地被人目視評估。相反遮婶,文本和音頻涉及語法和結(jié)構(gòu)蝗碎,并且較難生成。在[EDA: Easy data augmentation techniques for boosting performance on text classification tasks]中報告了最近對文本使用數(shù)據(jù)增強(qiáng)的嘗試旗扑。
文獻(xiàn)原文:
Generalizing from a Few Examples: A Survey on Few-Shot
Learning
Github地址