小樣本學(xué)習(xí)(Few-shot Learning)綜述

姓名:劉慧林祠汇;學(xué)號:21021210619呀潭;學(xué)院:電子工程學(xué)院
轉(zhuǎn)載:https://zhuanlan.zhihu.com/p/359356731

論文題目:《Generalizing from a Few Examples: A Survey on Few-Shot Learning》

該論文出自香港科技大學(xué)躬柬。

摘要機(jī)器學(xué)習(xí)在數(shù)據(jù)密集型應(yīng)用中取得了成功骤肛,但在數(shù)據(jù)集很少時(shí)俗慈,常常受到阻礙扮惦。近期艇搀,為了解決這個問題尿扯,提出了“小樣本學(xué)習(xí)”。它可以用先驗(yàn)知識從受監(jiān)督的經(jīng)驗(yàn)有限的新任務(wù)中快速得出結(jié)論焰雕。為了全面了解FSL衷笋,本文進(jìn)行了一項(xiàng)徹底的調(diào)查研究。首先從FSL的正式定義開始淀散,我們將FSL與幾個相關(guān)的機(jī)器學(xué)習(xí)問題區(qū)分開來右莱。其中不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化是FSL的核心問題〉挡澹基于采用先驗(yàn)知識來處理核心問題的方式慢蜓,將不同的FSL方法分為三個方面:1)數(shù)據(jù)使用先驗(yàn)知識來增強(qiáng)監(jiān)督經(jīng)驗(yàn),2)模型通過先驗(yàn)知識來約束假設(shè)空間郭膛,3)算法使用先驗(yàn)知識來改變假設(shè)空間搜索最佳假設(shè)的參數(shù)晨抡。在這種統(tǒng)一的分類法下,本文對不同類別的利弊進(jìn)行了詳盡的討論则剃。最后耘柱,在問題設(shè)置、技術(shù)棍现、應(yīng)用和理論方面為FSL提出了可能的方向调煎,為后續(xù)研究提供深刻見解。

一己肮、引言

計(jì)算機(jī)科學(xué)之父圖靈早在1950年時(shí)士袄,就曾提出,“機(jī)器會思考嗎谎僻?”這樣的問題娄柳。機(jī)器的最終目標(biāo)是像人一樣聰明。近些年出現(xiàn)了強(qiáng)大的計(jì)算設(shè)備GPU艘绍,大型數(shù)據(jù)集ImageNet及先進(jìn)模型和算法赤拒。AI已經(jīng)在一些方面擊敗了人類,比如:AlphaGo,ResNet(在分類任務(wù)上擊敗了人類)挎挖。人工智能還支持yu日常生活中一些智能工具的開發(fā)这敬,如語音助聽器、搜索引擎蕉朵、自動駕駛汽車和工業(yè)機(jī)器人鹅颊。

即使AI發(fā)展的如火如荼,然而當(dāng)前的技術(shù)無法在少量數(shù)據(jù)中推廣墓造。人類能夠利用過去的經(jīng)驗(yàn)快速學(xué)習(xí)新任務(wù)堪伍,給一個小孩幾張陌生人的照片,他可以從大量照片中找到同一人的照片觅闽。在人類看起來如此簡單的事情帝雇,然而機(jī)器就無法做到。

因此蛉拙,縮小AI和人類之間的差距是一個重要的方向尸闸。由于機(jī)器學(xué)習(xí)涉及如何構(gòu)建隨經(jīng)驗(yàn)而自動改進(jìn)的計(jì)算機(jī)程序的問題,因此可以通過機(jī)器學(xué)習(xí)來解決孕锄。為了從少量有監(jiān)督的樣本信息中學(xué)習(xí)吮廉,誕生了機(jī)器學(xué)習(xí)算法Few-shot Learning (FSL)。典型的應(yīng)用有字符生成畸肆,機(jī)器人技術(shù)(一鍵模仿宦芦,多臂強(qiáng)盜,視覺導(dǎo)航轴脐,連續(xù)控制)调卑,藥物發(fā)現(xiàn),F(xiàn)SL翻譯大咱,冷啟動項(xiàng)目推薦恬涧。另外,F(xiàn)SL還可以減輕標(biāo)簽數(shù)據(jù)的收集和減少數(shù)據(jù)密集型應(yīng)用的數(shù)據(jù)收集碴巾。比如:圖像分類溯捆、圖像檢索、目標(biāo)跟蹤厦瓢、手勢識別提揍、圖像理解、視覺問題回答旷痕、視頻時(shí)間檢測碳锈、語言建模和神經(jīng)結(jié)構(gòu)搜索顽冶。

在人工智能接近人類的學(xué)術(shù)目標(biāo)和工業(yè)對廉價(jià)學(xué)習(xí)需求的推動下欺抗,F(xiàn)SL近來備受關(guān)注,已成為熱門話題强重。許多機(jī)器學(xué)習(xí)算法被提出绞呈,如meta-learning贸人、embedding learning、generative modeling佃声。然而目前并沒有相關(guān)工作去調(diào)研FLS方法艺智,解釋為什么有些方法能工作,有些方法失敗圾亏,不同方法的利弊十拣。因此,本文對FSL問題進(jìn)行了詳細(xì)的調(diào)研志鹃。

這篇調(diào)研的貢獻(xiàn)可總結(jié)如下:

(1)給出了FSL的正式定義夭问,這自然離不開經(jīng)典機(jī)器學(xué)習(xí)的定義。這個定義不僅充分說明了FSL如何工作曹铃,還闡明了FSL的目標(biāo)是什么及如何解決它缰趋。此定義有助于確定FSL領(lǐng)域的未來研究目標(biāo)。

(2)列出了相關(guān)的學(xué)習(xí)問題并給出了具體的例子陕见,說明了與FSL的區(qū)別與聯(lián)系秘血。這些討論有助于在各種學(xué)習(xí)中更好地區(qū)分和定位FSL。

指出FSL監(jiān)督學(xué)習(xí)的核心問題是不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化评甜,它是基于機(jī)器學(xué)習(xí)中的錯誤分解進(jìn)行分析的灰粮。這為以后更有條理和系統(tǒng)化的方式改進(jìn)FSL方法提供了見解。

(3)從數(shù)據(jù)忍坷、模型和算法的角度進(jìn)行了微觀的擴(kuò)展性回顧谋竖,并通統(tǒng)一的分類法去組織。還總結(jié)了一些見解承匣,并討論了每個類別的優(yōu)缺點(diǎn)蓖乘。這有助于更好地理解FSL方法。

(4)我們在問題設(shè)置韧骗、技術(shù)嘉抒、應(yīng)用、理論方面給出了FSL未來有前景的研究方向袍暴。這些深刻見解是基于當(dāng)前FSL的弱點(diǎn)些侍,并有可能在未來做出改進(jìn)。

1.1 調(diào)研的組織情況

第二部分提供了FSL的概述政模,包括FSL的正式定義岗宣、相關(guān)的學(xué)習(xí)問題、核心問題及現(xiàn)有工作在數(shù)據(jù)淋样、模型和算法方面的分類耗式。第三部分用數(shù)據(jù)擴(kuò)增來解決FSL問題。第四部分用算法減少假說空間大小的方法,使FSL可行刊咳。第五部分用于改進(jìn)算法的搜索策略以處理FSL問題的方法彪见。第六部分,從問題設(shè)置娱挨、技術(shù)余指、應(yīng)用和理論方面為FSL提出了未來的方向。第七部分跷坝,總結(jié)調(diào)研酵镜。

1.2 符號和術(shù)語

1.jpg

二、概述

2.1 問題定義

由于FSL是機(jī)器學(xué)習(xí)的子區(qū)域柴钻,這里先給出機(jī)器學(xué)習(xí)的定義:對于某類任務(wù)T和性能度量P笋婿,一個計(jì)算機(jī)程序被認(rèn)為可以從經(jīng)驗(yàn)E中學(xué)習(xí)是指,通過經(jīng)驗(yàn)E改進(jìn)后顿颅,它在任務(wù)T上由性能度量P衡量的性能有所提升缸濒。

例如:一個圖像分類任務(wù)T,一個機(jī)器學(xué)習(xí)程序可以通過訓(xùn)練大量的標(biāo)記數(shù)據(jù)得到經(jīng)驗(yàn)E粱腻,進(jìn)而提高分類準(zhǔn)確率庇配。另一個例子,AlphaGo绍些,在古老的圍棋比賽中擊敗人類捞慌,通過在一個數(shù)據(jù)庫E上訓(xùn)練3000多萬個人類專家記錄的動作,并反復(fù)與自己比賽柬批,來提高自己對對手的獲勝率啸澡。

機(jī)器學(xué)習(xí)的應(yīng)用中包含了很多有監(jiān)督學(xué)習(xí),然而氮帐,有些應(yīng)用是不可行的嗅虏,甚至不可能。FSL是一個典型的機(jī)器學(xué)習(xí)案例上沐,它致力于在有限的監(jiān)督樣本中學(xué)習(xí)更好的性能皮服。

小樣本學(xué)習(xí)定義;是一種機(jī)器學(xué)習(xí)問題参咙,經(jīng)驗(yàn)E在任務(wù)T上有少量的監(jiān)督信息的樣本情況下獲得的龄广。

現(xiàn)有的小樣本學(xué)習(xí)主要是監(jiān)督學(xué)習(xí)問題。具體描述如下:

2.jpg

FSL 三個典型的應(yīng)用場景

(1)模仿人類學(xué)習(xí)蕴侧。為了向人類智能邁進(jìn)择同,計(jì)算機(jī)程序能夠解決FSL問題至關(guān)重要。一個流行的任務(wù)就是净宵,僅給出幾個樣本就可以生成一個新的字符敲才。受人類學(xué)習(xí)方式的啟發(fā)裹纳,計(jì)算機(jī)程序使用E進(jìn)行學(xué)習(xí),E有有監(jiān)督信息的給定示例和預(yù)訓(xùn)練的概念(如部分和關(guān)系)作為先驗(yàn)知識組成归斤。通過視覺圖靈測試(P)的通過率對生成的字符進(jìn)行評估,該測試可以區(qū)分圖像是由人還是機(jī)生成的刁岸。有了這些先驗(yàn)知識脏里,計(jì)算機(jī)程序還可以學(xué)習(xí)分類,解析和生成帶有人類示例的新手寫字符虹曙。

(2)罕見案例學(xué)習(xí)迫横。如:新藥物的發(fā)現(xiàn),此案例無法收集足夠多的監(jiān)督樣本酝碳。

(3)減少數(shù)據(jù)收集和計(jì)算成本矾踱。

FSL方法通過將E中可用的監(jiān)督信息與一些先驗(yàn)知識相結(jié)合來使任務(wù)T的學(xué)習(xí)變得可行。這些先驗(yàn)知識是學(xué)習(xí)器在看到例子之前對未知函數(shù)的所有信息疏哗。FSL方法的一種典型類型是貝葉斯學(xué)習(xí)呛讲,它結(jié)合了所提供的訓(xùn)練集Dtrain和一些先驗(yàn)概率分布,這些概率分布在給出Dtrain之前就可用返奉。

在經(jīng)驗(yàn)E中若只有一個監(jiān)督信息樣本時(shí)贝搁,則FSL稱之為one-shot learning,若經(jīng)驗(yàn)E未包含任何監(jiān)督信息樣本時(shí)芽偏,則FSL成為zero-shot learning(ZSL)雷逆。若目標(biāo)類別中不含有監(jiān)督信息的樣本時(shí),ZSL需要從其他的形式獲得信息(屬性污尉、WordNet膀哲、罕見的對象識別任務(wù)中使用的單詞嵌入),以傳輸一些受監(jiān)督的信息并使學(xué)習(xí)成為可能被碗。

2.2 相關(guān)的學(xué)習(xí)問題

2.2.1 弱監(jiān)督學(xué)習(xí)

弱監(jiān)督學(xué)習(xí)定義:不完整某宪、不精確、不準(zhǔn)確锐朴、有噪聲的監(jiān)督信息

與FSL最相關(guān)的問題是指不完全監(jiān)督(只有少量的有監(jiān)督信息的樣本)中的弱監(jiān)督學(xué)習(xí)缩抡。

弱監(jiān)督學(xué)習(xí)分類:

半監(jiān)督學(xué)習(xí)——使用少量有標(biāo)簽和大量無標(biāo)簽樣本學(xué)習(xí)

主動學(xué)習(xí)——無標(biāo)簽樣本發(fā)給oracle(業(yè)務(wù)專家)詢問輸出,此類主要針對樣本標(biāo)記價(jià)格高包颁,比如:行人檢測瞻想。

FSL和弱監(jiān)督學(xué)習(xí)的區(qū)別

弱監(jiān)督學(xué)習(xí)和不完全監(jiān)督學(xué)習(xí)僅包括分類和回歸,而FSL學(xué)習(xí)還包括強(qiáng)化學(xué)習(xí)問題娩嚼。此外蘑险,弱監(jiān)督學(xué)習(xí)和不完全監(jiān)督學(xué)習(xí)主要使用未標(biāo)記的數(shù)據(jù)作為E中的附加信息,而FSL利用了各種先驗(yàn)知識岳悟,例如預(yù)訓(xùn)練模型和其他領(lǐng)域方式的監(jiān)督數(shù)據(jù)佃迄,并且不限于使用未標(biāo)記的數(shù)據(jù)泼差。因此,只有當(dāng)先驗(yàn)知識是未標(biāo)記的數(shù)據(jù)且任務(wù)是分類或回歸時(shí)呵俏,F(xiàn)SL才成為弱監(jiān)督學(xué)習(xí)問題堆缘。

2.2.2 不平衡學(xué)習(xí)

定義:從經(jīng)驗(yàn)E中學(xué)習(xí)y的偏態(tài)分布。

和FSL的區(qū)別:不平衡學(xué)習(xí)會進(jìn)行訓(xùn)練和測試普碎,以便在所有可能的y中進(jìn)行選擇吼肥。相比之下,F(xiàn)SL會通過一些樣本對y進(jìn)行訓(xùn)練和測試麻车,同時(shí)可能會將其他的y作為學(xué)習(xí)的先驗(yàn)知識缀皱。

2.2.3 遷移學(xué)習(xí)

定義:將知識從訓(xùn)練數(shù)據(jù)豐富的源域(任務(wù))轉(zhuǎn)移到數(shù)據(jù)缺乏的目標(biāo)域(任務(wù))。

特點(diǎn):遷移學(xué)習(xí)方法在FSL中得到了廣泛的應(yīng)用动猬,其中先驗(yàn)知識從源任務(wù)轉(zhuǎn)移到了少數(shù)任務(wù)啤斗。

2.2.4 元學(xué)習(xí)

定義:跨任務(wù)提取元知識來改進(jìn)新任務(wù)。

特點(diǎn):歸納FSL的先驗(yàn)知識

2.3 FSL的核心問題

2.3.1 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化不可靠

真實(shí)風(fēng)險(xiǎn)期望:

3.png

估計(jì)風(fēng)險(xiǎn)經(jīng)驗(yàn):

4.jpg

大樣本和小樣本學(xué)習(xí)誤差對比

5.jpg

2.4 FSL方法分類及研究現(xiàn)狀


6.jpg
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末赁咙,一起剝皮案震驚了整個濱河市钮莲,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌彼水,老刑警劉巖臂痕,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異猿涨,居然都是意外死亡握童,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門叛赚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來澡绩,“玉大人,你說我怎么就攤上這事俺附》士ǎ” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵事镣,是天一觀的道長步鉴。 經(jīng)常有香客問我,道長璃哟,這世上最難降的妖魔是什么氛琢? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮随闪,結(jié)果婚禮上阳似,老公的妹妹穿的比我還像新娘。我一直安慰自己铐伴,他們只是感情好撮奏,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布俏讹。 她就那樣靜靜地躺著,像睡著了一般畜吊。 火紅的嫁衣襯著肌膚如雪泽疆。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天玲献,我揣著相機(jī)與錄音殉疼,去河邊找鬼。 笑死青自,一個胖子當(dāng)著我的面吹牛株依,可吹牛的內(nèi)容都是我干的驱证。 我是一名探鬼主播延窜,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼抹锄!你這毒婦竟也來了逆瑞?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤伙单,失蹤者是張志新(化名)和其女友劉穎获高,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吻育,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡念秧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了布疼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片摊趾。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖游两,靈堂內(nèi)的尸體忽然破棺而出砾层,到底是詐尸還是另有隱情,我是刑警寧澤贱案,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布肛炮,位于F島的核電站,受9級特大地震影響宝踪,放射性物質(zhì)發(fā)生泄漏侨糟。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一瘩燥、第九天 我趴在偏房一處隱蔽的房頂上張望粟害。 院中可真熱鬧,春花似錦颤芬、人聲如沸悲幅。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽汰具。三九已至卓鹿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間留荔,已是汗流浹背吟孙。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留聚蝶,地道東北人杰妓。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像碘勉,于是被迫代替她去往敵國和親巷挥。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354