【譯】小樣本學習綜述（下）

注明：本文是對一篇整理166篇文獻的綜述翻譯窄赋，其中對應文獻地址都已附上為方便點擊查看學習傅联。查看有的文獻可能需要科學上網(wǎng)秸苗。原文文末附有。由于篇幅太長分為上下倆部分爹土。

小樣本學習（FSL）綜述.png

4 模型

為了近似地面真假說 $\scriptstyle \hat{h}$ 甥雕，模型必須確定包含一系列假設 $\scriptstyle h$ 的假想空間 $\scriptstyle \mathcal{H}$ ，以使最優(yōu) $\scriptstyle h^{*} \in \mathcal{H}$ 和 $\scriptstyle \hat{h}$ 之間的距離很小胀茵。
給定樣本數(shù)量很少的 $\scriptstyle D_{train}$ ，可以選擇一個簡單模型（例如線性分類器）[Machine Learning挟阻，Foundations ofmachine learning]的小 $\scriptstyle \mathcal{H}$ 琼娘。然而，現(xiàn)實世界中的問題通常很復雜附鸽，并且不能由小 $\scriptstyle \mathcal{H}$ 的假設 $\scriptstyle h$ 很好地表示（這可能導致（1）中的 $\scriptstyle \mathcal{E}_{\mathrm{app}}(\mathcal{H})$ 大）[Deep Learning]脱拼。因此，在FSL中優(yōu)選使用足夠大的 $\scriptstyle \mathcal{H}$ 坷备，這使得標準的機器學習模型不可行熄浓。本節(jié)中的FSL方法通過將E中的先驗知識（圖2（b））將 $\scriptstyle \mathcal{H}$ 約束到較小的假設空間 $\scriptstyle \tilde{\mathcal{H}}$ 來設法學習。這樣省撑，經(jīng)驗風險最小化器就更加可靠赌蔑，并且降低了過擬合的風險。
根據(jù)所使用的先驗知識竟秫，可以進一步屬于此類別的方法分為四種類型（表4）娃惯。

image.png

4.1 多任務學習

在存在多個相關任務的情況下，多任務學習[Multitask Learning肥败，A survey on multi-task learning]通過利用任務通用信息和特定于任務的信息同時學習這些任務趾浅。因此，它們自然可以用于FSL馒稍。在這里皿哨，我們介紹了在FSL中使用多任務學習的一些實例。
我們獲得了與 $\scriptstyle C$ 有關的任務 $\scriptstyle T_{1}, \ldots, T_{C}$ 纽谒，其中一些樣本數(shù)量很少证膨，而另一些樣本數(shù)量較多。每個任務 $\scriptstyle T_c$ 都有一個數(shù)據(jù)集 $\scriptstyle D_{c}=\left\{D_{\text {train }}^{c}, D_{\text {test }}^{c}\right\}$ 佛舱，其中 $\scriptstyle D_{\text {train }}^{c}$ 是訓練集椎例， $\scriptstyle D_{\text {test }}^{c}$ 是測試集挨决。在這些 $\scriptstyle C$ 任務中，我們認為訓練較少的任務作為目標任務订歪，其余作為源任務脖祈。從 $\scriptstyle D_{\text {train }}^{c}$ 去獲取 $\scriptstyle \theta_{c}$ 的多任務學習為了每一個 $\scriptstyle T_c$ 。當這些任務被共同學習時刷晋，為任務 $\scriptstyle T_c$ 學習的 $\scriptstyle h_c$ 的參數(shù) $\scriptstyle θ_c$ 受到其他任務的約束盖高。根據(jù)任務參數(shù)的約束方式，我們將該策略劃分為（i）參數(shù)共享眼虱；（ii）參數(shù)綁定[Deep Learning]喻奥。

4.1.1 參數(shù)共享。

該策略直接在任務之間共享一些參數(shù)（圖5）捏悬。在[Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data]中撞蚕，兩個任務網(wǎng)絡共享通用信息的前幾層，并學習不同的最終層以處理不同的輸出过牙。在[Few-shot charge prediction with discriminative legal attributes]中甥厦，法律文本上的兩個自然語言處理任務被一起解決：收費預測和法律屬性預測。使用單個嵌入功能對犯罪案件描述進行編碼寇钉，然后將其饋送到特定于任務的嵌入功能和分類器刀疙。在[Few-shot adversarial domain adaptation]中，變體自動編碼器首先從源任務中經(jīng)過預訓練扫倡，然后克隆到目標任務中谦秧。為了捕獲通用信息，兩個變體自動編碼器中的某些層是共享的撵溃，同時允許兩個任務都具有一些特定于任務的層疚鲤。目標任務只能更新其特定于任務的層，而源任務可以同時更新共享和特定于任務的層征懈。在[One-shot unsupervised cross domain translation]中石咬，原始樣本和生成樣本都首先通過學習源任務和目標任務的單獨嵌入函數(shù)映射到特定于任務的空間，然后由共享的變分自動編碼器嵌入卖哎。

Fig. 5. Solving the FSL problem by multitask learning with parameter sharing.

4.1.2 參數(shù)綁定鬼悠。

這種策略鼓勵不同任務的參數(shù) $\scriptstyle （θ_c）$ 相似（圖6）[Deep Learning]。一種流行的方法是對 $\scriptstyle θ_c$ 進行正則化亏娜。在[Multi-task transfer methods to improve one-shot learning for multimedia event detection]中焕窝， $\scriptstyle θ_c$ 的所有成對差異都受到了懲罰。在[Label efficient learning oftransferable representations acrosss domains and tasks]中维贺，有一個CNN用于源任務它掂，另一個用于目標任務。這兩個CNN的層使用一些特殊設計的正則化術語對齊。

Fig. 6. Solving the FSL problem by multitask learning with parameter tying.

4.2 嵌入學習

嵌入學習[Caffe: Convolutional architecture for fast feature embedding虐秋，A Comprehensive Introduction to Differential Geometry]將每個樣本 $\scriptstyle x_{i} \in \mathcal{X} \subseteq \mathbb{R}^g7sb71w$ 嵌入到低維 $\scriptstyle z_{i} \in \mathcal{Z} \subseteq \mathbb{R}^{m}$ 榕茧，這樣相似的樣本彼此靠近，而不同的樣本則更容易區(qū)分客给。在這個較低維度的 $\scriptstyle \mathcal{Z}$ 中用押，可以構造一個較小的假設空間 $\scriptstyle \mathcal{H}$ ，隨后需要較少的訓練樣本靶剑。嵌入功能主要是從先驗知識中學到的蜻拨，并且可以額外使用 $\scriptstyle D_{train}$ 的任務特定信息。
嵌入學習具有以下關鍵組成部分：（i）嵌入測試的函數(shù) $f$ 樣本 $\scriptstyle x_{\text {test }} \in D_{\text {test }}$ 到 $\scriptstyle \mathcal{Z}$ 桩引，（ii）一個將訓練樣本 $\scriptstyle x_{i} \in D_{\text {train }}$ 嵌入到 $\scriptstyle \mathcal{Z}$ 的函數(shù) $\scriptstyle g$ 缎讼，和（iii）一個相似函數(shù) $\scriptstyle s(\cdot, \cdot)$ ，它在 $\scriptstyle \mathcal{Z}$ 中測量 $\scriptstyle f（x_{test}）$ 和 $\scriptstyle g（x_i）$ 之間的相似性坑匠，將測試樣本 $\scriptstyle x_{test}$ 分配給 $\scriptstyle x_i$ 類血崭，根據(jù)，其嵌入 $\scriptstyle g（x_i）$ 與 $\scriptstyle \mathcal{Z}$ 中的 $\scriptstyle f（x_{test}）$ 最相似笛辟。盡管可以為 $\scriptstyle x_i$ 和 $\scriptstyle x_test$ 使用通用的嵌入函數(shù)功氨，但使用兩個單獨的嵌入函數(shù)可以獲得更好的準確性[Learning feed-forward one-shot learners，Matching networks for one shot learning]手幢。表5總結了現(xiàn)有的嵌入學習方法。
根據(jù)嵌入函數(shù) $\scriptstyle f$ 和 $\scriptstyle g$ 的參數(shù)是否隨任務而變化忱详，我們將這些FSL方法分類為使用（i）特定于任務的嵌入模型围来； （ii）不變任務（即一般）嵌入模型； （iii）混合嵌入模型匈睁，可同時編碼特定于任務的信息和不變于任務的信息监透。

image.png

4.2.1 特定于任務的嵌入模型。

特定于任務的嵌入方法通過僅使用來自該任務的信息來學習針對每個任務量身定制的嵌入功能航唆。例如胀蛮，使用任務 $\scriptstyle T_c$ 中少量的數(shù)據(jù) $\scriptstyle D_{\text {train }}^{c}$ ， $\scriptstyle D_{\text {train }}^{c}$ 中樣本之間的所有成對排名被枚舉為
[Few-shot learning through an information retrieval lens]中的樣本對糯钙。訓練樣本的數(shù)量因此增加粪狼，并且即使僅使用特定于任務的信息也可以學習嵌入功能。

4.2.2 任務不變式嵌入模型任岸。

任務不變的嵌入方法從包含足夠樣本且具有各種輸出的大規(guī)模數(shù)據(jù)集中學習通用嵌入函數(shù)再榄，然后將其直接用于新的少量 $\scriptstyle D_{train}$ ，而無需重新訓練（圖7）享潜。第一個FSL嵌入模型[Object Classification from a Single Example Utilizing Class Relevance Metrics]使用內核嵌入樣本困鸥。最近，卷積孿生網(wǎng)絡(convolutional siamese net)[Signature Verification using a "Siamese" Time Delay Neural Network ]學會了更復雜的嵌入[Siamese neural networks for one-shot image recognition剑按，Few-shot learning for short text classification]。

Fig. 7. Solving the FSL problem by task-invariant embedding model.

盡管任務不變嵌入不會使用來更新使用少量 $\scriptstyle D_{train}$ 的嵌入模型參數(shù)缀匕，此類別中的許多方法[Prototypical Networks for Few-shot Learning王滤，Learning to Compare: Relation Network for Few-Shot Learning，Matching networks for one shot learning]在訓練嵌入模型時模擬了少量的方案鸟废。假設我們有訓練集 $\scriptstyle D_c$ ，每個訓練集都有 $\scriptstyle N$ 個課程漆诽。在每個 $\scriptstyle D_c$ 中侮攀，僅從 $\scriptstyle N$ 個類別中的 $\scriptstyle U$ 個樣本進行訓練。通過最大化其余 $\scriptstyle N -U$ 類的性能來優(yōu)化嵌入模型厢拭。因此兰英，學習的模型將對少量任務具有良好的概括性。早期嘗試[Optimizing one-shot recognition with micro-set learning]從 $\scriptstyle D_c$ 學習線性嵌入供鸠。最近畦贸，通過meta-learning方法學習了更復雜的任務不變嵌入模型：

（1）匹配網(wǎng)絡（Matching Nets） [Matching networks for one shot learning]及其變體[Low data drug discovery with one-shot learning、Learning algorithms for active learning楞捂、Structured set matching networks for one-shot part labeling]：Matching Nets [Matching networks for one shot learning] meta-learning不同的嵌入函數(shù)（ $\scriptstyle f$ 和 $\scriptstyle g$ ）用于訓練樣本 $\scriptstyle x_i$ 和測試樣本 $\scriptstyle x_test$ 薄坏。殘余LSTM（resLSTM）[Low data drug discovery with one-shot learning]為 $\scriptstyle f$ 和 $\scriptstyle g$ 提出了更好的設計。 Matching Nets的一種主動學習變體[Learning algorithms for active learning]添加了一個樣本選擇步驟寨闹，該步驟標記了最有益的未標記樣本胶坠，并使用它來增強 $\scriptstyle D_{train}$ 。 Matching Nets還擴展到了Set-to-Set匹配[Structured set matching networks for one-shot part labeling]繁堡，這在標記樣品的多個部分時很有用沈善。
（2）原型網(wǎng)絡（ProtoNet）[Prototypical networks for few-shot learning]及其變體[TADAM: Task dependent adaptive metric for improved few-shot learning、Metalearning for semi-supervised few-shot classification椭蹄、Low-shot learning from imaginary data]：ProtoNet [Prototypical networks for few-shot learning]僅比較 $\scriptstyle D_{train}$ 中的類原型的 $\scriptstyle f（x_{test}）$ 闻牡，而不是將 $\scriptstyle f（x_{test}）$ 與每個 $\scriptstyle x_{i} \in D_{\text {train }}$ 的 $\scriptstyle g（xi）$ 比較。對于 $\scriptstyle n$ 類绳矩，其原型只是 $\scriptstyle c_n=\frac{1}{K} \sum_{i=1}^{K} g(x_{i})$ 罩润，其中 $\scriptstyle K x_i$ 是來自 $\scriptstyle n$ 類。根據(jù)經(jīng)驗翼馆，這將導致更穩(wěn)定的結果并降低計算成本割以。使用原型的想法在[Low-shot learning from imaginary data]中引入了Matching Nets。 ProtoNet的半監(jiān)督變體在學習過程中通過軟分配來分配未標記的樣本以增強 $\scriptstyle D_{train}$ [Metalearning for semi-supervised few-shot classification]写妥。
（3）其他方法拳球。例子包括Attentive Recurrent Comparators（ARC）[Attentive recurrent comparators]，它使用LSTM引起關注[Neural machine translation by jointly learning to align and translate)]珍特，將 $\scriptstyle x_{test}$ 的不同區(qū)域與原型 $\scriptstyle c_n$ 進行比較祝峻，然后將比較結果作為中間嵌入進行嵌入。此外，它使用bidirectional LSTM（biLSTM）嵌入所有比較作為最終嵌入莱找。Relation Net [Learning to compare: Relation network for few-shot learning]使用CNN將 $\scriptstyle x_{test}$ 和 $\scriptstyle x_i$ 嵌入 $\scriptstyle \mathcal{Z}$ 酬姆，然后將它們串聯(lián)在一起作為嵌入，然后將其饋送到另一個CNN以輸出相似度得分奥溺。 [Learning to propagate labels: Transductive propagation network for few-shot learning辞色，Few-shot learning with graph neural networks]中使用圖神經(jīng)網(wǎng)絡（graph neural network-GNN）來利用來自本地社區(qū)的信息。在少量的強化學習應用程序中（如在連續(xù)控制和視覺導航中）浮定，時間信息很重要相满。Simple Neural AttentIve Learner（SNAIL）[A simple neural attentive meta-learner]是一個具有交錯的時間卷積層和注意力層的嵌入網(wǎng)絡。時間卷積層聚合來自過去時間步長的信息桦卒，而注意層有選擇地關注與當前輸入有關的特定時間步長立美。

4.2.3 混合嵌入模型。

盡管可以將任務不變的嵌入方法以較低的計算成本應用于新任務方灾，但是它們沒有利用當前任務的特定知識建蹄。當任務特制是 $\scriptstyle D_{train}$ 僅提供一些樣本的原因（例如，學習稀有情況）時裕偿，僅應用任務不變的嵌入功能可能不適合洞慎。為了緩解此問題，混合嵌入模型通過 $\scriptstyle D_{train}$ 中的特定于任務的信息來適應從先驗知識中學到的通用任務不變式嵌入模型嘿棘。這是通過學習將 $\scriptstyle D_{train}$ 提取的信息作為輸入并返回一個嵌入函數(shù)的函數(shù)來完成的 $\scriptstyle f（·）$ 的參數(shù)（圖8）劲腿。

Fig. 8. Solving the FSL problem by hybrid embedding model.

Learnet [Learning feed-forward one-shot learners]通過合并 $\scriptstyle D_{train}$ 的具體信息改進了任務不變卷積孿生網(wǎng)絡[Siamese neural networks for one-shot image recognition]。它從多個元訓練集中學習一個元學習器鸟妙，并將每個訓練示例 $\scriptstyle x_{i} \in D_{\text {train }}$ 映射到學習者（卷積孿生網(wǎng)絡）的參數(shù)谆棱。這樣， $\scriptstyle f（·）$ 的參數(shù)隨給定的 $\scriptstyle x_i$ 改變圆仔，從而導致混合嵌入。對Learnet進行了改進蔫劣，在[Meta-learning with differentiable closed-form solvers]中坪郭，將學習者的分類層替換為嶺回歸，從而可以有效地以封閉形式獲取參數(shù)脉幢。以下兩項工作[Tadam:Task dependent adaptive metric for improved few-shot learning歪沃，Dynamic conditional networks for few-shot learning]將 $\scriptstyle D_{train}$ 作為一個整體來輸出 $\scriptstyle f（·）$ 的任務特定參數(shù)。任務相關的自適應量度（Task dependent adaptive metric-TADAM）[TADAM: Task dependent adaptive metric for improved few-shot learning]將類原型平均化到任務嵌入中嫌松，并使用元學習函數(shù)將其映射到ProtoNet參數(shù)沪曙。動態(tài)條件卷積網(wǎng)絡-Dynamic Conditional Convolutional Network (DCCN) [Dynamic conditional networks for few-shot learning]使用一組固定的濾波器，并使用 $\scriptstyle D_{train}$ 學習組合系數(shù)萎羔。

4.3 基于外部記憶學習

使用外部存儲器學習[Neural Turing machines液走、Key-value memory networks for directly reading documents、End-to-end memory networks、Memory networks)]從 $\scriptstyle D_{train}$ 中提取知識缘眶，并將其存儲在外部存儲器中（圖9）嘱根。然后，每個新樣本 $\scriptstyle x_{test}$ 由從內存中提取的內容的加權平均值表示巷懈。這限制了 $\scriptstyle x_{test}$ 由內存中的內容表示该抒，因此實質上減小了 $\scriptstyle \mathcal{H}$ 的大小。

Fig. 9. Solving the FSL problem by learning with external memory. This figure illustrates a simplified example where the embedding function f is used for representation learning and the memory takes f(xi ) as the key and output yi as the label.

FSL中通常使用鍵值存儲器[Key-value memory networks for directly reading documents]顶燕。設記憶為 $\scriptstyle M \in \mathbb{R}^{b \times m}$ 凑保，每個
它的 $\scriptstyle b$ 個存儲槽 $\scriptstyle M(i) \in \mathbb{R}^{m}$ 由鍵值對 $\scriptstyle M(i)=\left(M_{\mathrm{key}}(i), M_{\mathrm{value}}(i)\right)$ 組成。首先通過嵌入函數(shù) $f$ 嵌入測試樣本 $\scriptstyle x_{test}$ 涌攻。但是欧引，與嵌入方法不同， $\scriptstyle f（x_{test}）$ 不能直接用作 $\scriptstyle x_{test}$ 的表示癣漆。取而代之的是维咸，它僅用于從最相似的內存插槽中查詢，基于 $\scriptstyle f（x_{test}）$ 與每個密鑰 $\scriptstyle M_{key}（i）$ 之間的相似度 $\scriptstyle s（f（x_{test}）惠爽，M_{key}（i））$ 癌蓖。提取最相似的內存插槽（ $\scriptstyle M_{value}（i）$ ）的值并將其合并以形成 $\scriptstyle x_{test}$ 的表示形式。然后將其用作簡單分類器（例如softmax函數(shù)）的輸入以進行預測婚肆。由于操縱 $\scriptstyle M$ 的成本很高租副，因此 $\scriptstyle M$ 通常尺寸較小。當 $\scriptstyle M$ 未滿時较性，可以將新樣本寫入空閑的存儲插槽用僧。當 $M$ 已滿時，必須決定要更換的內存插槽赞咙。表6介紹了帶有外部存儲器的方法的特性责循。

image.png

由于每個 $\scriptstyle x_{test}$ 表示為從內存中提取的值的加權平均值，因此內存中的鍵值對的質量很重要攀操。根據(jù)存儲器的功能院仿，該類別中的FSL方法可分為兩種類型。

4.3.1 完善表示形式

下列方法將 $\scriptstyle D_{train}$ 小心地放入內存中速和，以便存儲的鍵值對可以更準確地表示 $\scriptstyle x_{test}$ 歹垫。記憶增強神經(jīng)網(wǎng)絡（Memory-Augmented Neural Networks (MANN) [Meta-learning with memory-augmented neural networks]元學習嵌入 $\scriptstyle f$ ，并將相同類別的樣本映射到相同值颠放。然后排惨，同一類的樣本一起在內存中優(yōu)化它們的類表示。該類表示可以看作是ProtoNet [Prototypical networks for few-shot learning]中的一個改進的類原型碰凶∧喊牛基于urprise-based memory模塊[Adaptive posterior learning: Few-shot learning with a surprise-based memory module]僅在不能很好地表示 $\scriptstyle x_i$ 時鹿驼，更新 $\scriptstyle M$ 。因此谴麦，使用該 $\scriptstyle x_i$ 更新 $\scriptstyle M$ 使得 $\scriptstyle M$ 更具表達性蠢沿，并且還降低了計算成本。abstract memory[Few-shot object recognition from machine-labeled web images]使用兩個存儲器匾效。一種從包含大型機器注釋數(shù)據(jù)集的固定存儲器中提取相關的鍵值對舷蟀，另一種則對提取的值進行精煉并提取出最有用的信息，以進行少量樣本（圖像）分類面哼。這個想法在[Compound memory networks for few-shot video classification]中擴展到了少量樣本視頻分類野宜。

因此，某些方法在存儲器中特別注意保護少量分類魔策。請注意匈子，少量樣本分類很小，因此保留在 $\scriptstyle M$ 中的機會較小闯袒。 $\scriptstyle M$ 中的每個少量樣本也可以很容易地用更豐富類中的樣本替換虎敦。為了減輕這個問題，提出了終身存儲器lifelong memory[Learning to remember rare events]政敢。與以前的存儲器[Adaptive posterior learning: Few-shot learning with a surprise-based memory module其徙、Meta-learning with memory-augmented neural networks、Few-shot object recognition from machine-labeled web images喷户、Compound memory networks for few-shot video classification]會擦除任務中的存儲器內容不同唾那，終身存儲器會在存儲器已滿時擦除“最舊”的存儲器值，然后將所有存儲器插槽的使用期限重置為零褪尝。對于新樣本闹获，當返回的 $\scriptstyle M_{value}（i）$ 值與其實際輸出匹配時，它將與當前 $\scriptstyle M_{key}（i）$ 合并河哑，而不是寫入新的內存插槽避诽，因此，所有類都更有可能被占用相同數(shù)量的內存插槽璃谨，稀有類受到保護茎用，近來，這種終身內存適用于學習[Memory, show the way: Memory based few shot word representation learning]中的單詞表示睬罗。
然而，即使使用了終身內存旭斥，仍會忘記稀有樣本容达。更新后，終生內存會將所選 $\scriptstyle M（i）$ 的使用期限重置為零垂券，并將其他非空內存插槽的使用期限增加一花盐。當內存已滿且返回值錯誤時羡滑，將替換最早的內存插槽。由于稀有類別的樣本很少更新其 $\scriptstyle M（i）$ 算芯，因此它們被擦除的可能性更高柒昏。

4.3.2 優(yōu)化參數(shù)。

回想一下熙揍，Learnet [Learning feed-forward one-shot learners]及其變體（第4.2.3節(jié)）從 $\scriptstyle D_{train}$ 映射信息职祷，以參數(shù)化新 $\scriptstyle x_{test}$ 的嵌入函數(shù) $\scriptstyle g(\cdot)$ 〗烨簦可以使用存儲器來完善此參數(shù)有梆。 Meta Networks（MetaNet）[Meta networks]使用從多個數(shù)據(jù)集元學習的“slow”權重和作為 $\scriptstyle D_{train}$ 特定任務的嵌入的fast權重，對分類模型進行參數(shù)化意系。如[Rapid adaptation with conditionally shifted neurons]所示泥耀，通過學習修改每個神經(jīng)元而不是完整的參數(shù)，可以減少MetaNet的計算成本蛔添。 MN-Net [Memory matching networks for one-shot image recognition]使用內存來完善在Matching Nets中學習的嵌入痰催，如Learnet一樣，其輸出用于對CNN進行參數(shù)化迎瞧。

4.4 生成建模

生成建模方法借助先驗知識（圖10）從觀測到的 $\scriptstyle x_i$ 估計概率分布 $\scriptstyle p（x）$ 夸溶。 $\scriptstyle p（x）$ 的估計通常涉及 $\scriptstyle p（x | y）$ 和 $\scriptstyle p（y）$ 的估計。此類中的方法可以處理許多任務夹攒，例如生成[Towards a neural statistician蜘醋、Human-level concept learning through probabilistic program induction、Few-shot autoregressive density estimation: Towards learning to learn distributions咏尝、One-shot generalization in deep generative models]压语，識別[Towards a neural statistician、One-shot learning of object categories编检、Meta-learning probabilistic inference for prediction胎食、Human-level concept learning through probabilistic program induction、One-shot learning with a hierarchical nonparametric Bayesian model允懂、Learning to learn with compound HD models厕怜、MetaGAN: An adversarial approach to few-shot learning]，重構[Meta-learning probabilistic inference for prediction]和圖像翻轉[Few-shot autoregressive density estimation: Towards learning to learn distributions]蕾总。

Fig. 10. Solving the FSL problem by generative modeling.

在生成建模中粥航，假定觀測到的 $\scriptstyle x$ 是從由 $θ$ 參數(shù)化的某個分布 $\scriptstyle p（x;θ）$ 得出的。通常生百，存在一個潛在變量 $\scriptstyle z \sim p(z ; \gamma)$ 递雀，因此 $\scriptstyle x \sim \int p(x | z ; \theta) p(z ; \gamma) d z$ 。從其他數(shù)據(jù)集獲悉的先驗分布 $\scriptstyle p(z ; \gamma)$ 帶來了對FSL至關重要的先驗知識蚀浆。通過將提供的訓練集 $\scriptstyle D_{train}$ 與此 $\scriptstyle p(z ; \gamma)$ 組合缀程，可以約束所得的后驗概率分布搜吧。換句話說， $\scriptstyle \mathcal{H}$ 被限制為更小的 $\scriptstyle \tilde{H}$ 杨凑。
根據(jù)潛在變量 $\scriptstyle \mathcal{z}$ 的表示滤奈，我們將這些FSL生成建模方法分為三種類型。

4.4.1 可分解成分撩满。

盡管在FSL問題中缺少具有監(jiān)督信息的樣本蜒程，但它們可能與其他任務的樣本共享一些較小的可分解組件。例如鹦牛，考慮僅使用提供的幾張面部照片識別一個人搞糕。盡管可能很難找到相似的面孔，但可以輕松找到眼睛曼追，鼻子或嘴巴相似的照片窍仰。使用大量樣本，可以輕松了解這些可分解組件的模型礼殊。然后驹吮，僅需要找到這些可分解組件的正確組合，并確定該組合屬于哪個目標類晶伦。由于可分解成分是由人類選擇的碟狞，因此這種策略更具可解釋性皇型。 Bayesian One-Shot [One-shot learning of object categories]使用生成模型來捕獲可分解組件（即對象的形狀和外觀）與目標類別（即要識別的對象）之間的交互高帖。貝葉斯程序學習（Bayesian Program Learning-BPL）[Human-level concept learning through probabilistic program induction]通過將字符分為類型，標記以及其他模板旋炒，部分和原語來對字符進行建模泌参。為了產(chǎn)生一個新的角色脆淹，需要搜索一個包含這些成分的大組合空間。在[Human-level concept learning through probabilistic program induction]中沽一，僅通過考慮可能的最高組合就可以降低這種推理成本盖溺。在自然語言處理中，最近的工作[Extending a parser to distant domains using a few dozen partially annotated examples]建立了跨度而不是完整的解析樹的模型铣缠，并通過訓練跨度的單個分類器來使語法分離的域之間的解析器適應烘嘱。

4.4.2 按組共享優(yōu)先級

通常，相似的任務具有相似的先驗概率蝗蛙，并且可以在FSL中使用蝇庭。例如，考慮“橙色貓”捡硅，“豹”和“孟加拉虎”的三級分類遗契，這三個物種相似，但孟加拉虎瀕臨滅絕病曾，而橙色貓和豹則豐富牍蜂，因此，人們可以學習一種先驗概率來自“橙色貓”和“豹”泰涂，并以此作為先發(fā)幾率的“孟加拉虎”類鲫竞。
在[One-shot learning with a hierarchical nonparametric Bayesian model]中，一組數(shù)據(jù)集 $\scriptstyle {D_c}$ 通過無監(jiān)督學習被分組為一個層次結構逼蒙。數(shù)據(jù)每個小組中的集合一起學習分類先驗概率从绘。對于一個新的少量樣本，首先要找到該新類所屬的組是牢，然后根據(jù)從按組共享的先驗概率中提取的先驗類對它進行建模僵井。在[Learning to learn with compound HD models]中，[One-shot learning with a hierarchical nonparametric Bayesian model]中的特征學習步驟通過使用深度玻爾茲曼機[Deep boltzmann machines]得到進一步改進驳棱。

4.4.3 推理網(wǎng)絡的參數(shù)

為了找到最佳θ批什，必須最大化后驗

image.png

由于分母中的積分，所以難于求解（2）社搅。從數(shù)據(jù)中學習到的變化分布 $\scriptstyle q(z ; \delta)$ 驻债，通常用于近似 $\scriptstyle p(z | x ; \theta, \gamma)$ 。最近形葬，這個 $\scriptstyle q(z ; \delta)$ 是通過使用推理網(wǎng)絡進行分期的變分推理來估計的[158]合呐。盡管 $\scriptstyle z$ 不再具有語義含義，但是這些深度模型學習到的強大表示形式可以帶來更好的性能笙以。一旦學習淌实，推理網(wǎng)絡就可以直接應用于新任務，這將更加高效并且需要更少的人類知識猖腕。由于推理網(wǎng)絡具有大量參數(shù)拆祈，因此通常使用一些輔助大規(guī)模數(shù)據(jù)集對其進行訓練。許多經(jīng)典的推理網(wǎng)絡都適用于FSL問題谈息。例如缘屹，在[Towards a neural statistician，The variational homoencoder: Learning to learn high capacity generative models from few examples侠仇，One-shot generalization in deep generative models]中使用變分自編碼器（ariational auto-encoder-VAE）[Auto-encoding variational Bayes]轻姿，在[Few-shot autoregressive density estimation: Towards learning to learn distributions]中使用自回歸模型[Conditional image generation with PixelCNN decoder]，在[MetaGAN: An adversarial approach to few-shot learning]中使用生成對抗網(wǎng)絡（generative adversarial networks -GAN）[Generative adversarial nets]逻炊，并在[Meta-learning probabilistic inference for prediction]中提出了VAE和GAN的組合互亮。

4.5 討論和總結

當存在類似的任務或輔助任務時，可以使用多任務學習來約束少量樣本任務的 $\scriptstyle \mathcal{H}$ 余素。但是豹休，請注意，需要共同培訓所有任務桨吊。因此威根，當一個新的少量樣本任務出現(xiàn)時凤巨，整個多任務模型必須再次訓練，這可能既昂貴又緩慢洛搀。此外敢茁， $\scriptstyle D$ 和 $\scriptstyle D_c$ 的大小不應具有可比性，否則留美，少量樣本的任務可能會被具有許多樣本的任務淹沒彰檬。

如果存在一個包含足夠數(shù)量的各種類別樣本的大規(guī)模數(shù)據(jù)集，則可以使用嵌入學習方法谎砾。這些方法將樣本映射到良好的嵌入空間逢倍，在其中可以很好地分離來自不同類別的樣本，因此需要較小的 $\scriptstyle \tilde{H}$ 景图。但是较雕，他們當少量樣本任務與其他任務沒有密切關系時，可能無法正常工作症歇。此外郎笆，更多有關如何混合任務的不變和特定于任務的信息的探索是有幫助的。

當有可用的內存網(wǎng)絡時忘晤，可以通過培訓簡單的方法將其輕松用于FSL宛蚓。內存頂部的模型（例如分類器）。通過使用精心設計的更新規(guī)則设塔，可以有選擇地保護內存插槽凄吏。該策略的弱點在于，它會導致額外的空間和計算成本闰蛔，隨著內存大小的增加而增加痕钢。因此，當前的外部存儲器具有有限的大小序六。
最后任连，當除了FSL之外還想要執(zhí)行諸如生成和重構之類的任務時，可以使用生成模型例诀。他們從其他數(shù)據(jù)集中學習了先驗概率 $\scriptstyle p(z ; \gamma)$ 随抠，這將 $\scriptstyle H$ 減小到了更小的 $\tilde{H}$ 。學習的生成模型也可以用于生成樣本數(shù)據(jù)擴充繁涂。但是拱她，生成建模方法具有較高的推理成本，比確定性模型更難得到扔罪。

5 算法

該算法是在假設空間 $\scriptstyle \mathcal{H}$ 中搜索最佳假設 $\scriptstyle h^{*}$ [The tradeoffs of large scale learning秉沼，Optimization methods for large-scale machine learning]的參數(shù) $\scriptstyle θ$ 的策略。在第 $\scriptstyle t$ 次迭代中， $\scriptstyle \theta_{t}=\theta_{t-1}+\Delta \theta_{t-1}$ 唬复，其中 $\scriptstyle \Delta \theta_{t-1}$ 是更新矗积。例如，對于流行的隨機梯度下降（stochastic gradient descent -SGD）及其變體[The tradeoffs of large scale learning敞咧，Optimization methods for large-scale machine learning]漠魏， $\scriptstyle θ$ 更新為

image.png

其中

\scriptstyle \alpha_{t}

是步長。將

\scriptstyle θ

初始化為

\scriptstyle θ_0

時妄均，

\scriptstyle θ_t

可寫為

image.png

當監(jiān)督信息豐富時，有足夠的訓練樣本來更新

\scriptstyle θ

哪自，并通過交叉驗證找到合適的步長

\scriptstyle α

丰包。但是，在FSL中壤巷，提供的

\scriptstyle D_{train}

不夠大邑彪，并且獲得的經(jīng)驗風險最小化器也不可靠。
本節(jié)中的方法使用先驗知識來影響

\scriptstyle θ

的獲得方式胧华，方法是：
（i）提供良好的初始化參數(shù)

\scriptstyle θ_0

寄症，或（ii）直接學習優(yōu)化器以輸出搜索步驟。根據(jù)搜索策略如何受先驗知識影響矩动，我們將本節(jié)中的方法分為三類（表7）：

（1）細化現(xiàn)有參數(shù)有巧。初始 $\scriptstyle θ_0$ 是從其他任務中學到的，然后使用 $\scriptstyle D_{train}$ 進行優(yōu)化悲没。
（2）完善元學習參數(shù)篮迎。初始 $\scriptstyle θ_0$ 是從一組任務中元學習的，這些任務是從與少量樣本任務相同的任務分布中得出的示姿，然后由學習者使用 $\scriptstyle D_{train}$ 進一步完善甜橱。
（3）學習優(yōu)化器。此策略將學習元學習器作為優(yōu)化器栈戳，以直接為每個學習者輸出搜索步驟岂傲，例如更改搜索方向或步驟大小。

image.png

5.1 細化現(xiàn)有參數(shù)

該策略將從相關任務中學習到的預訓練模型的 $\scriptstyle θ_0$ 當作一個良好的初始化子檀，并通過 $\scriptstyle D_{train}$ 將其調整為 $\scriptstyle θ$ 镊掖。假設 $\scriptstyle θ_0$ 捕獲了大規(guī)模數(shù)據(jù)的一些一般結構。因此命锄，可以通過幾次迭代將其適應于 $\scriptstyle D$ 堰乔。

5.1.1 通過正則化微調現(xiàn)有參數(shù)

該策略通過正則化來微調少量樣本任務的預訓練 $\scriptstyle θ_0$ （圖11），并在實踐中廣泛使用脐恩。在[One-shot video object segmentation]中镐侯，使用大型數(shù)據(jù)集對在ImageNet上預先訓練的用于圖像分類的CNN進行前景分割，然后使用單個分割對象的鏡頭對目標圖像進行進一步調整。給定少量樣本的 $\scriptstyle D_{train}$ 苟翻，僅通過梯度下降微調 $\scriptstyle θ_0$ 可能會導致過度擬合韵卤。因此，如何在不過度擬合 $\scriptstyle D_{train}$ 的情況下適應 $\scriptstyle θ_0$ 是一個關鍵的設計問題崇猫。

Fig. 11. Solving the FSL problem by fine-tuning existing parameter θ0 by regularization.

在本節(jié)中沈条，方法通過正則化微調 $\scriptstyle θ_0$ 以防止過度擬合。他們可以分以下幾種類型：

（1）盡早停止诅炉。它需要將驗證集與 $\scriptstyle D_{train}$ 分開以監(jiān)視訓練程序蜡歹。當驗證集的性能沒有提高時，學習就會停止[6]涕烧。
（2）有選擇地更新 $\scriptstyle θ_0$ 月而。為了避免過擬合，僅更新 $\scriptstyle θ_0$ 的一部分议纯。例如父款，在[Learning structure and strength ofCNN filters for small sample size training]中，給定一組預訓練的過濾器瞻凤，它僅學習與過濾器相乘的強度參數(shù)憨攒。
（3）一起更新 $\scriptstyle θ_0$ 的相關部分》Р危可以將 $\scriptstyle θ_0$ 的元素（例如深層神經(jīng)網(wǎng)絡中的神經(jīng)元）分組肝集，并使用相同的更新信息共同更新每個組。在[Efficient k-shot learning with regularized deep networks]中结笨，預訓練的CNN的過濾器根據(jù)一些輔助信息聚類在一起包晰，然后使用 $\scriptstyle D_{train}$ 通過逐組反向傳播進行微調。
（4）使用模型回歸網(wǎng)絡炕吸。模型回歸網(wǎng)絡[Learning to Learn: Model Regression Networks for Easy Small Sample Learning]捕獲與任務無關的轉換伐憾，該轉換將通過對少量樣本進行訓練而獲得的參數(shù)值映射到將對大量樣本進行訓練而獲得的參數(shù)值。類似地赫模，在[CLEAR: Cumulative learning for one-shot one-class image recognition]中树肃，學習了將 $\scriptstyle x_i$ 的嵌入映射到分類決策邊界的變換函數(shù)。

5.1.2 匯總參數(shù)

有時瀑罗，我們沒有合適的 $\scriptstyle θ_0$ 開始胸嘴。相反，我們有許多模型是從相關任務中學到的斩祭。例如劣像，在面部識別中，我們可能已經(jīng)具有針對眼睛摧玫，鼻子和耳朵的識別模型耳奕。因此，可以將這些模型參數(shù)匯總為合適的模型，然后直接使用它或由 $\scriptstyle D_{train}$ 對其進行完善（圖12）屋群。

Fig. 12. Solving the FSL problem by aggregating a set of parameters θ0’s into θ. Provided with a set of pre-trained θ0’s, one only needs to learn the combination weights (blue lines).

如第3節(jié)所述闸婴，來自未標記數(shù)據(jù)集（第3.2節(jié)）和類似標記數(shù)據(jù)的樣本集（第3.3節(jié)）可用于增強少量樣本 $\scriptstyle D_{train}$ 。代替直接使用樣本芍躏，以下方法使用從這些數(shù)據(jù)集中預先訓練的模型（參數(shù)為 $\scriptstyle θ_0$ ）邪乍。然后的問題是如何使用 $\scriptstyle D_{train}$ 使它們有效地適應新任務。

（1）未標記的數(shù)據(jù)集对竣。盡管沒有監(jiān)督信息庇楞，但是可以將相似的樣本分組在一起。因此否纬，可以從未標記的數(shù)據(jù)中預訓練功能姐刁，以很好地聚類和分離樣本。然后烦味，使用神經(jīng)網(wǎng)絡通過少量的 $\scriptstyle D_{train}$ 使它們適應新任務[Learning from small sample sets by combining unsupervised meta-training with CNNs，Learning to Learn: Model Regression Networks for Easy Small Sample Learning]壁拉。
（2）相似的數(shù)據(jù)集谬俄。在[Cross-generalization: Learning novel classes from a single example by feature replacement]中，通過利用來自相似類的樣本和分類器來執(zhí)行少量對象分類弃理。首先溃论，它用新類的特征替換了這些相似類的樣本特征。然后將學習的分類器重新使用痘昌，并且僅針對新類調整分類閾值钥勋。在[Dynamic few-shot visual learning without forgetting，Diverse few-shot text classification with multiple metrics]中辆苔，他們學習使用 $\scriptstyle D_{train}$ 結合從相似數(shù)據(jù)集中學習的現(xiàn)有參數(shù)算灸。

5.1.3 使用新參數(shù)微調現(xiàn)有參數(shù)

預訓練的 $\scriptstyle θ_0$ 可能不足以完全編碼新的FSL任務。因此驻啤，使用一個附加參數(shù) $\scriptstyle \delta$ 來考慮 $\scriptstyle D_{train}$ 的特殊性（圖13）菲驴。具體而言，該策略將模型參數(shù)擴展為 $\scriptstyle \theta=\left\{\theta_{0}, \delta\right\}$ 骑冗，并在學習 $\scriptstyle \delta$ 的同時微調 $\scriptstyle θ_0$ 赊瞬。在[One-shot adaptation of supervised deep convolutional models]中，它使用預訓練的CNN的較低層進行特征嵌入贼涩，并使用 $\scriptstyle D_{train}$ 學習嵌入特征上的線性分類器巧涧。在字體樣式轉移[Multi-content GAN for few-shot font style transfer]中，首先對網(wǎng)絡進行預訓練以捕獲灰色圖像中的字體遥倦。為了生成時尚的彩色字體谤绳，需要對它進行微調，并與其他網(wǎng)絡進行訓練。

Fig. 13. Solving the FSL problem by fine-tuning existing parameter θ0 with new parameters.

5.2 完善元學習參數(shù)

本節(jié)中的方法使用元學習來完善元學習參數(shù) $\scriptstyle θ_0$ （圖14）闷供。元學習器根據(jù)學習者的表現(xiàn)不斷優(yōu)化 $\scriptstyle θ_0$ 烟央。這與第5.1節(jié)（其中 $\scriptstyle θ_0$ 固定）不同。

Fig. 14. Solving the FSL problem by refining the meta-learned parameter θ0.

元學習的 $\scriptstyle θ_0$ 通常通過梯度下降來完善歪脏。代表性的方法是Model Agnostic Meta-Learning（MAML）[Model-agnostic meta-learning for fast adaptation of deep networks]疑俭。它的元學習 $\scriptstyle θ_0$ ，然后通過一些有效的梯度下降步驟將其調整為一些 $\scriptstyle T_{s} \sim P(T)$ 以獲得良好的任務特定參數(shù) $\scriptstyle \phi_{s}$ 婿失，例如： $\scriptstyle \phi_{s}=\theta_{0}-\alpha \nabla_{\theta_{0}} \mathcal{L}_{\mathrm{train}}^{s}\left(\theta_{0}\right)$ 钞艇。在這里
$\scriptstyle \mathcal{L}_{\text {train }}^{s}\left(\theta_{0}\right)$ 是 $\scriptstyle D_{train}$ 中訓練樣本的損失總和， $\scriptstyle \alpha$ 是步長豪硅。請注意哩照， $\scriptstyle \phi_{s}$ 不隨樣本的排列而變化。元學習參數(shù) $\scriptstyle \scriptstyle θ_0$ 通過多個元訓練任務的反饋更新為 $\scriptstyle \theta_{0} \leftarrow \theta_{0}-\beta \nabla_{\theta_{0}} \sum_{T_{s} \sim P(T)} \mathcal{L}_{\mathrm{test}}^{s}\left(\theta_{0}\right)$ 其中 $\scriptstyle \mathcal{L}_{\mathrm{test}}^{s}\left(\theta_{0}\right)$ 是 $\scriptstyle D_{test}$ 中測試樣品損失的總和懒浮， $\scriptstyle β$ 是另一個步長飘弧。通過使用 $\scriptstyle D_{train}$ 中的少量樣本不斷完善 $\scriptstyle θ_0$ ，元學習器會提高 $\scriptstyle θ_0$ 以快速適應少量訓練集樣本砚著。

最近次伶，針對MAML提出了許多改進，主要是在以下三個方面：

（1）合并特定于任務的信息稽穆。 MAML為所有任務提供相同的初始化冠王。但是，這忽略了特定于任務的信息舌镶，并且僅在任務集都非常相似時才適用柱彻。為了解決這個問題练慕，在[Gradient-based meta-learning with learned layerwise metric and subspace]中厕妖，它學習從一個好的初始化參數(shù)的子集中為新任務選擇 $\scriptstyle {θ_0}$ 仆潮。
（2）對使用元學習 $\scriptstyle θ_0$ 的不確定性進行建模跳芳。學習一些例子不可避免地會導致模型具有更高的不確定性[Probabilistic model-agnostic meta-learning]龄毡。因此用踩，學習的模型可能無法以高置信度對新任務執(zhí)行預測悼潭。測量這種不確定性的能力為主動學習和進一步的數(shù)據(jù)收集提供了提示[Probabilistic model-agnostic meta-learning]潮酒。有一些工作考慮了元學習的 $\scriptstyle θ_0$ [Probabilistic model-agnostic meta-learning坟冲，Bayesian model-agnostic meta-learning]的不確定性磨镶，特定任務的 $\scriptstyle \phi_{s}$ [Recasting gradient-based meta-learning as hierarchical Bayes，Amortized Bayesian meta-learning]的不確定性以及 $\scriptstyle n$ 類的特定類參數(shù) $\scriptstyle \phi_{s,n}$ [Meta-learning with latent embedding optimization]的不確定性健提。
（3）完善煉制程序琳猫。通過幾個梯度下降步驟進行細化可能不可靠。正則化可用于校正下降方向私痹。在[Few-shot human motion prediction via meta-learning]中脐嫂，模型回歸網(wǎng)絡[Learning to Learn: Model Regression Networks for Easy Small Sample Learning]用于將任務 $T$ 的 $\scriptstyle \phi_{s}$ 正則化统刮，使其更接近于使用大規(guī)模樣本訓練的模型。

5.3 學習優(yōu)化器

在5.2節(jié)中账千，元學習器 $\scriptstyle θ_0$ 可以很好地初始化數(shù)據(jù) $\scriptstyle D$ 的 $\scriptstyle T \sim P(T)$ 侥蒙，并通過一些有效的梯度下降步驟將其調整為特定于任務的參數(shù) $\scriptstyle ?$ 。相反匀奏，本節(jié)中的方法不是使用梯度下降鞭衩，而是學習可以直接輸出更新的優(yōu)化程序（（4）中的
$\scriptstyle \sum_{i=1}^{t} \Delta \theta^{i-1}$ ）（圖15）。然后娃善，無需調整步長 $\scriptstyle α$ 或查找搜索方向论衍，因為學習算法會自動執(zhí)行此操作。

Fig. 15. Solving the FSL problem by learning the optimizer.

在第t次迭代中聚磺，這里的工作[Learning to learn by gradient descent by gradient descent坯台，Optimization as a model for few-shot learning]學習一個元學習器，該元學習器采用在第 $\scriptstyle （t ? 1）$ 次迭代中計算出的誤差信號瘫寝，并直接輸出更新 $\scriptstyle \Delta \phi_{t-1}$ 以更新學習者的特定于任務的參數(shù) $\scriptstyle \phi_{t-1}$ 為 $\scriptstyle \phi_{t}=\phi_{t-1}+\Delta \phi_{t-1}$ 蜒蕾。因此，與第5.1節(jié)和第5.2節(jié)中提到的策略相反焕阿，該策略為新任務提供了優(yōu)化器（由學習者對其進行了優(yōu)化）滥搭。然后，使用第 $\scriptstyle t$ 個樣本 $\scriptstyle (\left.x_{t}, y_{t}\right) \in D_{\text {train }}$ 捣鲸，將此 $\scriptstyle \phi_{t}$ 用于計算損耗 $\scriptstyle \ell_{t}\left(\phi_{t}\right)=\ell\left(h\left(x_{t} ; \phi_{t}\right), y_{t}\right)$ ，下一次迭代闽坡，它充當要饋入元數(shù)據(jù)的誤差信號給元學習者栽惶。學習任務后，通過對測試集 $\scriptstyle D_{test}$ 的損失進行梯度下降來改善元學習器疾嗅。通過從 $\scriptstyle P（T）$ 得出的一組 $\scriptstyle T$ 中學習外厂，元學習器改進了為FSL提出高效算法的提議。最近代承，[Optimization as a model for few-shot learning]通過用LSTM中的單元狀態(tài)更新實例化（3）（其中 $\scriptstyle \phi$ 設置為LSTM的單元狀態(tài)）來獲得汁蝶。

5.4 討論和總結

細化現(xiàn)有參數(shù)可以減少 $\scriptstyle \mathcal{H}$ 的搜索工作。通過使用現(xiàn)有的 $\scriptstyle θ_0$ 作為初始化论悴，這些方法通常需要較低的計算成本來獲得良好的假設 $\scriptstyle h \in \mathcal{H}$ 掖棉。學習著重于細化這些現(xiàn)有參數(shù)。但是膀估，由于從與當前任務不同的任務獲知 $\scriptstyle θ_0$ 幔亥，因此該策略可能會犧牲精度以提高速度。
另外兩種策略依賴于元學習察纯。通過從一組相關任務中學習帕棉，金屬化的 $\scriptstyle θ_0$ 可以更接近于新任務 $\scriptstyle T_t$ 的任務特定參數(shù) $\scriptstyle \phi_{t}$ 针肥。元學習者學習搜索步驟可以直接指導學習算法。換句話說香伴，元學習器充當優(yōu)化器慰枕。然而，諸如如何跨不同粒度進行元學習（例如動物的粗粒度分類與狗物種的細粒度分類）或不同的數(shù)據(jù)源（例如圖像與文本）[Meta-dataset: A dataset of datasets for learning to learn from few examples]等重要問題仍然存在即纲。從這個角度來看具帮，元學習和多任務是相似的，因此也存在著如何避免負遷移的擔憂[The effects of negative adaptation in Model-Agnostic Meta-Learning]崇裁。

6 展望

在本節(jié)中匕坯，我們討論了FSL進一步發(fā)展的四個關鍵方向，即（i）問題設置拔稳，（ii）技術葛峻，（iii）應用程序和（iv）理論。

6.1 問題設置

現(xiàn)有的FSL方法通常使用一種模態(tài)（例如圖像巴比，文本或視頻）中的先驗知識术奖。但是，盡管 $\scriptstyle D_{train}$ 有一些當前使用的模態(tài)示例轻绞，但可能存在另一種模式采记，其中受監(jiān)督的樣本很多。滅絕動物的研究就是一個例子政勃。盡管這種動物可能只有有限的視覺示例唧龄，但由于人們傾向于特別注意這種稀有動物，因此在文本領域（例如教科書或網(wǎng)頁）中可能會有很多有關它的信息奸远。因此既棺，來自多種模態(tài)的先驗知識可以為補充視圖提供先驗知識。在零次學習（zero-shot learning -ZSL）中懒叛，經(jīng)常使用多模式數(shù)據(jù)丸冕。例如先驗信息是屬性[Label-embedding for attribute-based classification、A unified semantic embedding: Relating taxonomies and attributes]薛窥，WordNet [Label-embedding for attribute-based classification胖烛、A unified semantic embedding: Relating taxonomies and attributes]，詞嵌入[Improving one-shot learning through fusing side information诅迷、Multi-attention network for one shot learning]佩番，共現(xiàn)統(tǒng)計[Costa: Co-occurrence statistics for zero-shot classification]和知識圖譜[Zero-shot recognition via semantic embeddings and knowledge graphs]。
最近罢杉，人們一直在努力從ZSL方法到FSL問題借用技術答捕。例如，一個人可以通過ZSL方法使用小樣本的 $\scriptstyle D_{train}$ 來微調學習的參數(shù)[Label-embedding for attribute-based classification屑那、A unified semantic embedding: Relating taxonomies and attributes]拱镐。但是艘款，使用少量樣本進行微調可能會導致過擬合。另一種可能性是迫使通過多種模態(tài)學習的嵌入在共享空間中進行匹配[Improving one-shot learning through fusing side information沃琅、Multi-attention network for one shot learning]哗咆。最近的工作[Few-shot and zero-shot multi-label learning for structured label spaces]利用標簽之間的結構化關系，并利用GNN來對齊FSL的嵌入益眉。由于不同的模式可能包含不同的結構晌柬，因此應謹慎處理。例如郭脂，文本需要服從句法結構年碘，而圖像則不需要。未來展鸡，一個有希望的方向是在設計FSL方法時考慮使用多模式信息屿衅。

6.2 技術

在前面的部分中，根據(jù)如何使用FSL中的先驗知識莹弊，我們從數(shù)據(jù)（第3節(jié)）涤久，模型（第4節(jié)）和算法（第5節(jié)）的角度對FSL方法進行了分類。這些組件中的每一個都可以得到改進忍弛。例如响迂，使用最新的ResNet [Deep residual learning for image recognition]作為嵌入功能可能比使用VGG [Training very deep networks]更好。

如第4節(jié)和第5節(jié)所述细疚，基于元學習的FSL方法特別有趣蔗彤。通過跨任務學習，元學習可以以很小的推理成本快速適應新任務疯兼。但是然遏，通常認為在元學習中考慮的任務是從單個任務分布 $\scriptstyle p（T）$ 中提取的。在實踐中镇防，我們可以擁有大量任務相關性未知或難以確定的任務。在這種情況下潮饱，直接從所有這些任務中學習可能會導致負遷移[The effects of negative adaptation in Model-Agnostic Meta-Learning]来氧。此外，當前的FSL方法通诚憷考慮靜態(tài)和固定的 $\scriptstyle P（T）$ [Model-agnostic meta-learning for fast adaptation of deep networks啦扬，Optimization as a model for few-shot learning]。但是凫碌，在流動應用中扑毡， $\scriptstyle p（T）$ 是動態(tài)的[Meta-learning and universality: Deep representations and gradient descent can approximate any learning algorithm]，并且新任務不斷出現(xiàn)盛险。因此瞄摊，這也應納入 $\scriptstyle p（T）$ 勋又。一個重要的問題是如何在動態(tài)設置中避免災難性的遺忘[Overcoming catastrophic forgetting in neural networks]，這意味著不應忘記有關舊任務的信息换帜。

如前幾節(jié)所述楔壤，不同的FSL方法各有利弊，在所有情況下都沒有絕對的贏家惯驼。此外蹲嚣，假設空間 $\scriptstyle \mathcal{H}$ 和 $\scriptstyle \mathcal{H}$ 中的搜索策略通常都依賴于人類設計。自動化機器學習（Automated machine learning-AutoML）[Taking human out of learning applications: A survey on automated machine learning]通過構造任務感知機器學習模型祟牲，已經(jīng)在許多應用程序上達到了最新水平隙畜。最近，AutoML已用于數(shù)據(jù)增強[AutoAugment: Learning augmentation strategies from data]说贝。另一個方向是將自動特征工程[Deep feature synthesis: Towards automating data science endeavors]议惰，模型選擇[Auto-WEKA 2.0: Automatic model selection and hyperparameter optimization in WEKA]和神經(jīng)體系結構搜索[Neural architecture search with reinforcement learning)]的AutoML方法擴展到FSL。然后狂丝，人們可以獲得更好的算法設計换淆，它是通過AutoML以經(jīng)濟，高效和有效的方式學習而組成几颜。

6.3 應用

回想一下倍试，由于樣本稀少，努力減少數(shù)據(jù)收集工作量和計算成本蛋哭，或者作為模仿似人學習的墊腳石县习，因此需要FSL。因此谆趾，許多實際應用都涉及FSL躁愿。計算機視覺是FSL算法的最早測試平臺之一。 FSL在許多其他應用程序中也引起了很多近期關注沪蓬，例如機器人技術彤钟，自然語言處理和聲音信號處理□尾妫總之逸雹，F(xiàn)SL有許多有趣的領域和應用程序可供探索。

6.3.1 計算機視覺

現(xiàn)有的大多數(shù)作品都針對計算機視覺中的FSL問題云挟。最受歡迎的兩個應用是字符識別[Learning feed-forward one-shot learners梆砸、Object classification from a single example utilizing class relevance metrics、Model-agnostic meta-learning for fast adaptation of deep networks园欣、Learning to remember rare event帖世、Siamese neural networks for one-shot image recognition、Meta networks沸枯、One-shot learning with a hierarchical nonparametric Bayesian model日矫、Meta-learning with memory-augmented neural networks赂弓、Attentive recurrent comparators、Prototypical networks for few-shot learning搬男、Few-shot learning through an information retrieval lens拣展、Matching networks for one shot learning、Active one-shot learning]和圖像分類[Model-agnostic meta-learning for fast adaptation of deep networks缔逛、Siamese neural networks for one-shot image recognition备埃、Meta networks、Optimization as a model for few-shot learning褐奴、Attentive recurrent comparators按脚、Prototypical networks for few-shot learning ，Optimizing one-shot recognition with micro-set learning敦冬、Few-shot learning through an information retrieval lens辅搬、Learning robust visual-semantic embeddings、Matching networks for one shot learning脖旱、Learning from small sample sets by combining unsupervised meta-training with CNNs堪遂、Learning to Learn: Model Regression Networks for Easy Small Sample Learning、Few-shot object recognition from machine-labeled web images]萌庆。在標準基準數(shù)據(jù)集（例如Ominiglot和miniImageNet）上已經(jīng)獲得了很高的準確性溶褪，幾乎沒有進一步改進的空間[Meta-dataset: A dataset of datasets for learning to learn from few examples]。最近践险，在[Meta-dataset: A dataset of datasets for learning to learn from few examples]中提出了一個由多個圖像數(shù)據(jù)源構成的龐大而多樣化的基準數(shù)據(jù)集猿妈。除了字符識別和圖像分類外，還考慮了其??他圖像應用程序巍虫。這些包括對象識別[One-shot learning of object categories彭则、Object classification from a single example utilizing class relevance metrics、Feature space transfer for data augmentation]占遥，字體樣式轉換[Multi-content GAN for few-shot font style transfer]俯抖，短語基礎[Dynamic conditional networks for few-shot learning]，圖像檢索[Few-shot learning through an information retrieval lens]瓦胎，對象跟蹤[Learning feed-forward one-shot learners]芬萍，圖像中的特定對象計數(shù)[Dynamic conditional networks for few-shot learning]，場景位置識別[ One-shot learning of scene locations via feature trajectory transfer]凛捏，手勢識別[Domain-adaptive discriminative one-shot learning of gestures]担忧，零件標簽[Structured set matching networks for one-shot part labeling]芹缔，圖像生成[Towards a neural statistician坯癣、Human-level concept learning through probabilistic program induction、Few-shot autoregressive density estimation: Towards learning to learn distributions最欠、One-shot generalization in deep generative models]示罗，跨域的圖像平移[One-shot unsupervised cross domain translation]惩猫，3D對象的形狀視圖重構[Meta-learning probabilistic inference for prediction]以及圖像字幕和可視化問題解答[Fast parameter adaptation for few-shot image captioning and visual question answering]。 FSL還已經(jīng)成功地用于視頻應用中蚜点，包括運動預測[Few-shot human motion prediction via meta-learning]轧房，視頻分類[Compound memory networks for few-shot video classification]，動作定位[One-shot action localization by learning sequence matching network]绍绘，人員重新識別[Exploit the unknown gradually: One-shot video-based person re-identification by stepwise learnin]奶镶，事件檢測[Multi-task transfer methods to improve one-shot learning for multimedia event detection]和對象分割[One-shot video object segmentation]。

6.3.2 機器人技術

為了使機器人的行為更像人類陪拘，它們應該能夠從一些演示中進行概括厂镇。因此，F(xiàn)SL在機器人技術中發(fā)揮了重要作用左刽。例如捺信，通過模仿來自單個演示的學習來學習機器人手臂的運動[Towards one shot learning by imitation for humanoid robots]，并在糾正錯誤動作的老師的幫助下從幾個演示中學習操縱動作[Learning manipulation actions from a few demonstrations]欠痴。除了模仿用戶外迄靠，機器人還可以通過與用戶互動來改善其行為。

最近喇辽，通過FSL強化學習從一些互動中學習了輔助策略[Learning assistive strategies from a few user-robot interactions: Model-based reinforcement learning approach]掌挚。 FSL在機器人技術中的其他示例包括多臂老虎機[One-shot imitation learning]，視覺導航[One-shot imitation learning茵臭、Model-agnostic meta-learning for fast adaptation of deep networks]和連續(xù)控制[Model-agnostic meta-learning for fast adaptation of deep networks疫诽、A simple neural attentive meta-learner、Bayesian model-agnostic meta-learning]旦委。最近奇徒，這些應用程序進一步擴展到動態(tài)環(huán)境[Continuous adaptation via metalearning in nonstationary and competitive environments，Deep online learning via meta-learning: Continual adaptation for model-based RL]缨硝。

6.3.3 自然語言處理

最近摩钙，F(xiàn)SL的使用引起了自然語言處理的注意。示例應用程序包括解析[Extending a parser to distant domains using a few dozen partially annotated examples]查辩，翻譯[Learning to remember rare events]胖笛，句子完成（使用從提供的集合中選擇的單詞填充空格）[Rapid adaptation with conditionally shifted neurons、Matching networks for one shot learning]宜岛，簡短評論的情感分類[Few-shot learning for short text classification长踊、Diverse few-shot text classification with multiple metrics]，用戶意圖分類用于對話系統(tǒng)[Diverse few-shot text classification with multiple metrics]萍倡，刑事指控預測[Few-shot charge prediction with discriminative legal attributes]身弊，單詞相似度任務（例如隨機數(shù)定義[High-risk learning: Acquiring new word vectors from tiny data、Memory, Show the Way:
Memory Based Few Shot Word Representation Learning]和多標簽文本分類[Few-shot and zero-shot multi-label learning for structured label spaces]）。最近阱佛，發(fā)布了一個新的關系分類數(shù)據(jù)集帖汞，稱為FewRel [FewRel: A large-scale supervised few-shot relation classification dataset with state-of-the-art evaluation]。這彌補了自然語言處理中FSL任務缺少基準數(shù)據(jù)集的不足凑术。

6.3.4 聲學信號處理

除了早期使用FSL識別一個示例中的口語單詞的努力[One-shot learning of generative speech concepts]以外翩蘸，最近的嘗試還包括語音合成。一個流行的任務是從用戶的一些音頻樣本中進行語音克隆[Neural voice cloning with a few samples]淮逊。這對于在地圖應用程序中生成個人語音導航或在智能家居工具包中模仿父母向孩子講故事時的語音很有用催首。近來，有可能使用小樣本語音或文本樣本[Machine speech chain with one-shot speaker adaptation]或跨越不同語言[Investigation ofusing disentangled and interpretable representations for one-shot cross-lingual voice conversion]執(zhí)行從一個用戶到另一用戶的語音轉換泄鹏。

6.3.5 其他

例如翅帜，最近在醫(yī)學應用中的嘗試是小樣本來發(fā)現(xiàn)藥物[Low data drug discovery with one-shot learning]。為了學習深度網(wǎng)絡命满，在[SMASH: One-shot model architecture search through hypernetworks涝滴，DARTS: Differentiable architecture search，Efficient neural architecture search via proximal iterations]中研究了一次性結構搜索（one-shot architecture search -OAS）胶台。與需要多次運行才能找到最佳架構的隨機搜索和網(wǎng)格搜索不同歼疮，OAS方法可以通過訓練一次超級網(wǎng)來找到良好的架構。 FSL也已用于曲線擬合[Probabilistic model-agnostic meta-learning诈唬、Recasting gradient-based meta-learning as hierarchical Bayes韩脏、Meta-learning with memory-augmented neural networks、Bayesian model-agnostic meta-learning]铸磅，并通過邏輯推理理解數(shù)字類比以執(zhí)行計算[Adaptive posterior learning: Few-shot learning with a surprise-based memory modul]赡矢。

6.4 理論

FSL使用先驗知識來彌補缺少監(jiān)督信息的情況窗声。這與樣本復雜度的理論研究有關鹦赎，樣本復雜度是獲得具有高概率的小經(jīng)驗風險 $\scriptstyle R_I（h）$ 的模型所需的訓練樣本數(shù)[Machine Learning，Foundations of machine learning]蓉媳。 $\scriptstyle \mathcal{H}$ 不需要那么復雜就可以使所提供的 $\scriptstyle I$ 有足夠的樣本八酒】彰瘢回想一下，F(xiàn)SL方法使用先驗知識來增加更多樣本（即增加 $\scriptstyle I$ ）羞迷，約束 $\scriptstyle \mathcal{H}$ （即降低 $\scriptstyle \mathcal{H}$ 的復雜度）并更改搜索策略（即增加找到良好 $\scriptstyle h$ 的可能性）界轩。這表明FSL方法可以使用先驗知識來降低所需的樣本復雜度。在這方面進行詳細分析將很有用衔瓮。

此外浊猾，回想一下，F(xiàn)SL與域適應[Label efficient learning oftransferable representations acrosss domains and tasks热鞍、Few-shot adversarial domain adaptation葫慎、Domain-adaptive discriminative one-shot learning of gestures]和現(xiàn)有理論有關单山。域適應的界限可能令人鼓舞[Analysis of representations for domain adaptation，Learning bounds for domain adaptation]幅疼。例如，最近的分析表明昼接，通過微調前饋神經(jīng)網(wǎng)絡可以獲得更好的風險范圍[Risk bounds for transferring representations with and without fine-tuning]爽篷。通過考慮一種特定的元學習方法，在[Learning To Learn Around A Common Mean]中研究了將一個任務訓練的模型轉移到另一任務的風險慢睡。但是逐工，到目前為止，僅研究了少數(shù)方法漂辐。仍然有許多理論問題需要探索泪喊。

最后，對FSL算法的收斂性還沒有完全了解髓涯。特別是元學習方法在整個任務分配上而不是在單個任務上優(yōu)化 $\scriptstyle θ$ 袒啼。 [Bilevel programming for hyperparameter optimization and meta-learning]中的最新分析為一種元學習方法的融合提供了充分的條件。元學習者學習深度網(wǎng)絡的較低層纬纪，而學習者則學習最后一層蚓再，全部使用梯度下降。對元學習方法的融合進行更一般的分析將非常有用包各。

7 結論

少量學習（FSL）旨在彌合AI與人類學習之間的鴻溝摘仅。通過合并現(xiàn)有知識，它可以學習僅包含幾個帶有監(jiān)督信息的示例的新任務问畅。 FSL充當AI的試驗臺娃属，使學習稀有案例成為可能，或有助于減輕在工業(yè)應用中收集大型監(jiān)督日期的負擔护姆。在此調查中矾端，我們對FSL進行了全面而系統(tǒng)的審查。我們首先正式定義FSL卵皂，然后討論FSL與相關學習問題（如弱監(jiān)督學習须床，不平衡學習，轉移學習和元學習）的相關性和差異渐裂。然后豺旬，我們指出FSL的核心問題是使FSL難以學習的不可靠的經(jīng)驗風險最小化器。了解核心問題有助于根據(jù)使用先驗知識解決問題的方式將不同的作品分類為數(shù)據(jù)柒凉，模型和算法：數(shù)據(jù)增加了FSL的監(jiān)督經(jīng)驗族阅，模型將FSL的假設空間縮小了，算法改變了搜索給定假設空間中最佳假設的策略膝捞。在每個類別中坦刀，都將詳細討論其優(yōu)缺點，并提供一些總結和見解。為了激發(fā)FSL的未來研究鲤遥，我們還提供了有關問題設置沐寺，技術，應用程序和理論探索的可能方向盖奈。

文獻原文：
Generalizing from a Few Examples: A Survey on Few-Shot
Learning
Github地址