前置學習:
? 元學習,遷移學習赂韵,F(xiàn)ew-shot learning娱节,life-long learning等區(qū)別和聯(lián)系,臺大李宏毅https://blog.csdn.net/weixin_41684423/article/details/115480637
MetaMT:
問題是什么祭示?
在機器翻譯任務(wù)中肄满,特殊領(lǐng)域的數(shù)據(jù)集不易收集,限制了神經(jīng)機器翻譯模型的性能,
為什么問題重要稠歉?
利用多個領(lǐng)域域的數(shù)據(jù)開發(fā)穩(wěn)健的翻譯系統(tǒng)可以容易的遷移到特殊領(lǐng)域讥电,(涉及到元學習,域適應(yīng)轧抗,遷移學習等)。
為什么問題困難瞬测?
在神經(jīng)機器翻譯(NMT)中横媚,從一個域到另一個域的遷移的挑戰(zhàn)是域間的差異,主要由兩個方面:
1)域間存在含義相同但表示不同的詞月趟,導致數(shù)據(jù)稀疏灯蝴。
2)因為詞的多義性問題,不同域的相同的詞的含義不同孝宗,在特殊域的機器翻譯上會導致嚴重后果穷躁。
別人做了什么?
存在的域適應(yīng)NMT主要分為兩類因妇。
1)以數(shù)據(jù)為中心
聚焦在從語料庫中創(chuàng)造特殊域的數(shù)據(jù)
2)以模型為中心
以模型為中心的類別側(cè)重于專門用于領(lǐng)域適應(yīng)的NMT模型问潭,如微調(diào)和實例/成本加權(quán)。前者將目標域的數(shù)據(jù)放到訓練數(shù)據(jù)流的末尾來微調(diào)模型參數(shù)婚被。后者在訓練時為目標域數(shù)據(jù)分配高權(quán)重狡忙。
核心貢獻是什么?
操作多個領(lǐng)域的數(shù)據(jù)去模仿域適應(yīng)并且訓練一個新穎的模型址芯,解決大詞典灾茁,詞稀疏和多義性的問題。
不采用查詢表來存儲詞的表示谷炸,而是模型首先映射所有的詞到一個所有域都共享的語義空間北专。
然后在每個域中重復的訓練大量數(shù)據(jù),然后在小數(shù)據(jù)集域上微調(diào)旬陡。
定義了模型參數(shù)和元參數(shù)拓颓,模型參數(shù)用來學習從原句子到目標句子的翻譯。元參數(shù)用于提高所學習模型的泛化能力季惩。在微調(diào)階段凍結(jié)模型參數(shù)并僅僅調(diào)整元參數(shù)录粱。元學習策略用于學習參數(shù)初始化,可以快速采用于新領(lǐng)域画拾。
主要的成果有哪些啥繁?
模型可以運用到任何一種語言。在最常用的英語到西班牙語的翻譯上進行實驗青抛。實驗表明旗闽,與現(xiàn)有的遷移學習NMT方法相比,進行評估時,改進了結(jié)果适室。為了進一步驗證所提出的模型的有效性嫡意,使用了一個只有3000句電子健康記錄的小數(shù)據(jù)集。實驗表明捣辆,該模型在數(shù)千個句子上進行訓練時蔬螟,可以對特定領(lǐng)域產(chǎn)生高質(zhì)量的結(jié)果。
第一汽畴,提出了一個基于元學習原則的新穎的域適應(yīng)訓練策略用于神經(jīng)機器翻譯旧巾。
第二,一種新的詞嵌入轉(zhuǎn)換技術(shù)處理域差距忍些。
獲得好結(jié)果的前提假設(shè)是什么鲁猩?
NMT背景:
backbone :Encoder-Decoder:meta-NMT模型基于Transformer模型。
預(yù)適應(yīng)用于NMT:
fine-tuning:缺點:需要大量樣本避免過擬合罢坝,且導致其他域性能下降廓握。
curriculum learning: 調(diào)整訓練數(shù)據(jù)的順序來提升收斂速度和性能。
DeNero等人研究微調(diào)并指出僅通過調(diào)整一小部分模型參數(shù)就可以實現(xiàn)域自適應(yīng)嘁酿。本文的工作也運用跟這個策略隙券,劃分參數(shù)到元參數(shù)和模型參數(shù)。
Vilar等人提出不同的神經(jīng)元在不同的域扮演不同的角色闹司,因此根據(jù)數(shù)據(jù)去調(diào)整神經(jīng)元的權(quán)重是有必要的是尔。于操作神經(jīng)元和詞表示不同,metaNMT使用神經(jīng)映射去考慮域的差異开仰。
元學習:
分為兩類:一拟枚、作為一種原則:例如遷移學習和課程學習。二众弓、元學習作為一種參數(shù)更新算法
下圖展示了元學習的參數(shù)學習和調(diào)整過程:
從圖中可以看到,特殊域的尋參過程更快且準確谓娃。
Meta-NMT背景:
模型訓練更新模型參數(shù)脚乡,紅色虛線指向紅框中的參數(shù)均為模型參數(shù)。元訓練更新元參數(shù)滨达,包括黑色虛線指向的兩個框的參數(shù)奶稠。
第一步,先學習統(tǒng)一的詞表示
Map Embedding to a New space:
A矩陣(d*d)在訓練中學習捡遍,E矩陣為挑選的頻繁詞的詞嵌入域空間锌订,由普通域訓練得到。EG為n*d的矩陣画株。
Learning Policy:
實驗分析:
數(shù)據(jù):
公開數(shù)據(jù)集網(wǎng)址
? ? ? ? ? ? ? ? ? http://opus.nlpl.eu/
詞頻統(tǒng)計:byte pair encoding (BPE)進行分詞
? ? ? ? ? ? ? ? ? 介紹:https://zhuanlan.zhihu.com/p/448147465
詞嵌入:fastText
? ? ? ? ? ? ? ? ? 介紹:https://blog.csdn.net/feilong_csdn/article/details/88655927
分析:
評價指標:BELU
? ? ? ? ? ? ? ? ? https://zhuanlan.zhihu.com/p/657704483
在7個公開數(shù)據(jù)集上的對比和消融實驗:
在非常小的數(shù)據(jù)集上的實驗(特殊域)
EHR(英語和西班牙語的電子健康記錄),說明了很專業(yè)的構(gòu)建了數(shù)據(jù)集(描述得很好)