這篇文章翻譯自 KDnuggets,
作者: Sebastian Ruder, 是 insight_centre 的 NLP PhD产镐,aylien 的研究員
這里收集了 2018 年 NLP 令人興奮和有影響力的 10 個(gè)想法穴亏,而且會在未來有更多應(yīng)用可能性峡碉, 其中有一些并不是趨勢尿招,但可能在 2019 年變得更加“時(shí)髦”券腔。
1) Unsupervised MT
在 ICLR 2018 上有兩篇無監(jiān)督的 MT 論文畔规,它們的結(jié)果不錯(cuò)局扶,但與監(jiān)督系統(tǒng)相比仍然很低:
Unsupervised Machine Translation Using Monolingual Corpora Only
Unsupervised Neural Machine Translation
在 EMNLP 2018 也有兩篇論文,顯著改進(jìn)了他們以前的方法:
[Phrase-Based & Neural Unsupervised Machine Translation]
(https://arxiv.org/abs/1804.07755)
Unsupervised Statistical Machine Translation
**Phrase-Based & Neural Unsupervised Machine Translation(EMNLP 2018): **
這篇文章在提煉無監(jiān)督MT的三個(gè)關(guān)鍵方面都做得很好:良好的初始化叁扫,語言模型三妈,通過反向翻譯進(jìn)行反向任務(wù)建模。
這三個(gè)在其他無監(jiān)督的場景中也是很有用的莫绣,例如反向任務(wù)建模在 CycleGAN 中就有應(yīng)用畴蒲,它可以強(qiáng)制執(zhí)行循環(huán)一致性。
該論文進(jìn)行了大量的實(shí)驗(yàn)对室,并評估了兩種資源較少的語言對模燥,即 English-Urdu 和 English-Romanian。將來也許能夠在更多低資源語言上看到更多應(yīng)用掩宜。
下圖為無監(jiān)督MT的三個(gè)關(guān)鍵:A)兩個(gè)單語數(shù)據(jù)集? B)初始化? C)語言建模 D)反向翻譯:
(Lample et al., 2018)
2) Pretrained language models
使用預(yù)訓(xùn)練語言模型可能是 2018 最重要的NLP趨勢蔫骂,有一系列令人難忘的方法:ELMo,ULMFiT牺汤,OpenAI Transformer和BERT辽旋。
Deep contextualized word representations(NAACL-HLT 2018)
這篇引入 ELMo 的論文備受贊譽(yù),除了令人印象深刻的實(shí)證結(jié)果之外檐迟,還有細(xì)致的分析部分晦鞋,它可以梳理出各種因素的影響名惩,并分析表征中捕獲的信息。
下圖左邊可以看出在單詞意義消歧分析(WSD)方面效果不錯(cuò),兩邊都證明了一個(gè) LM 執(zhí)行的WSD和POS任務(wù)的性能就可以接近最新技術(shù)水平了妖滔。
(Peters et al., 2018)
3) Common sense inference datasets
將常識納入 NLP 模型是今后發(fā)展的最重要方向之一。
然而简烘,創(chuàng)建好的數(shù)據(jù)集并不容易亏狰,甚至流行的數(shù)據(jù)集都顯示出很大的偏差桦沉。
2018 年已有一些執(zhí)行良好的數(shù)據(jù)集,旨在教授模型一些常識金闽,例如來自華盛頓大學(xué)的Event2Mind和SWAG纯露。
Visual Commonsense Reasoning(arXiv 2018)
這是第一個(gè)視覺QA數(shù)據(jù)集,其中包含每個(gè)答案的基本原理的解釋代芜。此外埠褪,問題需要復(fù)雜的推理。
創(chuàng)作者竭盡全力解決可能的偏見挤庇,通過確保每個(gè)答案的先驗(yàn)概率為25%(每個(gè)答案在整個(gè)數(shù)據(jù)集中出現(xiàn)4次钞速,3次作為錯(cuò)誤答案,1次作為正確答案)嫡秕。這需要使用計(jì)算相關(guān)性和相似性的模型來解決約束優(yōu)化問題渴语。
下面看看數(shù)據(jù)的呈現(xiàn):
給定圖像,區(qū)域列表和問題昆咽,模型要回答問題驾凶,并提供解釋其答案為何正確的理由
(Zellers et al., 2018)
4) Meta-learning
元學(xué)習(xí)對于訓(xùn)練數(shù)據(jù)數(shù)量有限的問題最有用,在小鏡頭學(xué)習(xí)掷酗,強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)中有很多用處
最突出的例子是:模型不可知的元學(xué)習(xí)(MAML)调违, 但NLP中的成功應(yīng)用卻很少見。
Meta-Learning for Low-Resource Neural Machine Translation(EMNLP 2018)
作者使用MAML來學(xué)習(xí)良好的初始化泻轰,在翻譯任務(wù)中技肩,將每個(gè)語言對視為一個(gè)單獨(dú)的元任務(wù)。
元學(xué)習(xí)在NLP中最有用的設(shè)置可能是適應(yīng)低資源語言糕殉。特別是在 結(jié)合多語言轉(zhuǎn)移學(xué)習(xí)(如多語言BERT)亩鬼,無監(jiān)督學(xué)習(xí)上元學(xué)習(xí)是一個(gè)很有前途的方向。
下圖是轉(zhuǎn)移學(xué)習(xí)阿蝶,多語言轉(zhuǎn)移學(xué)習(xí)與元學(xué)習(xí)的區(qū)別雳锋。實(shí)線:初始化的學(xué)習(xí),虛線:微調(diào)的路徑
(Gu et al., 2018)
5) Robust unsupervised methods
當(dāng)語言不同時(shí)羡洁,無監(jiān)督的跨語言嵌入方法就會崩潰玷过,這是轉(zhuǎn)移學(xué)習(xí)中的常見現(xiàn)象
其中源和目標(biāo)設(shè)置之間的差異(例如,域適應(yīng)中的域筑煮,連續(xù)學(xué)習(xí)中的任務(wù)和多任務(wù)學(xué)習(xí))會導(dǎo)致模型的惡化或失敗辛蚊。
因此讓模型對這些變化更加健壯是重要的工作。
本文沒有使用元學(xué)習(xí)初始化真仲,而是用他們對問題的理解來制定更好的初始化
特別是袋马,它們將兩種語言中具有相似分布的單詞配對,這是使用領(lǐng)域?qū)I(yè)知識和分析洞察力來使模型更加健壯的一個(gè)很好的例子秸应。
下圖是三個(gè)單詞的相似度分布虑凛,可以看出等價(jià)翻譯('two'和'due')的分布比非相關(guān)詞('two'和'cane' - 意思是'dog')更相似
(Artexte et al., 2018)
6) Understanding representations
在理解表示方面也有很多研究進(jìn)展碑宴。特別是,“診斷分類器”(用于測量學(xué)習(xí)表示是否可以預(yù)測某些屬性)已經(jīng)變得非常普遍桑谍。
Dissecting Contextual Word Embeddings: Architecture and Representation(EMNLP 2018)
本文非常好地理解了預(yù)訓(xùn)練語言模型表示延柠。
他們精心設(shè)計(jì)了無監(jiān)督和監(jiān)督任務(wù),廣泛研究了單詞的學(xué)習(xí)和跨度表示锣披。
結(jié)果發(fā)現(xiàn):預(yù)訓(xùn)練表示學(xué)習(xí)與低層的低級形態(tài)贞间,低層的句法任務(wù),高層的長范圍語義任務(wù)相關(guān)
這確實(shí)表明預(yù)訓(xùn)練的語言模型已經(jīng)捕獲了與ImageNet上預(yù)訓(xùn)練的計(jì)算機(jī)視覺模型相似的屬性雹仿。
下圖為 BiLSTM 和 Transformer 的預(yù)訓(xùn)練表示在(從左到右)POS標(biāo)記增热,選區(qū)解析和無監(jiān)督共指消解任務(wù)上的每層性能
(Peters et al., 2018)
7) Clever auxiliary tasks
可以看到越來越多的多任務(wù)學(xué)習(xí)中需要精心選擇的輔助任務(wù)。
要獲得良好的輔助任務(wù)盅粪,必須能夠輕松訪問數(shù)據(jù)钓葫。
其中一個(gè)最突出的例子是 BERT悄蕾,它使用了下一句話的預(yù)測票顾,效果很好,(已經(jīng)在Skip-ideas和最近的Quick-ideas中使用過)
Syntactic Scaffolds for Semantic Structures(EMNLP 2018)
本文提出了一個(gè)輔助任務(wù)帆调,通過預(yù)測每個(gè)跨度相應(yīng)的句法成分類型來預(yù)先跟蹤跨度表示奠骄。
盡管在概念上很簡單,但輔助任務(wù)使得跨度級預(yù)測任務(wù)有很大改進(jìn)番刊,例如語義角色標(biāo)記和共指消解含鳞。
這篇論文表明,在目標(biāo)任務(wù)(這里:跨度)所要求的水平上學(xué)習(xí)的專業(yè)表征是非常有益的芹务。
(Swayamdipta et al., 2018)
8) Combining semi-supervised learning with transfer learning
隨著遷移學(xué)習(xí)的發(fā)展蝉绷,預(yù)訓(xùn)練表示可以與許多半監(jiān)督學(xué)習(xí)互補(bǔ)。例如枣抱,自我標(biāo)記方法熔吗,一種特殊的半監(jiān)督學(xué)習(xí)方法
Semi-Supervised Sequence Modeling with Cross-View Training(EMNLP 2018)
本文表明,概念上非常簡單的想法佳晶,如果對輸入的不同角度的預(yù)測與主模型的預(yù)測一致的話桅狠,就可以在各種任務(wù)集上獲得不錯(cuò)的效果。
這個(gè)想法類似于 word dropout 轿秧,但允許利用未標(biāo)記的數(shù)據(jù)使模型更加健壯中跌。
與其他自整合模型相比 如 mean teacher,,它是專門針對特定的NLP任務(wù)而設(shè)計(jì)菇篡。
(Clark et al., 2018)
9) QA and reasoning with large documents
問答(QA)也有很多發(fā)展漩符,有一系列新的QA數(shù)據(jù)集。除了會話質(zhì)量保證和執(zhí)行多步推理之外驱还,還有質(zhì)量保證最具挑戰(zhàn)性的問題是綜合敘述和信息量巨大嗜暴。
The NarrativeQA Reading Comprehension Challenge(TACL 2018)
本文基于整個(gè)電影劇本和書籍回答問題津滞,提出了一個(gè)具有挑戰(zhàn)性的新QA數(shù)據(jù)集。
雖然此任務(wù)對于當(dāng)前方法來說仍然遙不可及灼伤,但是提供了一種模型方案触徐,使用摘要(而不是整本書)作為上下文,選擇答案(而不是生成它)狐赡,以及使用IR的輸出撞鹉。這些技巧使任務(wù)更加可行,并使模型逐步擴(kuò)展到完整設(shè)置颖侄。
(Ko?isky et al., 2018)
10) Inductive bias
Inductive bias鸟雏,例如CNN中的卷積,正則化览祖,dropout等機(jī)制孝鹊,是神經(jīng)網(wǎng)絡(luò)模型的核心部分,它們作為正則化器并使模型更具樣本效率展蒂。
然而又活,提出廣泛有用的歸納偏差并將其納入模型是一項(xiàng)挑戰(zhàn)。
Linguistically-Informed Self-Attention for Semantic Role Labeling(EMNLP 2018)
本文有很多不錯(cuò)的內(nèi)容:
在聯(lián)合語法和語義任務(wù)上訓(xùn)練transformer ;
能夠在測試時(shí)注入高質(zhì)量的解析;
以及域外評估锰悼。
它還通過訓(xùn)練一個(gè)注意力的head來關(guān)注每個(gè)token的句法parents柳骄,從而規(guī)范 Transformer's multi-head attention,使其對語法更加敏感箕般。
未來我們可能會看到更多關(guān)于Transformer's multi-head attention的例子耐薯,它們被用作輔助預(yù)測器,專注于輸入的某些特定方面丝里。
(Strubell et al., 2018)
學(xué)習(xí)資源:
https://www.kdnuggets.com/2019/01/10-exciting-ideas-2018-nlp.html
作者:不會停的蝸牛
鏈接:http://www.reibang.com/p/480b5cfd6cb6
來源:簡書
簡書著作權(quán)歸作者所有曲初,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處。