盤點(diǎn) 2018 年自然語言處理 10 個(gè)激動(dòng)人心的想法

這篇文章翻譯自 KDnuggets,

作者: Sebastian Ruder, 是 insight_centre 的 NLP PhD产镐,aylien 的研究員

這里收集了 2018 年 NLP 令人興奮和有影響力的 10 個(gè)想法穴亏,而且會在未來有更多應(yīng)用可能性峡碉, 其中有一些并不是趨勢尿招,但可能在 2019 年變得更加“時(shí)髦”券腔。

1) Unsupervised MT

在 ICLR 2018 上有兩篇無監(jiān)督的 MT 論文畔规,它們的結(jié)果不錯(cuò)局扶,但與監(jiān)督系統(tǒng)相比仍然很低:

Unsupervised Machine Translation Using Monolingual Corpora Only

Unsupervised Neural Machine Translation

在 EMNLP 2018 也有兩篇論文,顯著改進(jìn)了他們以前的方法:

[Phrase-Based & Neural Unsupervised Machine Translation]

(https://arxiv.org/abs/1804.07755)

Unsupervised Statistical Machine Translation

**Phrase-Based & Neural Unsupervised Machine Translation(EMNLP 2018): **

這篇文章在提煉無監(jiān)督MT的三個(gè)關(guān)鍵方面都做得很好:良好的初始化叁扫,語言模型三妈,通過反向翻譯進(jìn)行反向任務(wù)建模。

這三個(gè)在其他無監(jiān)督的場景中也是很有用的莫绣,例如反向任務(wù)建模在 CycleGAN 中就有應(yīng)用畴蒲,它可以強(qiáng)制執(zhí)行循環(huán)一致性。

該論文進(jìn)行了大量的實(shí)驗(yàn)对室,并評估了兩種資源較少的語言對模燥,即 English-Urdu 和 English-Romanian。將來也許能夠在更多低資源語言上看到更多應(yīng)用掩宜。

下圖為無監(jiān)督MT的三個(gè)關(guān)鍵:A)兩個(gè)單語數(shù)據(jù)集? B)初始化? C)語言建模 D)反向翻譯:

(Lample et al., 2018)

2) Pretrained language models

使用預(yù)訓(xùn)練語言模型可能是 2018 最重要的NLP趨勢蔫骂,有一系列令人難忘的方法:ELMo,ULMFiT牺汤,OpenAI Transformer和BERT辽旋。

Deep contextualized word representations(NAACL-HLT 2018)

這篇引入 ELMo 的論文備受贊譽(yù),除了令人印象深刻的實(shí)證結(jié)果之外檐迟,還有細(xì)致的分析部分晦鞋,它可以梳理出各種因素的影響名惩,并分析表征中捕獲的信息。

下圖左邊可以看出在單詞意義消歧分析(WSD)方面效果不錯(cuò),兩邊都證明了一個(gè) LM 執(zhí)行的WSD和POS任務(wù)的性能就可以接近最新技術(shù)水平了妖滔。

(Peters et al., 2018)

3) Common sense inference datasets

將常識納入 NLP 模型是今后發(fā)展的最重要方向之一。

然而简烘,創(chuàng)建好的數(shù)據(jù)集并不容易亏狰,甚至流行的數(shù)據(jù)集都顯示出很大的偏差桦沉。

2018 年已有一些執(zhí)行良好的數(shù)據(jù)集,旨在教授模型一些常識金闽,例如來自華盛頓大學(xué)的Event2Mind和SWAG纯露。

Visual Commonsense Reasoning(arXiv 2018)

這是第一個(gè)視覺QA數(shù)據(jù)集,其中包含每個(gè)答案的基本原理的解釋代芜。此外埠褪,問題需要復(fù)雜的推理。

創(chuàng)作者竭盡全力解決可能的偏見挤庇,通過確保每個(gè)答案的先驗(yàn)概率為25%(每個(gè)答案在整個(gè)數(shù)據(jù)集中出現(xiàn)4次钞速,3次作為錯(cuò)誤答案,1次作為正確答案)嫡秕。這需要使用計(jì)算相關(guān)性和相似性的模型來解決約束優(yōu)化問題渴语。

下面看看數(shù)據(jù)的呈現(xiàn):

給定圖像,區(qū)域列表和問題昆咽,模型要回答問題驾凶,并提供解釋其答案為何正確的理由

(Zellers et al., 2018)

4) Meta-learning

元學(xué)習(xí)對于訓(xùn)練數(shù)據(jù)數(shù)量有限的問題最有用,在小鏡頭學(xué)習(xí)掷酗,強(qiáng)化學(xué)習(xí)和機(jī)器人學(xué)中有很多用處

最突出的例子是:模型不可知的元學(xué)習(xí)(MAML)调违, 但NLP中的成功應(yīng)用卻很少見。

Meta-Learning for Low-Resource Neural Machine Translation(EMNLP 2018)

作者使用MAML來學(xué)習(xí)良好的初始化泻轰,在翻譯任務(wù)中技肩,將每個(gè)語言對視為一個(gè)單獨(dú)的元任務(wù)。

元學(xué)習(xí)在NLP中最有用的設(shè)置可能是適應(yīng)低資源語言糕殉。特別是在 結(jié)合多語言轉(zhuǎn)移學(xué)習(xí)(如多語言BERT)亩鬼,無監(jiān)督學(xué)習(xí)上元學(xué)習(xí)是一個(gè)很有前途的方向。

下圖是轉(zhuǎn)移學(xué)習(xí)阿蝶,多語言轉(zhuǎn)移學(xué)習(xí)與元學(xué)習(xí)的區(qū)別雳锋。實(shí)線:初始化的學(xué)習(xí),虛線:微調(diào)的路徑

(Gu et al., 2018)

5) Robust unsupervised methods

當(dāng)語言不同時(shí)羡洁,無監(jiān)督的跨語言嵌入方法就會崩潰玷过,這是轉(zhuǎn)移學(xué)習(xí)中的常見現(xiàn)象

其中源和目標(biāo)設(shè)置之間的差異(例如,域適應(yīng)中的域筑煮,連續(xù)學(xué)習(xí)中的任務(wù)和多任務(wù)學(xué)習(xí))會導(dǎo)致模型的惡化或失敗辛蚊。

因此讓模型對這些變化更加健壯是重要的工作。

A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings(ACL 2018)

本文沒有使用元學(xué)習(xí)初始化真仲,而是用他們對問題的理解來制定更好的初始化

特別是袋马,它們將兩種語言中具有相似分布的單詞配對,這是使用領(lǐng)域?qū)I(yè)知識和分析洞察力來使模型更加健壯的一個(gè)很好的例子秸应。

下圖是三個(gè)單詞的相似度分布虑凛,可以看出等價(jià)翻譯('two'和'due')的分布比非相關(guān)詞('two'和'cane' - 意思是'dog')更相似

(Artexte et al., 2018)

6) Understanding representations

在理解表示方面也有很多研究進(jìn)展碑宴。特別是,“診斷分類器”(用于測量學(xué)習(xí)表示是否可以預(yù)測某些屬性)已經(jīng)變得非常普遍桑谍。

Dissecting Contextual Word Embeddings: Architecture and Representation(EMNLP 2018)

本文非常好地理解了預(yù)訓(xùn)練語言模型表示延柠。

他們精心設(shè)計(jì)了無監(jiān)督和監(jiān)督任務(wù),廣泛研究了單詞的學(xué)習(xí)和跨度表示锣披。

結(jié)果發(fā)現(xiàn):預(yù)訓(xùn)練表示學(xué)習(xí)與低層的低級形態(tài)贞间,低層的句法任務(wù),高層的長范圍語義任務(wù)相關(guān)

這確實(shí)表明預(yù)訓(xùn)練的語言模型已經(jīng)捕獲了與ImageNet上預(yù)訓(xùn)練的計(jì)算機(jī)視覺模型相似的屬性雹仿。

下圖為 BiLSTM 和 Transformer 的預(yù)訓(xùn)練表示在(從左到右)POS標(biāo)記增热,選區(qū)解析和無監(jiān)督共指消解任務(wù)上的每層性能

(Peters et al., 2018)

7) Clever auxiliary tasks

可以看到越來越多的多任務(wù)學(xué)習(xí)中需要精心選擇的輔助任務(wù)。

要獲得良好的輔助任務(wù)盅粪,必須能夠輕松訪問數(shù)據(jù)钓葫。

其中一個(gè)最突出的例子是 BERT悄蕾,它使用了下一句話的預(yù)測票顾,效果很好,(已經(jīng)在Skip-ideas和最近的Quick-ideas中使用過)

Syntactic Scaffolds for Semantic Structures(EMNLP 2018)

本文提出了一個(gè)輔助任務(wù)帆调,通過預(yù)測每個(gè)跨度相應(yīng)的句法成分類型來預(yù)先跟蹤跨度表示奠骄。

盡管在概念上很簡單,但輔助任務(wù)使得跨度級預(yù)測任務(wù)有很大改進(jìn)番刊,例如語義角色標(biāo)記和共指消解含鳞。

這篇論文表明,在目標(biāo)任務(wù)(這里:跨度)所要求的水平上學(xué)習(xí)的專業(yè)表征是非常有益的芹务。

(Swayamdipta et al., 2018)

8) Combining semi-supervised learning with transfer learning

隨著遷移學(xué)習(xí)的發(fā)展蝉绷,預(yù)訓(xùn)練表示可以與許多半監(jiān)督學(xué)習(xí)互補(bǔ)。例如枣抱,自我標(biāo)記方法熔吗,一種特殊的半監(jiān)督學(xué)習(xí)方法

Semi-Supervised Sequence Modeling with Cross-View Training(EMNLP 2018)

本文表明,概念上非常簡單的想法佳晶,如果對輸入的不同角度的預(yù)測與主模型的預(yù)測一致的話桅狠,就可以在各種任務(wù)集上獲得不錯(cuò)的效果。

這個(gè)想法類似于 word dropout 轿秧,但允許利用未標(biāo)記的數(shù)據(jù)使模型更加健壯中跌。

與其他自整合模型相比 如 mean teacher,,它是專門針對特定的NLP任務(wù)而設(shè)計(jì)菇篡。

(Clark et al., 2018)

9) QA and reasoning with large documents

問答(QA)也有很多發(fā)展漩符,有一系列新的QA數(shù)據(jù)集。除了會話質(zhì)量保證和執(zhí)行多步推理之外驱还,還有質(zhì)量保證最具挑戰(zhàn)性的問題是綜合敘述和信息量巨大嗜暴。

The NarrativeQA Reading Comprehension Challenge(TACL 2018)

本文基于整個(gè)電影劇本和書籍回答問題津滞,提出了一個(gè)具有挑戰(zhàn)性的新QA數(shù)據(jù)集。

雖然此任務(wù)對于當(dāng)前方法來說仍然遙不可及灼伤,但是提供了一種模型方案触徐,使用摘要(而不是整本書)作為上下文,選擇答案(而不是生成它)狐赡,以及使用IR的輸出撞鹉。這些技巧使任務(wù)更加可行,并使模型逐步擴(kuò)展到完整設(shè)置颖侄。

(Ko?isky et al., 2018)

10) Inductive bias

Inductive bias鸟雏,例如CNN中的卷積,正則化览祖,dropout等機(jī)制孝鹊,是神經(jīng)網(wǎng)絡(luò)模型的核心部分,它們作為正則化器并使模型更具樣本效率展蒂。

然而又活,提出廣泛有用的歸納偏差并將其納入模型是一項(xiàng)挑戰(zhàn)。

Linguistically-Informed Self-Attention for Semantic Role Labeling(EMNLP 2018)

本文有很多不錯(cuò)的內(nèi)容:

在聯(lián)合語法和語義任務(wù)上訓(xùn)練transformer ;

能夠在測試時(shí)注入高質(zhì)量的解析;

以及域外評估锰悼。

它還通過訓(xùn)練一個(gè)注意力的head來關(guān)注每個(gè)token的句法parents柳骄,從而規(guī)范 Transformer's multi-head attention,使其對語法更加敏感箕般。

未來我們可能會看到更多關(guān)于Transformer's multi-head attention的例子耐薯,它們被用作輔助預(yù)測器,專注于輸入的某些特定方面丝里。

(Strubell et al., 2018)

學(xué)習(xí)資源:

https://www.kdnuggets.com/2019/01/10-exciting-ideas-2018-nlp.html

作者:不會停的蝸牛

鏈接:http://www.reibang.com/p/480b5cfd6cb6

來源:簡書

簡書著作權(quán)歸作者所有曲初,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末杯聚,一起剝皮案震驚了整個(gè)濱河市臼婆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌械媒,老刑警劉巖目锭,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異纷捞,居然都是意外死亡痢虹,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進(jìn)店門主儡,熙熙樓的掌柜王于貴愁眉苦臉地迎上來奖唯,“玉大人,你說我怎么就攤上這事糜值》峤荩” “怎么了坯墨?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長病往。 經(jīng)常有香客問我捣染,道長,這世上最難降的妖魔是什么停巷? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任耍攘,我火速辦了婚禮,結(jié)果婚禮上畔勤,老公的妹妹穿的比我還像新娘蕾各。我一直安慰自己,他們只是感情好庆揪,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布式曲。 她就那樣靜靜地躺著,像睡著了一般缸榛。 火紅的嫁衣襯著肌膚如雪吝羞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天仔掸,我揣著相機(jī)與錄音脆贵,去河邊找鬼。 笑死起暮,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的会烙。 我是一名探鬼主播负懦,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼柏腻!你這毒婦竟也來了纸厉?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤五嫂,失蹤者是張志新(化名)和其女友劉穎颗品,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體沃缘,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡躯枢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了槐臀。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锄蹂。...
    茶點(diǎn)故事閱讀 38,161評論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖水慨,靈堂內(nèi)的尸體忽然破棺而出得糜,到底是詐尸還是另有隱情敬扛,我是刑警寧澤,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布朝抖,位于F島的核電站啥箭,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏治宣。R本人自食惡果不足惜捉蚤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望炼七。 院中可真熱鬧缆巧,春花似錦、人聲如沸豌拙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽按傅。三九已至捉超,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間唯绍,已是汗流浹背拼岳。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留况芒,地道東北人惜纸。 一個(gè)月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像绝骚,于是被迫代替她去往敵國和親耐版。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容