姓名:劉暢 學號:15020199045
轉(zhuǎn)自:https://zhuanlan.zhihu.com/p/50916001
【嵌牛導讀】:NLP 的歷史幾乎跟計算機和人工智能(AI)的歷史一樣長另锋。自計算機誕生,就開始有了對人工智能的研究耘子,而人工智能領域最早的研究就是機器翻譯以及自然語言理解继谚。
【嵌牛鼻子】:NLP巫击,MSRA?
【嵌牛提問】:你使用過自然語言處理的有關產(chǎn)品嗎佑刷?
在 1998 年微軟亞洲研究院成立之初治唤,NLP 就被確定為最重要的研究領域之一。歷經(jīng)二十載春華秋實茉帅,在歷屆院長支持下叨叙,微軟亞洲研究院在促進 NLP 的普及與發(fā)展以及人才培養(yǎng)方面取得了非凡的成就。共計發(fā)表了 100 余篇 ACL 大會文章堪澎,出版了《機器翻譯》和《智能問答》兩部著作擂错,培養(yǎng)了 500 名實習生、20 名博士和 20 名博士后樱蛤。我們開發(fā)的 NLP 技術琳瑯滿目钮呀,包括輸入法、分詞刹悴、句法/語義分析行楞、文摘、情感分析土匀、問答子房、跨語言檢索、機器翻譯就轧、知識圖譜证杭、聊天機器人、用戶畫像和推薦等妒御,已經(jīng)廣泛應用于 Windows解愤、Office、Bing乎莉、微軟認知服務送讲、小冰、小娜等微軟產(chǎn)品中惋啃。我們與創(chuàng)新技術組合作研發(fā)的微軟對聯(lián)和必應詞典哼鬓,已經(jīng)為成千上萬的用戶提供服務。
過去二十年边灭,NLP 利用統(tǒng)計機器學習方法异希,基于大規(guī)模的帶標注的數(shù)據(jù)進行端對端的學習,取得了長足的進步绒瘦。尤其是過去三年來称簿,深度學習給 NLP 帶來了新的進步。其中在單句翻譯惰帽、抽取式閱讀理解憨降、語法檢查等任務上,更是達到了可比擬人類的水平善茎。
基于如下的判斷券册,我們認為未來十年是 NLP 發(fā)展的黃金檔:
來自各個行業(yè)的文本大數(shù)據(jù)將會更好地采集、加工、入庫烁焙。
來自搜索引擎航邢、客服、商業(yè)智能骄蝇、語音助手膳殷、翻譯、教育九火、法律赚窃、金融等領域?qū)?NLP 的需求會大幅度上升,對 NLP 質(zhì)量也提出更高要求岔激。
文本數(shù)據(jù)和語音勒极、圖像數(shù)據(jù)的多模態(tài)融合成為未來機器人的剛需。這些因素都會進一步促進對 NLP 的投資力度虑鼎,吸引更多人士加入到 NLP 的研發(fā)中來辱匿。因此我們需要審時度勢、抓住重點炫彩、及時規(guī)劃匾七,面向更大的突破。
因此江兢,NLP 研究將會向如下幾個方面傾斜:
將知識和常識引入目前基于數(shù)據(jù)的學習系統(tǒng)中昨忆。
低資源的 NLP 任務的學習方法。
上下文建模杉允、多輪語義理解邑贴。
基于語義分析、知識和常識的可解釋 NLP叔磷。
重點知識:NLP 的技術進展
自然語言處理痢缎,有時候也稱作自然語言理解,旨在利用計算機分析自然語言語句和文本世澜,抽取重要信息,進行檢索署穗、問答寥裂、自動翻譯和文本生成。人工智能的目的是使得電腦能聽案疲、會說封恰、理解語言、會思考褐啡、解決問題诺舔,甚至會創(chuàng)造。它包括運算智能、感知智能低飒、認知智能和創(chuàng)造智能幾個層次的技術许昨。計算機在運算智能即記憶和計算的能力方面已遠超人類。而感知智能則是電腦感知環(huán)境的能力褥赊,包括聽覺糕档、視覺和觸覺等等,相當于人類的耳朵拌喉、眼睛和手速那。目前感知智能技術已取得飛躍性的進步;而認知智能包括自然語言理解尿背、知識和推理端仰,目前還待深入研究;創(chuàng)造智能目前尚無多少研究田藐。比爾·蓋茨曾說過荔烧,「自然語言理解是人工智能皇冠上的明珠」。NLP 的進步將會推動人工智能整體進展坞淮。
NLP 在深度學習的推動下茴晋,在很多領域都取得了很大進步。下面回窘,我們就來一起簡單看看 NLP 的重要技術進展诺擅。
神經(jīng)機器翻譯
神經(jīng)機器翻譯就是模擬人腦的翻譯過程。
翻譯任務就是把源語言句子轉(zhuǎn)換成語義相同的目標語言句子啡直。人腦在進行翻譯的時候烁涌,首先是嘗試理解這句話,然后在腦海里形成對這句話的語義表示酒觅,最后再把這個語義表示轉(zhuǎn)化到另一種語言撮执。神經(jīng)機器翻譯就是模擬人腦的翻譯過程,它包含了兩個模塊:一個是編碼器舷丹,負責將源語言句子壓縮為語義空間中的一個向量表示抒钱,期望該向量包含源語言句子的主要語義信息;另一個是解碼器颜凯,它基于編碼器提供的語義向量谋币,生成在語義上等價的目標語言句子。
神經(jīng)機器翻譯模型的優(yōu)勢在于三方面:一是端到端的訓練症概,不再像統(tǒng)計機器翻譯方法那樣由多個子模型疊加而成蕾额,從而造成錯誤的傳播;二是采用分布式的信息表示彼城,能夠自動學習多維度的翻譯知識诅蝶,避免人工特征的片面性退个;三是能夠充分利用全局上下文信息來完成翻譯,不再是局限于局部的短語信息调炬∮镉基于循環(huán)神經(jīng)網(wǎng)絡模型的機器翻譯模型已經(jīng)成為一種重要的基線系統(tǒng),在此方法的基礎上筐眷,從網(wǎng)絡模型結(jié)構到模型訓練方法等方面黎烈,都涌現(xiàn)出很多改進。
神經(jīng)機器翻譯系統(tǒng)的翻譯質(zhì)量在不斷取得進步匀谣,人們一直在探索如何使得機器翻譯達到人類的翻譯水平照棋。2018 年,微軟亞洲研究院與微軟翻譯產(chǎn)品團隊合作開發(fā)的中英機器翻譯系統(tǒng)武翎,在 WMT2017 新聞領域測試數(shù)據(jù)集上的翻譯質(zhì)量達到了與人類專業(yè)翻譯質(zhì)量相媲美的水平 (Hassan et al., 2018)烈炭。該系統(tǒng)融合了微軟亞洲研究院提出的四種先進技術,其中包括可以高效利用大規(guī)模單語數(shù)據(jù)的聯(lián)合訓練和對偶學習技術宝恶,以及解決曝光偏差問題的一致性正則化技術和推敲網(wǎng)絡技術符隙。
智能人機交互
智能人機交互包括利用自然語言實現(xiàn)人與機器的自然交流。其中一個重要的概念是「對話即平臺」垫毙。
「對話即平臺(CaaP霹疫,Conversation as a Platform)是微軟首席執(zhí)行官薩提亞·納德拉 2016 年提出的概念,他認為圖形界面的下一代就是對話综芥,并會給整個人工智能丽蝎、計算機設備帶來一場新的革命。
薩提亞之所以提出這個概念是因為:首先膀藐,源于大家都已經(jīng)習慣用社交手段屠阻,如微信、Facebook 與他人聊天的過程额各。我們希望將這種交流過程呈現(xiàn)在當今的人機交互中国觉。其次,大家現(xiàn)在面對的設備有的屏幕很邢豪病(比如手機)麻诀,有的甚至沒有屏幕(比如有些物聯(lián)網(wǎng)設備),語音交互更加自然和直觀傲醉。對話式人機交互可調(diào)用 Bot 來完成一些具體的功能针饥,比如訂咖啡,買車票等等需频。許多公司開放了 CAAP 平臺,讓全世界的開發(fā)者都能開發(fā)出自己喜歡的 Bot 以便形成一個生態(tài)筷凤。
面向任務的對話系統(tǒng)比如微軟的小娜通過手機和智能設備讓人與電腦進行交流昭殉,由人發(fā)布命令苞七,小娜理解并完成任務。同時挪丢,小娜理解你的習慣蹂风,可主動給你一些貼心提示。而聊天機器人乾蓬,比如微軟的小冰負責聊天惠啄。無論是小娜這種注重任務執(zhí)行的技術,還是小冰這種聊天系統(tǒng)任内,其實背后單元處理引擎無外乎三層技術:第一層撵渡,通用聊天機器人;第二層死嗦,搜索和問答(Infobot)趋距;第三層,面向特定任務對話系統(tǒng)(Bot)越除。
聊天系統(tǒng)的架構
機器閱讀理解
自然語言理解的一個重要研究課題是閱讀理解节腐。
閱讀理解就是讓電腦看一遍文章,針對這些文章問一些問題摘盆,看電腦能不能回答出來翼雀。機器閱讀理解技術有著廣闊的應用前景。例如孩擂,在搜索引擎中狼渊,機器閱讀理解技術可以用來為用戶的搜索(尤其是問題型的查詢)提供更為智能的答案。我們通過對整個互聯(lián)網(wǎng)的文檔進行閱讀理解肋殴,從而直接為用戶提供精確的答案囤锉。同時,這在移動場景的個人助理护锤,如微軟小娜(Cortana)里也有直接的應用:智能客服中可使用機器閱讀文本文檔(如用戶手冊官地、商品描述等)來自動或輔助客服來回答用戶的問題;在辦公領域可使用機器閱讀理解技術處理個人的郵件或者文檔烙懦,然后用自然語言查詢獲取相關的信息驱入;在教育領域用來可以用來輔助出題;在法律領域可用來理解法律條款氯析,輔助律師或者法官判案亏较;在金融領域里從非結(jié)構化的文本(比如新聞中)抽取金融相關的信息等。機器閱讀理解技術可形成一個通用能力掩缓,第三方可以基于它構建更多的應用雪情。
斯坦福大學在 2016 年 7 月發(fā)布了一個大規(guī)模的用于評測閱讀理解技術的數(shù)據(jù)集(SQuAD),包含 10 萬個由人工標注的問題和答案你辣。SQuAD 數(shù)據(jù)集中巡通,文章片段(passage)來自維基百科的文章尘执,每個文章片段(passage)由眾包方式,標注人員提 5 個問題宴凉,并且要求問題的答案是 passage 中的一個子片段誊锭。標注的數(shù)據(jù)被分成訓練集和測試集。訓練集公開發(fā)布用來訓練閱讀理解系統(tǒng)弥锄,而測試集不公開丧靡。參賽者需要把開發(fā)的算法和模型提交到斯坦福由其運行后把結(jié)果報在網(wǎng)站上。
一開始籽暇,以 100 分為例温治,人的水平是 82.3 左右,機器的水平只有 74 分图仓,機器相差甚遠罐盔。后來通過不斷改進,機器閱讀理解性能得以逐步地提高救崔。2018 年 1 月惶看,微軟亞洲研究院提交的 R-Net 系統(tǒng)首次在 SQuAD 數(shù)據(jù)集上以 82.65 的精準匹配的成績首次超越人類在這一指標上的成績。隨后阿里巴巴六孵、科大訊飛和哈工大的系統(tǒng)也在這一指標上超越人類水平纬黎。標志著閱讀理解技術進入了一個新的階段。最近微軟亞洲研究院的 NL-Net 和谷歌的 BERT 系統(tǒng)又先后在模糊匹配指標上突破人類水平劫窒。對于閱讀理解技術的推動本今,除了 SQuAD 數(shù)據(jù)集起到了關鍵作用之外,還有如下三個方的因素:首先主巍,是端到端的深度神經(jīng)網(wǎng)絡冠息。其次,是預訓練的神經(jīng)網(wǎng)絡孕索;最后逛艰,是系統(tǒng)和網(wǎng)絡結(jié)構上的不斷創(chuàng)新。
機器創(chuàng)作
機器可以做很多理性的東西搞旭,也可以做出一些創(chuàng)造性的東西散怖。
早在 2005 年,微軟亞洲研究院在時任院長沈向洋的提議和支持下成功研發(fā)了《微軟對聯(lián)》系統(tǒng)肄渗。用戶出上聯(lián)镇眷,電腦對出下聯(lián)和橫批,語句非常工整翎嫡。
在此基礎上欠动,我們又先后開發(fā)了格律詩和猜字謎的智能系統(tǒng)。在字謎游戲里惑申,用戶給出謎面具伍,讓系統(tǒng)猜出字铆遭,或系統(tǒng)給出謎面讓用戶猜出字。2017 年微軟研究院開發(fā)了電腦寫自由體詩系統(tǒng)沿猜、作詞譜曲系統(tǒng)。中央電視臺《機智過人》節(jié)目就曾播放過微軟的電腦作詞譜曲與人類選手進行詞曲創(chuàng)作比拼的內(nèi)容碗脊。這件事說明如果有大數(shù)據(jù)啼肩,那么深度學習就可以模擬人類的創(chuàng)造智能,也可以幫助專家產(chǎn)生更好的想法衙伶。
就作詞來說祈坠,寫一首歌詞首先要決定主題。比如想寫一首與「秋」矢劲,「歲月」赦拘,「滄桑」芬沉,「感嘆」相關的歌躺同,利用詞向量表示技術,可知「秋風」丸逸、「流年」蹋艺、「歲月」、「變遷」等詞語比較相關黄刚,通過擴展主題可以約束生成的結(jié)果偏向人們想要的歌詞捎谨,接著在主題模型的約束下用序列到序列的神經(jīng)網(wǎng)絡,用歌詞的上一句去生成下一句憔维,如果是第一句涛救,則用一個特殊的序列作為輸入去生成第一句歌詞,這樣循環(huán)生成歌詞的每一句业扒。
下面也簡介一下譜曲检吆。為一首詞譜曲不單要考慮旋律是否好聽,也要考慮曲與詞是否對應凶赁。這類似于一個翻譯過程咧栗。不過這個翻譯中的對應關系比自然語言翻譯更為嚴格。它需嚴格規(guī)定每一個音符對應到歌詞中的每一個字虱肄。例如每一句有 N 個字致板,那么就需要將這句話對應的曲切分成 N 個部分,然后順序完成對應關系咏窿。這樣在「翻譯」過程中要「翻譯」出合理的曲譜斟或,還要給出曲與詞之間的對應關系。我們利用了一個改進的序列到序列的神經(jīng)網(wǎng)絡模型集嵌,完成從歌詞「翻譯」到曲譜的生成過程萝挤。
趨勢熱點:值得關注的 NLP 技術
從最近的 NLP 研究中御毅,我們認為有一些技術發(fā)展趨勢值得關注,這里總結(jié)了五個方面:
熱點一怜珍,預訓練神經(jīng)網(wǎng)絡
如何學習更好的預訓練的表示端蛆,在一段時間內(nèi)繼續(xù)成為研究的熱點。
通過類似于語言模型的方式來學習詞的表示酥泛,其用于具體任務的范式得到了廣泛應用今豆。這幾乎成為自然語言處理的標配。這個范式的一個不足是詞表示缺少上下文柔袁,對上下文進行建模依然完全依賴于有限的標注數(shù)據(jù)進行學習呆躲。實際上,基于深度神經(jīng)網(wǎng)絡的語言模型已經(jīng)對文本序列進行了學習捶索。如果把語言模型關于歷史的那部分參數(shù)也拿出來應用插掂,那么就能得到一個預訓練的上下文相關的表示。這就是 Matthew Peters 等人在 2018 年 NAACL 上的論文「Deep Contextualized Word Representations」的工作腥例,他們在大量文本上訓練了一個基于 LSTM 的語言模型辅甥。最近 Jacob Delvin 等人又取得了新的進展,他們基于多層 Transformer 機制院崇,利用所謂「MASKED」模型預測句子中被掩蓋的詞的損失函數(shù)和預測下一個句子的損失函數(shù)所預訓練得到的模型「BERT」肆氓,在多個自然語言處理任務上取得了當前最好的水平。以上提到的所有的預訓練的模型底瓣,在應用到具體任務時谢揪,先用這個語言模型的 LSTM 對輸入文本得到一個上下文相關的表示,然后再基于這個表示進行具體任務相關的建模學習捐凭。結(jié)果表明拨扶,這種方法在語法分析、閱讀理解茁肠、文本分類等任務都取得了顯著的提升患民。最近一段時間,這種預訓練模型的研究成為了一個研究熱點垦梆。
如何學習更好的預訓練的表示在一段時間內(nèi)將繼續(xù)成為研究的熱點匹颤。在什么粒度(word,sub-word托猩,character)上進行預訓練印蓖,用什么結(jié)構的語言模型(LSTM,Transformer 等)訓練京腥,在什么樣的數(shù)據(jù)上(不同體裁的文本)進行訓練赦肃,以及如何將預訓練的模型應用到具體任務,都是需要繼續(xù)研究的問題。現(xiàn)在的預訓練大都基于語言模型他宛,這樣的預訓練模型最適合序列標注的任務船侧,對于問答一類任務依賴于問題和答案兩個序列的匹配的任務,需要探索是否有更好的預訓練模型的數(shù)據(jù)和方法厅各。將來很可能會出現(xiàn)多種不同結(jié)構镜撩、基于不同數(shù)據(jù)訓練得到的預訓練模型。針對一個具體任務队塘,如何快速找到合適的預訓練模型琐鲁,自動選擇最優(yōu)的應用方法,也是一個可能的研究課題人灼。
熱點二,遷移學習和多任務學習
對于那些本身缺乏充足訓練數(shù)據(jù)的自然語言處理任務顾翼,遷移學習有著非常重要和實際的意義投放。多任務學習則用于保證模型能夠?qū)W到不同任務間共享的知識和信息。
不同的 NLP 任務雖然采用各自不同類型的數(shù)據(jù)進行模型訓練适贸,但在編碼器(Encoder)端往往是同構的灸芳。例如,給定一個自然語言句子 who is the Microsoft founder拜姿,機器翻譯模型烙样、復述模型和問答模型都會將其轉(zhuǎn)化為對應的向量表示序列,然后再使用各自的解碼器完成后續(xù)翻譯蕊肥、改寫和答案生成 (或檢索) 任務谒获。因此,可以將不同任務訓練得到的編碼器看作是不同任務對應的一種向量表示壁却,并通過遷移學習(Transfer Learning)的方式將這類信息遷移到目前關注的目標任務上來批狱。對于那些本身缺乏充足訓練數(shù)據(jù)的自然語言處理任務,遷移學習有著非常重要和實際的意義展东。
多任務學習(Multi-task Learning)可通過端到端的方式赔硫,直接在主任務中引入其他輔助任務的監(jiān)督信息,用于保證模型能夠?qū)W到不同任務間共享的知識和信息盐肃。Collobert 和 Weston 早在 2008 年就最早提出了使用多任務學習在深度學習框架下處理 NLP 任務的模型爪膊。最近 Salesforce 的 McCann 等提出了利用問答框架使用多任務學習訓練十項自然語言任務。每項任務的訓練數(shù)據(jù)雖然有限砸王,但是多個任務共享一個網(wǎng)絡結(jié)構推盛,提升對來自不同任務的訓練數(shù)據(jù)的綜合利用能力。多任務學習可以設計為對諸任務可共建和共享網(wǎng)絡的核心層次处硬,而在輸出層對不同任務設計特定的網(wǎng)絡結(jié)構小槐。
熱點三,知識和常識的引入
如何在自然語言理解模塊中更好地使用知識和常識,已經(jīng)成為目前自然語言處理領域中一個重要的研究課題凿跳。
隨著人們對人機交互(例如智能問答和多輪對話)要求的不斷提高件豌,如何在自然語言理解模塊中更好地使用領域知識,已經(jīng)成為目前自然語言處理領域中一個重要的研究課題控嗜。這是由于人機交互系統(tǒng)通常需要具備相關的領域知識茧彤,才能更加準確地完成用戶查詢理解、對話管理和回復生成等任務疆栏。
最常見的領域知識包括維基百科和知識圖譜兩大類曾掂。機器閱讀理解是基于維基百科進行自然語言理解的一個典型任務。給定一段維基百科文本和一個自然語言問題壁顶,機器閱讀理解任務的目的是從該文本中找到輸入問題對應的答案短語片段珠洗。語義分析是基于知識圖譜進行自然語言理解的另一個典型任務。給定一個知識圖譜(例如 Freebase)和一個自然語言問題若专,語義分析任務的目的是將該問題轉(zhuǎn)化為機器能夠理解和執(zhí)行的語義表示许蓖。目前,機器閱讀理解和語義分析可以說是最熱門的自然語言理解任務调衰,它們受到了來自全世界研究者的廣泛關注和深入探索膊爪。
常識指絕大多數(shù)人都了解并接受的客觀事實,例如海水是咸的嚎莉、人渴了就想喝水米酬、白糖是甜的等。常識對機器深入理解自然語言非常重要趋箩,在很多情況下赃额,只有具備了一定程度的常識,機器才有可能對字面上的含義做出更深一層次的理解叫确。然而獲取常識卻是一個巨大的挑戰(zhàn)爬早,一旦有所突破將是影響人工智能進程的大事情。另外启妹,在 NLP 系統(tǒng)中如何應用常識尚無深入的研究筛严,不過出現(xiàn)了一些值得關注的工作。
熱點四饶米,低資源的 NLP 任務
引入領域知識(詞典桨啃、規(guī)則)可以增強數(shù)據(jù)能力檬输、基于主動學習的方法增加更多的人工標注數(shù)據(jù)等,以解決數(shù)據(jù)資源貧乏的問題丧慈。
面對標注數(shù)據(jù)資源貧乏的問題析命,譬如小語種的機器翻譯、特定領域?qū)υ捪到y(tǒng)鹃愤、客服系統(tǒng)簇搅、多輪問答系統(tǒng)等,NLP 尚無良策软吐。這類問題統(tǒng)稱為低資源的 NLP 問題瘩将。對這類問題,除了設法引入領域知識(詞典凹耙、規(guī)則)以增強數(shù)據(jù)能力之外姿现,還可以基于主動學習的方法來增加更多的人工標注數(shù)據(jù),以及采用無監(jiān)督和半監(jiān)督的方法來利用未標注數(shù)據(jù)肖抱,或者采用多任務學習的方法來使用其他任務甚至其他語言的信息备典,還可以使用遷移學習的方法來利用其他的模型。
以機器翻譯為例意述,對于稀缺資源的小語種翻譯任務熊经,在沒有常規(guī)雙語訓練數(shù)據(jù)的情況下,首先通過一個小規(guī)模的雙語詞典(例如僅包含 2000 左右的詞對)欲险,使用跨語言詞向量的方法將源語言和目標語言詞映射到同一個隱含空間。在該隱含空間中, 意義相近的源語言和目標語言詞具有相近的詞向量表示匹涮√焓裕基于該語義空間中詞向量的相似程度構建詞到詞的翻譯概率表,并結(jié)合語言模型然低,便可以構建基于詞的機器翻譯模型喜每。使用基于詞的翻譯模型將源語言和目標語言單語語料進行翻譯,構建出偽雙語數(shù)據(jù)雳攘。于是带兜,數(shù)據(jù)稀缺的問題通過無監(jiān)督的學習方法產(chǎn)生偽標注數(shù)據(jù),就轉(zhuǎn)化成了一個有監(jiān)督的學習問題吨灭。接下來刚照,利用偽雙語數(shù)據(jù)訓練源語言到目標語言以及目標語言到源語言的翻譯模型,隨后再使用聯(lián)合訓練的方法結(jié)合源語言和目標語言的單語數(shù)據(jù)喧兄,可以進一步提高兩個翻譯系統(tǒng)的質(zhì)量无畔。
為了提高小語種語言的翻譯質(zhì)量,我們提出了利用通用語言之間大規(guī)模的雙語數(shù)據(jù)吠冤,來聯(lián)合訓練四個翻譯模型的期望最大化訓練方法(Ren et al., 2018)浑彰。該方法將小語種(例如希伯來語)作為有著豐富語料的語種(例如中文)和(例如英語)之間的一個隱含狀態(tài),并使用通用的期望最大化訓練方法來迭代地更新 X 到 Z拯辙、Z 到 X郭变、Y 到 Z 和 Z 到 Y 之間的四個翻譯模型,直至收斂。
熱點五周伦,多模態(tài)學習
視覺問答作為一種典型的多模態(tài)學習任務循诉,在近年來受到計算機視覺和自然語言處理兩個領域研究人員的重點關注。
嬰兒在掌握語言功能前茄猫,首先通過視覺、聽覺和觸覺等感官去認識并了解外部世界脆侮。可見靖避,語言并不是人類在幼年時期與外界進行溝通的首要手段比默。因此,構建通用人工智能也應該充分地考慮自然語言和其他模態(tài)之間的互動命咐,并從中進行學習,這就是多模態(tài)學習醋奠。
視覺問答作為一種典型的多模態(tài)學習任務,在近年來受到計算機視覺和自然語言處理兩個領域研究人員的重點關注沛善。給定一張圖片和用戶提出的一個自然語言問題塞祈,視覺問答系統(tǒng)需要在理解圖片和自然語言問題的基礎上,進一步輸入該問題對應的答案议薪,這需要視覺問答方法在建模中能夠?qū)D像和語言之間的信息進行充分地理解和交互。
我們在今年的 CVPR 和 KDD 大會上分別提出了基于問題生成的視覺問答方法(Li et al., 2018)以及基于場景圖生成的視覺問答方法(Lu et al., 2018)抵屿,這兩種方法均在視覺問答任務上取得了非常好的結(jié)果,實現(xiàn)了 state-of-the-art 的效果轧葛。除視覺問答外,視頻問答是另一種最近廣受關注的多模態(tài)任務尿扯。該任務除了包括帶有時序的視頻信息外,還包括了音頻信息衷笋。目前,視頻問答作為一種新型的問答功能辟宗,已經(jīng)出現(xiàn)在搜索引擎的場景中】栈茫可以預見,該任務在接下來一定還會受到更多的關注秕铛。
未來展望:理想的 NLP 框架和發(fā)展前景
我們認為缩挑,未來理想狀態(tài)下的 NLP 系統(tǒng)架構可能是如下一個通用的自然語言處理框架:
首先,對給定自然語言輸入進行基本處理供置,包括分詞、詞性標注、依存分析谎僻、命名實體識別、意圖/關系分類等艘绍。
其次,使用編碼器對輸入進行編碼將其轉(zhuǎn)化為對應的語義表示诱鞠。在這個過程中,一方面使用預訓練好的詞嵌入和實體嵌入對輸入中的單詞和實體名稱進行信息擴充蕉朵,另一方面,可使用預訓練好的多個任務編碼器對輸入句子進行編碼并通過遷移學習對不同編碼進行融合始衅。
接下來,基于編碼器輸出的語義表示汛闸,使用任務相關的解碼器生成對應的輸出。還可引入多任務學習將其他相關任務作為輔助任務引入到對主任務的模型訓練中來诸老。如果需要多輪建模,則需要在數(shù)據(jù)庫中記錄當前輪的輸出結(jié)果的重要信息别伏,并應用于在后續(xù)的理解和推理中。
顯然宦芦,為了實現(xiàn)這個理想的 NLP 框架需要做很多工作:
需要構建大規(guī)模常識數(shù)據(jù)庫并且清晰通過有意義的評測推動相關研究轴脐;
研究更加有效的詞、短語大咱、句子的編碼方式,以及構建更加強大的預訓練的神經(jīng)網(wǎng)絡模型碴巾;
推進無監(jiān)督學習和半監(jiān)督學習,需要考慮利用少量人類知識加強學習能力以及構建跨語言的 embedding 的新方法提揍;
需要更加有效地體現(xiàn)多任務學習和遷移學習在 NLP 任務中的效能煮仇,提升強化學習在 NLP 任務的作用,比如在自動客服的多輪對話中的應用浙垫;
有效的篇章級建模或者多輪會話建模和多輪語義分析夹姥;
要在系統(tǒng)設計中考慮用戶的因素,實現(xiàn)用戶建模和個性化的輸出辙售;
構建綜合利用推理系統(tǒng)、任務求解和對話系統(tǒng)十拣,基于領域知識和常識知識的新一代的專家系統(tǒng);
利用語義分析和知識系統(tǒng)提升 NLP 系統(tǒng)的可解釋能力夭问。
未來十年,NLP 將會進入爆發(fā)式的發(fā)展階段缰趋。從 NLP 基礎技術到核心技術,再到 NLP+的應用秘血,都會取得巨大的進步。比爾蓋茨曾經(jīng)說過人們總是高估在一年或者兩年中能夠做到的事情仔涩,而低估十年中能夠做到的事情。
我們不妨進一步想象十年之后 NLP 的進步會給人類生活帶來哪些改變熔脂?
十年后柑肴,機器翻譯系統(tǒng)可以對上下文建模,具備新詞處理能力晰骑。那時候的講座、開會都可以用語音進行自動翻譯奸忽。除了機器翻譯普及戚炫,其他技術的進步也令人耳目一新转捕。家里的老人和小孩可以跟機器人聊天解悶耗式。
機器個人助理能夠理解你的自然語言指令趁猴,完成點餐、送花儡司、購物等下單任務。你已習慣于客服機器人來回答你的關于產(chǎn)品維修的問題捕犬。
你登臨泰山發(fā)思古之幽情酵镜,或每逢佳節(jié)倍思親柴钻,拿出手機說出感想或者上傳一幅照片,一首情景交融靠粪、圖文并茂的詩歌便躍然于手機屏幕上,并且可以選擇格律詩詞或者自由體的表示形式占键,亦可配上曲譜元潘,發(fā)出大作引來點贊畔乙。
可能你每天看到的體育新聞翩概、財經(jīng)新聞報道是機器人寫的。
你用手機跟機器人老師學英語氮帐,老師教你口語,糾正發(fā)音上沐,跟你親切對話,幫你修改論文龄广。
機器人定期自動分析浩如煙海的文獻蕴侧,給企業(yè)提供分析報表、輔助決策并做出預測净宵。搜索引擎的智能程度大幅度提高。很多情況下紧武,可以直接給出答案,并且可以自動生成細致的報告阻星。
利用推薦系統(tǒng)已添,你關心的新聞滥酥、書籍畦幢、課程、會議禾怠、論文、商品等可直接推送給你吗氏。
機器人幫助律師找出判據(jù)雷逆,挖掘相似案例,尋找合同疏漏膀哲,撰寫法律報告。
……
未來仿村,NLP 將跟其他人工智能技術一道深刻地改變?nèi)祟惖纳睢.斎磺巴竟饷靼摇⒌缆非凼莵児挪蛔兊牡览硪旅裕瑸榱藢崿F(xiàn)這個美好的未來,我們需要大膽創(chuàng)新壶谒、嚴謹求實、扎實進取让禀。講求研究和應用并舉陨界,普及與提高同步。我們期待著與業(yè)界同仁一道努力普碎,共同走進 NLP 下一個輝煌的十年录平。