2015年自然語(yǔ)言處理頂級(jí)會(huì)議EMNLP都講了些什么?

原地址:http://www.dataguru.cn/article-8222-1.html

摘要: 2015年EMNLP自然語(yǔ)言處理實(shí)證方法會(huì)議(Conferenceon Empirical Methods in Natural Language Processing)于2015年9月17-22日在葡萄牙里斯本市召開(kāi)侥蒙。EMNLP是自然語(yǔ)言處理領(lǐng)域的頂級(jí)會(huì)議暗膜,由ACL學(xué)會(huì)下屬特殊興趣小組 ...

|

2015年EMNLP自然語(yǔ)言處理實(shí)證方法會(huì)議(Conferenceon Empirical Methods in Natural Language Processing)于2015年9月17-22日在葡萄牙里斯本市召開(kāi)。EMNLP是自然語(yǔ)言處理領(lǐng)域的頂級(jí)會(huì)議鞭衩,由ACL學(xué)會(huì)下屬特殊興趣小組SIGDAT(ACL Special Interest Group on Linguistic data and Corpus-based Approachesto NLP)組織桦山,每年召開(kāi)一次。本次大會(huì)吸引了來(lái)自學(xué)術(shù)界和企業(yè)界近千人參加醋旦。

會(huì)議概況

本次會(huì)議共收到來(lái)自 58個(gè)國(guó)家和地區(qū)的1300篇論文投稿恒水,其中來(lái)自中國(guó)大陸地區(qū)的投稿257篇,位居第2位饲齐,僅次于美國(guó)钉凌。來(lái)自全球各地的30位Area Chairs和900多位審稿人員組成了程序委員會(huì),對(duì)投稿進(jìn)行了嚴(yán)格的評(píng)審捂人。會(huì)議收到的長(zhǎng)文投稿約600篇御雕,短文投稿約700篇,最終錄用312 篇論文滥搭,錄用率為24.04%酸纲,基本與自然語(yǔ)言處理頂級(jí)會(huì)議ACL的投稿量和錄取率持平。EMNLP從2013年開(kāi)始錄用短文瑟匆,今年短文投稿量相比前兩年平均200余篇的投稿量有了顯著增長(zhǎng)闽坡。會(huì)議論文有口頭報(bào)告和海報(bào)報(bào)告兩種形式,并首次嘗試讓錄取論文作者投票選擇感興趣的論文愁溜,來(lái)確定論文報(bào)告形式疾嗅。本次會(huì)議還安排了部分期刊TACL(Transactions of the Association for Computational Linguistics)的論文進(jìn)行口頭報(bào)告。

會(huì)議論文

自然語(yǔ)言處理實(shí)證方法會(huì)議涉及自然語(yǔ)言處理的數(shù)據(jù)標(biāo)注冕象、算法代承、應(yīng)用等各個(gè)領(lǐng)域,是自然語(yǔ)言處理學(xué)術(shù)界和產(chǎn)業(yè)界的研究人員進(jìn)行交流渐扮、思想碰撞與合作的重要平臺(tái)论悴。該會(huì)議涵蓋多個(gè)主題:音韻學(xué)掖棉、構(gòu)詞法及分詞;標(biāo)注膀估、組塊分析及句法分析啊片;對(duì)話(huà)系統(tǒng);語(yǔ)義玖像;文檔摘要和產(chǎn)生;統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法齐饮;機(jī)器翻譯捐寥;信息抽取祖驱;信息檢索與問(wèn)答握恳;情感分析與意見(jiàn)挖掘;語(yǔ)音技術(shù)處理捺僻;計(jì)算心理語(yǔ)言學(xué)乡洼;互聯(lián)網(wǎng)與社交媒體;語(yǔ)言與視覺(jué)匕坯;文本挖掘與應(yīng)用束昵。其中語(yǔ)義作為近幾年最火的方向,吸引了近200篇論文投稿葛峻。其他幾個(gè)主要方向如信息抽取锹雏、機(jī)器翻譯等也分別有近150篇投稿量。

在本次會(huì)議上术奖,以人工神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)與表示學(xué)習(xí)大放異彩礁遵。以詞表示學(xué)習(xí)算法和開(kāi)源工具word2vec的發(fā)布和流行為標(biāo)志,近年來(lái)詞表示采记、句子表示佣耐、文檔表示以及知識(shí)表示引起了自然語(yǔ)言處理研究者們的極大興趣。在這方面唧龄,今年會(huì)議上Tobias Schnabel等人的“Evaluation methods for unsupervised word embeddings”對(duì)近年提出的幾種主要詞表示模型兼砖,在不同任務(wù)上系統(tǒng)地進(jìn)行了對(duì)比測(cè)試,得出了很多經(jīng)驗(yàn)性結(jié)論既棺,值得關(guān)注掖鱼。

自去年在機(jī)器翻譯領(lǐng)域得到有效驗(yàn)證之后,基于Attention的神經(jīng)網(wǎng)絡(luò)模型在今年會(huì)議上大放異彩:

Thang Luong等人的“Effective Approaches to Attention-based Neural Machine Translation”對(duì)基于Attention的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型做了進(jìn)一步改進(jìn)援制;

Sumit Chopra等人的“A Neural Attention Model for Abstractive Sentence Summarization”將該模型應(yīng)用到了文本摘要任務(wù)戏挡。

尤其值得一提的是,在深度學(xué)習(xí)著名學(xué)者約書(shū)亞·本吉奧(Yoshua Bengio)的特邀報(bào)告中晨仑,基于Attention的神經(jīng)網(wǎng)絡(luò)模型也備受推崇褐墅,相信接下來(lái)會(huì)得到更為廣泛深入的研究與應(yīng)用拆檬。

還有很多工作采用了長(zhǎng)短期記憶模型(LSTM)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)妥凳、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型解決自然語(yǔ)言處理的各類(lèi)任務(wù):

Xinchi Chen等人的“Long Short-Term Memory Neural Networks for Chinese Word Segmentation”將LSTM用于中文分詞竟贯;

DuyuTang等人的“Document Modeling with Convolutional-Gated Recurrent Neural Networkfor Sentiment Classification”將Gated RNN和CNN結(jié)合應(yīng)用于情感分析;

Rui Lin等人的“Hierarchical Recurrent Neural Network for Document Modeling”將RNN應(yīng)用于文檔建模逝钥;

Yan Xu等人的“ClassifyingRelations via Long Short Term Memory Networks along Shortest Dependency Paths”則將LSTM應(yīng)用于關(guān)系分類(lèi)屑那;等等。

可以看到艘款,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在各自然語(yǔ)言處理任務(wù)上取得了引人注目的成績(jī)持际,以至于EMNLP被人戲稱(chēng)為“Embedding Methods for NLP”的簡(jiǎn)稱(chēng)。

特邀報(bào)告

本次EMNLP會(huì)議邀請(qǐng)了約書(shū)亞·本吉奧(Yoshua Bengio)和賈斯汀·格里默(Justin Grimmer)做大會(huì)特邀報(bào)告哗咆。

約書(shū)亞?本吉奧是蒙特利爾大學(xué)的全職教授蜘欲,是機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的著名學(xué)者。他與杰夫?辛頓(Geoff Hinton)以及燕樂(lè)存(Yann LeCun)兩位教授晌柬,共同締造了2006年開(kāi)始的深度學(xué)習(xí)復(fù)興姥份。他的研究工作重心在高級(jí)機(jī)器學(xué)習(xí)方面,自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的開(kāi)山之作就是來(lái)自于他的團(tuán)隊(duì)年碘。約書(shū)亞?本吉奧的報(bào)告題目為“深度學(xué)習(xí)中的語(yǔ)義表示(Deep Learning of Semantic Representations)”澈歉,著重介紹了近些年自然語(yǔ)言處理語(yǔ)義表示學(xué)習(xí)的進(jìn)展。他首先對(duì)比了語(yǔ)義表示學(xué)習(xí)和傳統(tǒng)的機(jī)器學(xué)習(xí)方法的優(yōu)勢(shì)所在屿衅。接下來(lái)他通過(guò)機(jī)器翻譯為例子介紹了語(yǔ)義表示學(xué)習(xí)近些年來(lái)主要的模型和發(fā)展闷祥。其中,他十分推崇近兩年來(lái)在翻譯領(lǐng)域得到很好效果的基于Attention的神經(jīng)網(wǎng)絡(luò)模型傲诵。在報(bào)告的最后凯砍,約書(shū)亞?本吉奧展望了未來(lái)幾個(gè)重要研究趨勢(shì),值得我們特別關(guān)注:

將傳統(tǒng)隱變量模型(Latent variable Models)同RNN等生成模型相結(jié)合拴竹;

探索考慮多時(shí)間粒度的神經(jīng)網(wǎng)絡(luò)模型悟衩,描繪長(zhǎng)距離依賴(lài)關(guān)系;

多模態(tài)(將文本與圖像栓拜,音頻座泳,視頻等結(jié)合);

探索Neutral Turing Machine和Memory Network等基于記憶的神經(jīng)網(wǎng)絡(luò)模型幕与;

問(wèn)答和自然語(yǔ)言理解挑势。

賈斯汀·格里默是斯坦福大學(xué)的副教授,他的主要研究方向是采用機(jī)器學(xué)習(xí)方法探索美國(guó)政壇的情況啦鸣。報(bào)告展示了美國(guó)選舉人如何利用社交媒體培養(yǎng)支持者潮饱,支持者如何向他們支持的選舉人表達(dá)自己的意見(jiàn)。同時(shí)诫给,調(diào)查結(jié)果可以幫助我們理解美國(guó)政壇的代表產(chǎn)生香拉,以及計(jì)算工具如何幫助我們解釋社會(huì)科學(xué)中的問(wèn)題啦扬。

最佳論文

本次會(huì)議評(píng)選出了兩篇最佳論文。其中一篇是來(lái)自康納爾大學(xué)的“Broad-coverage CCG Semantic Parsing with AMR”凫碌,論文第一作者是YoavArtzi扑毡。論文提出了對(duì)于AMR語(yǔ)義分析的一種語(yǔ)法規(guī)約技術(shù)。傳統(tǒng)的語(yǔ)法規(guī)約技術(shù)需要對(duì)于每個(gè)目標(biāo)應(yīng)用重新學(xué)習(xí)新的語(yǔ)法解析器盛险,而最近AMR Bank使設(shè)計(jì)可以廣泛理解新聞?lì)I(lǐng)域文本瞄摊、同時(shí)支持不同應(yīng)用的模型成為可能。作者將CCG解析同因子圖模型相結(jié)合苦掘,前者用于發(fā)現(xiàn)語(yǔ)義的可組合部分换帜,后者用于表示語(yǔ)義中的不可組合部分,取得了令人滿(mǎn)意的效果鸟蜡。

另一篇最佳論文是來(lái)自劍橋大學(xué)的“SemanticallyConditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems”,論文第一作者是Tsung-HsienWen挺邀。自然語(yǔ)言產(chǎn)生系統(tǒng)是對(duì)話(huà)系統(tǒng)的重要組成部分揉忘。目前大多數(shù)的自然語(yǔ)言產(chǎn)生系統(tǒng)通常使用規(guī)則和啟發(fā)方法來(lái)產(chǎn)生回復(fù),所產(chǎn)生的回復(fù)一般嚴(yán)格符合某種程序規(guī)則端铛,沒(méi)有自然語(yǔ)言中的語(yǔ)言變體泣矛,同時(shí)這種方法也不易于擴(kuò)展到其他語(yǔ)言和領(lǐng)域。針對(duì)這個(gè)問(wèn)題禾蚕,作者提出了基于長(zhǎng)短期記憶模型LSTM的自然語(yǔ)言產(chǎn)生系統(tǒng)您朽。LSTM可以通過(guò)句子規(guī)劃和表意實(shí)現(xiàn)從非對(duì)齊語(yǔ)料中自動(dòng)學(xué)習(xí),并通過(guò)在輸出結(jié)果中抽樣實(shí)現(xiàn)語(yǔ)言變體换淆。

本次會(huì)議還評(píng)選了一篇最佳數(shù)據(jù)集論文哗总,是來(lái)自斯坦福大學(xué)的“A large annotated corpus for learning natural language inference”,第一作者是SamuelR. Bowman倍试。該論文發(fā)表了一個(gè)面向自然語(yǔ)言推理任務(wù)的數(shù)據(jù)集讯屈,解決了該任務(wù)沒(méi)有大規(guī)模標(biāo)注數(shù)據(jù)集的困境,將極大推動(dòng)該任務(wù)的研究進(jìn)展县习。

其他獲得最佳論文提名的有:

來(lái)自KelvinGuu涮母,John Miller和Percy Liang的“Traversing Knowledge Graphs in Vector Space”,

來(lái)自AurelieHerbelot和Eva Maria Vecchi的“Building a shared world: mapping distributional to model-theoreticsemantic spaces”躁愿,

來(lái)自Karthik Narasimhan叛本,Tejas Kulkarni和Regina Barzilay的“Language Understanding for Text-based Games using DeepReinforcement Learning”。

講習(xí)課程和研討會(huì)

EMNLP 2015 共設(shè)立了 15 場(chǎng)講習(xí)課程講座和研討會(huì)彤钟,涵蓋了信息抽取来候,語(yǔ)義,社交網(wǎng)絡(luò)逸雹,機(jī)器翻譯等自然語(yǔ)言處理的各個(gè)熱點(diǎn)問(wèn)題吠勘。這些課程在會(huì)議的前兩天舉辦性芬。

總結(jié)和展望

從本次會(huì)議可以強(qiáng)烈感受到,EMNLP已經(jīng)成為自然語(yǔ)言處理剧防,特別是統(tǒng)計(jì)自然語(yǔ)言處理領(lǐng)域的學(xué)術(shù)盛會(huì)植锉。據(jù)說(shuō)由于會(huì)場(chǎng)規(guī)模限制,大會(huì)組織者不得不提前關(guān)閉會(huì)議注冊(cè)系統(tǒng)峭拘,可見(jiàn)近年來(lái)該領(lǐng)域的蓬勃發(fā)展遠(yuǎn)超組織者們的想象俊庇。特別值得一提的是,本次EMNLP會(huì)議的口頭報(bào)告鸡挠、海報(bào)報(bào)告以及各分會(huì)場(chǎng)主席辉饱,都能看到中國(guó)學(xué)者的活躍身影,本次會(huì)議來(lái)自中國(guó)大陸的投稿量已經(jīng)僅次于美國(guó)位列第二拣展。

本次會(huì)議論文也發(fā)出了明確的信號(hào)彭沼,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型已經(jīng)成為自然語(yǔ)言處理各任務(wù)的重要研究方法。特別是“端到端(end-to-end)”的設(shè)計(jì)思想备埃,拋棄了傳統(tǒng)的“詞法→句法→語(yǔ)義”流水線模式中特征構(gòu)造姓惑、選擇和標(biāo)注的繁瑣工作。大量研究成果展示了深度學(xué)習(xí)的優(yōu)越性按脚,值得國(guó)內(nèi)學(xué)者密切關(guān)注于毙。

當(dāng)然,我們也需要深刻思考辅搬,作為自然語(yǔ)言處理學(xué)者唯沮,我們能為深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用做些什么,而不僅僅是“拿來(lái)主義”堪遂。例如介蛉,傳統(tǒng)自然語(yǔ)言處理研究積累了大量的特征、知識(shí)和模型溶褪,是否應(yīng)該完全擯棄甘耿?這些由專(zhuān)家們幾十年辛勤耕耘收獲的先驗(yàn)知識(shí),是否可以引入深度學(xué)習(xí)框架竿滨,指導(dǎo)神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)與應(yīng)用佳恬?語(yǔ)言是人類(lèi)智能的最高體現(xiàn)。吸收學(xué)習(xí)深度學(xué)習(xí)的最新進(jìn)展于游,進(jìn)一步探索符合自然語(yǔ)言特點(diǎn)的深度學(xué)習(xí)框架毁葱,實(shí)現(xiàn)自然語(yǔ)言理解能力的顯著提高,亟待我們來(lái)完成贰剥。

|

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末倾剿,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌前痘,老刑警劉巖凛捏,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異芹缔,居然都是意外死亡坯癣,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)最欠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)示罗,“玉大人,你說(shuō)我怎么就攤上這事芝硬⊙恋悖” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵拌阴,是天一觀的道長(zhǎng)绍绘。 經(jīng)常有香客問(wèn)我,道長(zhǎng)迟赃,這世上最難降的妖魔是什么陪拘? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮捺氢,結(jié)果婚禮上藻丢,老公的妹妹穿的比我還像新娘剪撬。我一直安慰自己摄乒,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布残黑。 她就那樣靜靜地躺著馍佑,像睡著了一般。 火紅的嫁衣襯著肌膚如雪梨水。 梳的紋絲不亂的頭發(fā)上拭荤,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音疫诽,去河邊找鬼舅世。 笑死萤捆,一個(gè)胖子當(dāng)著我的面吹牛誉尖,可吹牛的內(nèi)容都是我干的担扑。 我是一名探鬼主播硫眯,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼驰弄,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼筑凫!你這毒婦竟也來(lái)了说墨?” 一聲冷哼從身側(cè)響起媳禁,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤胖笛,失蹤者是張志新(化名)和其女友劉穎网持,沒(méi)想到半個(gè)月后宜岛,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡功舀,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年萍倡,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片日杈。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡遣铝,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出莉擒,到底是詐尸還是另有隱情酿炸,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布涨冀,位于F島的核電站填硕,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏鹿鳖。R本人自食惡果不足惜扁眯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望翅帜。 院中可真熱鬧姻檀,春花似錦、人聲如沸涝滴。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)歼疮。三九已至杂抽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間韩脏,已是汗流浹背缩麸。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赡矢,地道東北人杭朱。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像吹散,于是被迫代替她去往敵國(guó)和親弧械。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容