原地址:http://www.dataguru.cn/article-8222-1.html
摘要: 2015年EMNLP自然語(yǔ)言處理實(shí)證方法會(huì)議(Conferenceon Empirical Methods in Natural Language Processing)于2015年9月17-22日在葡萄牙里斯本市召開(kāi)侥蒙。EMNLP是自然語(yǔ)言處理領(lǐng)域的頂級(jí)會(huì)議暗膜,由ACL學(xué)會(huì)下屬特殊興趣小組 ...
|
2015年EMNLP自然語(yǔ)言處理實(shí)證方法會(huì)議(Conferenceon Empirical Methods in Natural Language Processing)于2015年9月17-22日在葡萄牙里斯本市召開(kāi)。EMNLP是自然語(yǔ)言處理領(lǐng)域的頂級(jí)會(huì)議鞭衩,由ACL學(xué)會(huì)下屬特殊興趣小組SIGDAT(ACL Special Interest Group on Linguistic data and Corpus-based Approachesto NLP)組織桦山,每年召開(kāi)一次。本次大會(huì)吸引了來(lái)自學(xué)術(shù)界和企業(yè)界近千人參加醋旦。
會(huì)議概況
本次會(huì)議共收到來(lái)自 58個(gè)國(guó)家和地區(qū)的1300篇論文投稿恒水,其中來(lái)自中國(guó)大陸地區(qū)的投稿257篇,位居第2位饲齐,僅次于美國(guó)钉凌。來(lái)自全球各地的30位Area Chairs和900多位審稿人員組成了程序委員會(huì),對(duì)投稿進(jìn)行了嚴(yán)格的評(píng)審捂人。會(huì)議收到的長(zhǎng)文投稿約600篇御雕,短文投稿約700篇,最終錄用312 篇論文滥搭,錄用率為24.04%酸纲,基本與自然語(yǔ)言處理頂級(jí)會(huì)議ACL的投稿量和錄取率持平。EMNLP從2013年開(kāi)始錄用短文瑟匆,今年短文投稿量相比前兩年平均200余篇的投稿量有了顯著增長(zhǎng)闽坡。會(huì)議論文有口頭報(bào)告和海報(bào)報(bào)告兩種形式,并首次嘗試讓錄取論文作者投票選擇感興趣的論文愁溜,來(lái)確定論文報(bào)告形式疾嗅。本次會(huì)議還安排了部分期刊TACL(Transactions of the Association for Computational Linguistics)的論文進(jìn)行口頭報(bào)告。
會(huì)議論文
自然語(yǔ)言處理實(shí)證方法會(huì)議涉及自然語(yǔ)言處理的數(shù)據(jù)標(biāo)注冕象、算法代承、應(yīng)用等各個(gè)領(lǐng)域,是自然語(yǔ)言處理學(xué)術(shù)界和產(chǎn)業(yè)界的研究人員進(jìn)行交流渐扮、思想碰撞與合作的重要平臺(tái)论悴。該會(huì)議涵蓋多個(gè)主題:音韻學(xué)掖棉、構(gòu)詞法及分詞;標(biāo)注膀估、組塊分析及句法分析啊片;對(duì)話(huà)系統(tǒng);語(yǔ)義玖像;文檔摘要和產(chǎn)生;統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法齐饮;機(jī)器翻譯捐寥;信息抽取祖驱;信息檢索與問(wèn)答握恳;情感分析與意見(jiàn)挖掘;語(yǔ)音技術(shù)處理捺僻;計(jì)算心理語(yǔ)言學(xué)乡洼;互聯(lián)網(wǎng)與社交媒體;語(yǔ)言與視覺(jué)匕坯;文本挖掘與應(yīng)用束昵。其中語(yǔ)義作為近幾年最火的方向,吸引了近200篇論文投稿葛峻。其他幾個(gè)主要方向如信息抽取锹雏、機(jī)器翻譯等也分別有近150篇投稿量。
在本次會(huì)議上术奖,以人工神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)與表示學(xué)習(xí)大放異彩礁遵。以詞表示學(xué)習(xí)算法和開(kāi)源工具word2vec的發(fā)布和流行為標(biāo)志,近年來(lái)詞表示采记、句子表示佣耐、文檔表示以及知識(shí)表示引起了自然語(yǔ)言處理研究者們的極大興趣。在這方面唧龄,今年會(huì)議上Tobias Schnabel等人的“Evaluation methods for unsupervised word embeddings”對(duì)近年提出的幾種主要詞表示模型兼砖,在不同任務(wù)上系統(tǒng)地進(jìn)行了對(duì)比測(cè)試,得出了很多經(jīng)驗(yàn)性結(jié)論既棺,值得關(guān)注掖鱼。
自去年在機(jī)器翻譯領(lǐng)域得到有效驗(yàn)證之后,基于Attention的神經(jīng)網(wǎng)絡(luò)模型在今年會(huì)議上大放異彩:
Thang Luong等人的“Effective Approaches to Attention-based Neural Machine Translation”對(duì)基于Attention的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型做了進(jìn)一步改進(jìn)援制;
Sumit Chopra等人的“A Neural Attention Model for Abstractive Sentence Summarization”將該模型應(yīng)用到了文本摘要任務(wù)戏挡。
尤其值得一提的是,在深度學(xué)習(xí)著名學(xué)者約書(shū)亞·本吉奧(Yoshua Bengio)的特邀報(bào)告中晨仑,基于Attention的神經(jīng)網(wǎng)絡(luò)模型也備受推崇褐墅,相信接下來(lái)會(huì)得到更為廣泛深入的研究與應(yīng)用拆檬。
還有很多工作采用了長(zhǎng)短期記憶模型(LSTM)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)妥凳、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等模型解決自然語(yǔ)言處理的各類(lèi)任務(wù):
Xinchi Chen等人的“Long Short-Term Memory Neural Networks for Chinese Word Segmentation”將LSTM用于中文分詞竟贯;
DuyuTang等人的“Document Modeling with Convolutional-Gated Recurrent Neural Networkfor Sentiment Classification”將Gated RNN和CNN結(jié)合應(yīng)用于情感分析;
Rui Lin等人的“Hierarchical Recurrent Neural Network for Document Modeling”將RNN應(yīng)用于文檔建模逝钥;
Yan Xu等人的“ClassifyingRelations via Long Short Term Memory Networks along Shortest Dependency Paths”則將LSTM應(yīng)用于關(guān)系分類(lèi)屑那;等等。
可以看到艘款,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在各自然語(yǔ)言處理任務(wù)上取得了引人注目的成績(jī)持际,以至于EMNLP被人戲稱(chēng)為“Embedding Methods for NLP”的簡(jiǎn)稱(chēng)。
特邀報(bào)告
本次EMNLP會(huì)議邀請(qǐng)了約書(shū)亞·本吉奧(Yoshua Bengio)和賈斯汀·格里默(Justin Grimmer)做大會(huì)特邀報(bào)告哗咆。
約書(shū)亞?本吉奧是蒙特利爾大學(xué)的全職教授蜘欲,是機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)的著名學(xué)者。他與杰夫?辛頓(Geoff Hinton)以及燕樂(lè)存(Yann LeCun)兩位教授晌柬,共同締造了2006年開(kāi)始的深度學(xué)習(xí)復(fù)興姥份。他的研究工作重心在高級(jí)機(jī)器學(xué)習(xí)方面,自然語(yǔ)言處理的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的開(kāi)山之作就是來(lái)自于他的團(tuán)隊(duì)年碘。約書(shū)亞?本吉奧的報(bào)告題目為“深度學(xué)習(xí)中的語(yǔ)義表示(Deep Learning of Semantic Representations)”澈歉,著重介紹了近些年自然語(yǔ)言處理語(yǔ)義表示學(xué)習(xí)的進(jìn)展。他首先對(duì)比了語(yǔ)義表示學(xué)習(xí)和傳統(tǒng)的機(jī)器學(xué)習(xí)方法的優(yōu)勢(shì)所在屿衅。接下來(lái)他通過(guò)機(jī)器翻譯為例子介紹了語(yǔ)義表示學(xué)習(xí)近些年來(lái)主要的模型和發(fā)展闷祥。其中,他十分推崇近兩年來(lái)在翻譯領(lǐng)域得到很好效果的基于Attention的神經(jīng)網(wǎng)絡(luò)模型傲诵。在報(bào)告的最后凯砍,約書(shū)亞?本吉奧展望了未來(lái)幾個(gè)重要研究趨勢(shì),值得我們特別關(guān)注:
將傳統(tǒng)隱變量模型(Latent variable Models)同RNN等生成模型相結(jié)合拴竹;
探索考慮多時(shí)間粒度的神經(jīng)網(wǎng)絡(luò)模型悟衩,描繪長(zhǎng)距離依賴(lài)關(guān)系;
多模態(tài)(將文本與圖像栓拜,音頻座泳,視頻等結(jié)合);
探索Neutral Turing Machine和Memory Network等基于記憶的神經(jīng)網(wǎng)絡(luò)模型幕与;
問(wèn)答和自然語(yǔ)言理解挑势。
賈斯汀·格里默是斯坦福大學(xué)的副教授,他的主要研究方向是采用機(jī)器學(xué)習(xí)方法探索美國(guó)政壇的情況啦鸣。報(bào)告展示了美國(guó)選舉人如何利用社交媒體培養(yǎng)支持者潮饱,支持者如何向他們支持的選舉人表達(dá)自己的意見(jiàn)。同時(shí)诫给,調(diào)查結(jié)果可以幫助我們理解美國(guó)政壇的代表產(chǎn)生香拉,以及計(jì)算工具如何幫助我們解釋社會(huì)科學(xué)中的問(wèn)題啦扬。
最佳論文
本次會(huì)議評(píng)選出了兩篇最佳論文。其中一篇是來(lái)自康納爾大學(xué)的“Broad-coverage CCG Semantic Parsing with AMR”凫碌,論文第一作者是YoavArtzi扑毡。論文提出了對(duì)于AMR語(yǔ)義分析的一種語(yǔ)法規(guī)約技術(shù)。傳統(tǒng)的語(yǔ)法規(guī)約技術(shù)需要對(duì)于每個(gè)目標(biāo)應(yīng)用重新學(xué)習(xí)新的語(yǔ)法解析器盛险,而最近AMR Bank使設(shè)計(jì)可以廣泛理解新聞?lì)I(lǐng)域文本瞄摊、同時(shí)支持不同應(yīng)用的模型成為可能。作者將CCG解析同因子圖模型相結(jié)合苦掘,前者用于發(fā)現(xiàn)語(yǔ)義的可組合部分换帜,后者用于表示語(yǔ)義中的不可組合部分,取得了令人滿(mǎn)意的效果鸟蜡。
另一篇最佳論文是來(lái)自劍橋大學(xué)的“SemanticallyConditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems”,論文第一作者是Tsung-HsienWen挺邀。自然語(yǔ)言產(chǎn)生系統(tǒng)是對(duì)話(huà)系統(tǒng)的重要組成部分揉忘。目前大多數(shù)的自然語(yǔ)言產(chǎn)生系統(tǒng)通常使用規(guī)則和啟發(fā)方法來(lái)產(chǎn)生回復(fù),所產(chǎn)生的回復(fù)一般嚴(yán)格符合某種程序規(guī)則端铛,沒(méi)有自然語(yǔ)言中的語(yǔ)言變體泣矛,同時(shí)這種方法也不易于擴(kuò)展到其他語(yǔ)言和領(lǐng)域。針對(duì)這個(gè)問(wèn)題禾蚕,作者提出了基于長(zhǎng)短期記憶模型LSTM的自然語(yǔ)言產(chǎn)生系統(tǒng)您朽。LSTM可以通過(guò)句子規(guī)劃和表意實(shí)現(xiàn)從非對(duì)齊語(yǔ)料中自動(dòng)學(xué)習(xí),并通過(guò)在輸出結(jié)果中抽樣實(shí)現(xiàn)語(yǔ)言變體换淆。
本次會(huì)議還評(píng)選了一篇最佳數(shù)據(jù)集論文哗总,是來(lái)自斯坦福大學(xué)的“A large annotated corpus for learning natural language inference”,第一作者是SamuelR. Bowman倍试。該論文發(fā)表了一個(gè)面向自然語(yǔ)言推理任務(wù)的數(shù)據(jù)集讯屈,解決了該任務(wù)沒(méi)有大規(guī)模標(biāo)注數(shù)據(jù)集的困境,將極大推動(dòng)該任務(wù)的研究進(jìn)展县习。
其他獲得最佳論文提名的有:
來(lái)自KelvinGuu涮母,John Miller和Percy Liang的“Traversing Knowledge Graphs in Vector Space”,
來(lái)自AurelieHerbelot和Eva Maria Vecchi的“Building a shared world: mapping distributional to model-theoreticsemantic spaces”躁愿,
來(lái)自Karthik Narasimhan叛本,Tejas Kulkarni和Regina Barzilay的“Language Understanding for Text-based Games using DeepReinforcement Learning”。
講習(xí)課程和研討會(huì)
EMNLP 2015 共設(shè)立了 15 場(chǎng)講習(xí)課程講座和研討會(huì)彤钟,涵蓋了信息抽取来候,語(yǔ)義,社交網(wǎng)絡(luò)逸雹,機(jī)器翻譯等自然語(yǔ)言處理的各個(gè)熱點(diǎn)問(wèn)題吠勘。這些課程在會(huì)議的前兩天舉辦性芬。
總結(jié)和展望
從本次會(huì)議可以強(qiáng)烈感受到,EMNLP已經(jīng)成為自然語(yǔ)言處理剧防,特別是統(tǒng)計(jì)自然語(yǔ)言處理領(lǐng)域的學(xué)術(shù)盛會(huì)植锉。據(jù)說(shuō)由于會(huì)場(chǎng)規(guī)模限制,大會(huì)組織者不得不提前關(guān)閉會(huì)議注冊(cè)系統(tǒng)峭拘,可見(jiàn)近年來(lái)該領(lǐng)域的蓬勃發(fā)展遠(yuǎn)超組織者們的想象俊庇。特別值得一提的是,本次EMNLP會(huì)議的口頭報(bào)告鸡挠、海報(bào)報(bào)告以及各分會(huì)場(chǎng)主席辉饱,都能看到中國(guó)學(xué)者的活躍身影,本次會(huì)議來(lái)自中國(guó)大陸的投稿量已經(jīng)僅次于美國(guó)位列第二拣展。
本次會(huì)議論文也發(fā)出了明確的信號(hào)彭沼,深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)模型已經(jīng)成為自然語(yǔ)言處理各任務(wù)的重要研究方法。特別是“端到端(end-to-end)”的設(shè)計(jì)思想备埃,拋棄了傳統(tǒng)的“詞法→句法→語(yǔ)義”流水線模式中特征構(gòu)造姓惑、選擇和標(biāo)注的繁瑣工作。大量研究成果展示了深度學(xué)習(xí)的優(yōu)越性按脚,值得國(guó)內(nèi)學(xué)者密切關(guān)注于毙。
當(dāng)然,我們也需要深刻思考辅搬,作為自然語(yǔ)言處理學(xué)者唯沮,我們能為深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用做些什么,而不僅僅是“拿來(lái)主義”堪遂。例如介蛉,傳統(tǒng)自然語(yǔ)言處理研究積累了大量的特征、知識(shí)和模型溶褪,是否應(yīng)該完全擯棄甘耿?這些由專(zhuān)家們幾十年辛勤耕耘收獲的先驗(yàn)知識(shí),是否可以引入深度學(xué)習(xí)框架竿滨,指導(dǎo)神經(jīng)網(wǎng)絡(luò)模型的設(shè)計(jì)與應(yīng)用佳恬?語(yǔ)言是人類(lèi)智能的最高體現(xiàn)。吸收學(xué)習(xí)深度學(xué)習(xí)的最新進(jìn)展于游,進(jìn)一步探索符合自然語(yǔ)言特點(diǎn)的深度學(xué)習(xí)框架毁葱,實(shí)現(xiàn)自然語(yǔ)言理解能力的顯著提高,亟待我們來(lái)完成贰剥。
|