MIT人工智能實驗室的《如何做研究》建議閱讀本領域中最本質(zhì)的幾篇論文:“如果你對AI的某個子領域感興趣姥卢,向該領域的高年級研究生請教本領域最重要的十篇論文是什么”领猾。閱讀經(jīng)典論文球昨,對于了解感興趣的領域非常重要运怖。而關于統(tǒng)計機器翻譯幢踏,最經(jīng)典的幾篇論文又是什么呢斩萌?
A Statistical Approach to Machine Translation 簡稱Brown90脑题,這是統(tǒng)計機器翻譯的奠基之作件缸,是了解統(tǒng)計機器翻譯基本思想的必讀,文章中最主要的思想是把機器翻譯看成是一個信息傳輸?shù)倪^程叔遂,用一種信源信道模型對機器翻譯進行解釋他炊。另外文章主要是對統(tǒng)計機器翻譯三部分(翻譯模型、語言模型及解碼)的宏觀介紹已艰,涉及的數(shù)學理論并沒有過多的詳細解釋痊末,因此讀來比較輕松。
The Mathematics of Machine Translation: Parameter Estimation 簡稱Brown93哩掺,主要針對Brown90中翻譯模型的參數(shù)估計進行了詳細的數(shù)學解釋凿叠,需要一定的數(shù)學基礎和耐心,不過Kevin Knight 99年JHU(約翰霍普金斯大學)夏季機器翻譯研討班上的《A Statistical MT Tutorial Workbook》對Brown93用例子及通俗的方式進行了講解嚼吞,讀來比較容易理解盒件,值得對照閱讀。
Discriminative Training and Maximum Entropy Models for Statistical Machine Translation 這是統(tǒng)計機器翻譯領域中傳奇人物Franz Josef Och 在2002年ACL會議上發(fā)表的論文舱禽,他提出了基于最大熵模型的統(tǒng)計機器翻譯方法炒刁,是對Brown信源信道模型的極大擴展,開闊了統(tǒng)計機器翻譯的視野誊稚,并為研究者提供了一個融合其它知識到統(tǒng)計機器翻譯中的研究框架翔始,這篇論文獲得了當年的ACL最佳論文獎罗心。
Statistical Phrase-Based Translation 這是統(tǒng)計機器翻譯領域另一個大牛Philipp Koehn 2003年與Och合著的文章,已涉及了具體的方法而不是理論框架:基于短語的統(tǒng)計機器翻譯城瞎。之所以選在這里渤闷,與Koehn 2004年發(fā)布的具有廣泛影響力的解碼器Pharaoh不無關系,Pharoah現(xiàn)在已被Koehn領導的另一個開源項目Moses所取代全谤。
BLEU: A Method for Automatic Evaluation of Machine Translation 這是目前用得最廣的機器翻譯自動評測方法BLEU的原始論文,之所以選在這里爷贫,因為評測方法的好壞對于機器翻譯的研究具有很大的影響认然,BLEU理應作為評測方法的代表入選。
統(tǒng)計機器翻譯中其實還有好多經(jīng)典文獻漫萄,恕本人學識有限卷员,這里只將自己能力范圍之內(nèi)的重要文章放在這里,歡迎大家探討和補充腾务!這些文章都可以在Google中搜到毕骡,所以這里就不附下載連接了。
轉(zhuǎn)載:“我愛自然語言處理”:www.52nlp.cn 2008年12月25日