Pytorch學(xué)習(xí)記錄-GEC語法糾錯01
五月第一周要結(jié)束了,接下來的三個月主要是文獻(xiàn)閱讀迎捺,準(zhǔn)備8友浸、9月的開題報告拆又,技術(shù)類的文獻(xiàn)集中在GEC和Text maching的應(yīng)用方面,讀完之后找demo復(fù)現(xiàn)温兼,然后應(yīng)用秸滴。
理論方面的論文也都是英文的,國內(nèi)這塊做的真的不行啊……
學(xué)習(xí)計劃
- GEC概念
- Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task
相關(guān)介紹:http://www.sohu.com/a/206342111_473283
NLPTEA-2018 Task1 比賽第一名 - Chinese Grammatical Error Diagnosis using Statistical and Prior Knowledge driven Features with Probabilistic Ensemble Enhancement
相關(guān)介紹:http://www.10tiao.com/html/617/201807/2650793125/1.html
英文語法糾錯(最近三年)
流利說的兩篇文章募判,用分類方法做語法糾錯荡含,不需要平行語料(錯誤-正確對子對),只做五類錯誤:主謂一致届垫,名詞單復(fù)數(shù)释液,介詞錯誤,冠詞錯誤装处,動詞形式錯誤
- Deep Context Model for Grammatical Error Correction
- A Simple but Effective Classification Model for Grammatical ErrorjiyuCorrection
- Connecting the Dots: Towards Human-Level Grammatical Error Correction
- A Multilayer Convolutional Encoder-Decoder Neural Network for Grammatical Error Correction
- Reaching Human-level Performance in Automatic Grammatical Error Correction: An Empiricale Study
https://blog.csdn.net/Y2c8YpZC15p/article/details/81125500?utm_source=blogxgwz1
混合SMT和NMT
- Near Human-Level Performance in Grammatical Error Correction with Hybrid Machine Translation
基于分類的方法和基于翻譯的方法比較: - Grammatical Error Correction: Machine Translation and Classifiers
conll2014 英文語法糾錯綜述(有各個小組的論文集合): - The CoNLL-2014 Shared Task on Grammatical Error Correction
0. GEC概念
基于這篇文章https://www.zybuluo.com/xixibufu/note/1250559
0.1 GEC的三個階段
GEC是(Grammatical Error Correction)的簡寫误债,整體包括三個階段:
- 基于規(guī)則
沒什么好說的,就是上規(guī)則妄迁,有些古老但是很有用寝蹈。 - 數(shù)據(jù)驅(qū)動的傳統(tǒng)機(jī)器學(xué)習(xí)
在數(shù)據(jù)驅(qū)動的方法成為GEC的主流后,人們利用機(jī)器學(xué)習(xí)技術(shù)(SVM登淘、樸素貝葉斯)箫老,為不同錯誤類別設(shè)計單獨的分類器。
這類方法對冠詞黔州、介詞等錯誤的糾正效果十分明顯耍鬓,但也存在一些問題。
其僅利用了句子中局部的上下文信息流妻、且只能獨立地考慮不同的錯誤類別牲蜀,對于一些交互式錯誤則無能為力。 - 基于機(jī)器翻譯
到目前為止經(jīng)歷兩個階段绅这,SMT(基于統(tǒng)計機(jī)器翻譯)和NMT(神經(jīng)機(jī)器翻譯)涣达,原理很簡單,使用類似機(jī)器翻譯的方式,將有語法問題的“壞”句子翻譯成“好”句子峭判。- CoNLL2014劍橋大學(xué)基于統(tǒng)計機(jī)器翻譯SMT
- 基于SMT增加ReRank,通過提取語言學(xué)特征對候選句子進(jìn)行重排序
- NMT成為新的主流
0.2 結(jié)合NMT輸出的GEC系統(tǒng)
- encoder-decoder模型
基于NMT自然還是要使用基于encoder-decoder模型的Seq2Seq棕叫。資料里面還是使用RNN作為核心網(wǎng)絡(luò)林螃。- 用一個神經(jīng)網(wǎng)絡(luò)(encoder)將輸入句子F編碼成一個固定長度的向量
- 用另一個神經(jīng)網(wǎng)絡(luò)(decoder)基于該向量進(jìn)行解碼,輸出糾正后的句子
- attention機(jī)制
加入attention機(jī)制后俺泣,可以解決RNN對長距離依賴的不敏感和“輸入的表示”(就是第5個模型中的壓緊處理)
輸入的表示問題相比于長距離依賴問題更加嚴(yán)重疗认。想象有兩個輸入句子,第一個僅包含3個單詞伏钠,第二個包含100個單詞横漏,而encoder居然無差別地將它們都編碼成相同長度的向量(比如說50維)。這一做法顯然存在問題熟掂,長度為100的句子中很多信息可能被忽略了缎浇。
0.3 重排序ReRank
就是在得到結(jié)果后進(jìn)行一個重排序處理,beam search進(jìn)行解碼赴肚,保留得分最高的前K個候選句子素跺,在解碼得分的基礎(chǔ)上引入若干特征,對這K個候選句子重新排序誉券。