Pytorch學(xué)習(xí)記錄-GEC語法糾錯

Pytorch學(xué)習(xí)記錄-GEC語法糾錯01
五月第一周要結(jié)束了,接下來的三個月主要是文獻(xiàn)閱讀迎捺,準(zhǔn)備8友浸、9月的開題報告拆又,技術(shù)類的文獻(xiàn)集中在GEC和Text maching的應(yīng)用方面,讀完之后找demo復(fù)現(xiàn)温兼,然后應(yīng)用秸滴。
理論方面的論文也都是英文的,國內(nèi)這塊做的真的不行啊……

學(xué)習(xí)計劃

  1. GEC概念
  2. Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error Diagnosis Task
    相關(guān)介紹:http://www.sohu.com/a/206342111_473283
    NLPTEA-2018 Task1 比賽第一名
  3. Chinese Grammatical Error Diagnosis using Statistical and Prior Knowledge driven Features with Probabilistic Ensemble Enhancement
    相關(guān)介紹:http://www.10tiao.com/html/617/201807/2650793125/1.html

英文語法糾錯(最近三年)
流利說的兩篇文章募判,用分類方法做語法糾錯荡含,不需要平行語料(錯誤-正確對子對),只做五類錯誤:主謂一致届垫,名詞單復(fù)數(shù)释液,介詞錯誤,冠詞錯誤装处,動詞形式錯誤

  1. Deep Context Model for Grammatical Error Correction
  2. A Simple but Effective Classification Model for Grammatical ErrorjiyuCorrection
  3. Connecting the Dots: Towards Human-Level Grammatical Error Correction
  4. A Multilayer Convolutional Encoder-Decoder Neural Network for Grammatical Error Correction
  5. Reaching Human-level Performance in Automatic Grammatical Error Correction: An Empiricale Study
    https://blog.csdn.net/Y2c8YpZC15p/article/details/81125500?utm_source=blogxgwz1

混合SMT和NMT

  1. Near Human-Level Performance in Grammatical Error Correction with Hybrid Machine Translation
    基于分類的方法和基于翻譯的方法比較:
  2. Grammatical Error Correction: Machine Translation and Classifiers
    conll2014 英文語法糾錯綜述(有各個小組的論文集合):
  3. The CoNLL-2014 Shared Task on Grammatical Error Correction

0. GEC概念

基于這篇文章https://www.zybuluo.com/xixibufu/note/1250559

0.1 GEC的三個階段

GEC是(Grammatical Error Correction)的簡寫误债,整體包括三個階段:

  • 基于規(guī)則
    沒什么好說的,就是上規(guī)則妄迁,有些古老但是很有用寝蹈。
  • 數(shù)據(jù)驅(qū)動的傳統(tǒng)機(jī)器學(xué)習(xí)
    在數(shù)據(jù)驅(qū)動的方法成為GEC的主流后,人們利用機(jī)器學(xué)習(xí)技術(shù)(SVM登淘、樸素貝葉斯)箫老,為不同錯誤類別設(shè)計單獨的分類器。
    這類方法對冠詞黔州、介詞等錯誤的糾正效果十分明顯耍鬓,但也存在一些問題。
    其僅利用了句子中局部的上下文信息流妻、且只能獨立地考慮不同的錯誤類別牲蜀,對于一些交互式錯誤則無能為力。
  • 基于機(jī)器翻譯
    到目前為止經(jīng)歷兩個階段绅这,SMT(基于統(tǒng)計機(jī)器翻譯)和NMT(神經(jīng)機(jī)器翻譯)涣达,原理很簡單,使用類似機(jī)器翻譯的方式,將有語法問題的“壞”句子翻譯成“好”句子峭判。
    • CoNLL2014劍橋大學(xué)基于統(tǒng)計機(jī)器翻譯SMT
    • 基于SMT增加ReRank,通過提取語言學(xué)特征對候選句子進(jìn)行重排序
    • NMT成為新的主流

0.2 結(jié)合NMT輸出的GEC系統(tǒng)

  • encoder-decoder模型
    基于NMT自然還是要使用基于encoder-decoder模型的Seq2Seq棕叫。資料里面還是使用RNN作為核心網(wǎng)絡(luò)林螃。
    • 用一個神經(jīng)網(wǎng)絡(luò)(encoder)將輸入句子F編碼成一個固定長度的向量
    • 用另一個神經(jīng)網(wǎng)絡(luò)(decoder)基于該向量進(jìn)行解碼,輸出糾正后的句子
  • attention機(jī)制
    加入attention機(jī)制后俺泣,可以解決RNN對長距離依賴的不敏感和“輸入的表示”(就是第5個模型中的壓緊處理)

輸入的表示問題相比于長距離依賴問題更加嚴(yán)重疗认。想象有兩個輸入句子,第一個僅包含3個單詞伏钠,第二個包含100個單詞横漏,而encoder居然無差別地將它們都編碼成相同長度的向量(比如說50維)。這一做法顯然存在問題熟掂,長度為100的句子中很多信息可能被忽略了缎浇。

0.3 重排序ReRank

就是在得到結(jié)果后進(jìn)行一個重排序處理,beam search進(jìn)行解碼赴肚,保留得分最高的前K個候選句子素跺,在解碼得分的基礎(chǔ)上引入若干特征,對這K個候選句子重新排序誉券。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末指厌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子踊跟,更是在濱河造成了極大的恐慌踩验,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,639評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件商玫,死亡現(xiàn)場離奇詭異箕憾,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)拳昌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評論 3 385
  • 文/潘曉璐 我一進(jìn)店門厕九,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人地回,你說我怎么就攤上這事扁远。” “怎么了刻像?”我有些...
    開封第一講書人閱讀 157,221評論 0 348
  • 文/不壞的土叔 我叫張陵畅买,是天一觀的道長。 經(jīng)常有香客問我细睡,道長谷羞,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,474評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮湃缎,結(jié)果婚禮上犀填,老公的妹妹穿的比我還像新娘。我一直安慰自己嗓违,他們只是感情好九巡,可當(dāng)我...
    茶點故事閱讀 65,570評論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著蹂季,像睡著了一般冕广。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上偿洁,一...
    開封第一講書人閱讀 49,816評論 1 290
  • 那天撒汉,我揣著相機(jī)與錄音,去河邊找鬼涕滋。 笑死睬辐,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的宾肺。 我是一名探鬼主播溉委,決...
    沈念sama閱讀 38,957評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼爱榕!你這毒婦竟也來了瓣喊?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,718評論 0 266
  • 序言:老撾萬榮一對情侶失蹤黔酥,失蹤者是張志新(化名)和其女友劉穎藻三,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體跪者,經(jīng)...
    沈念sama閱讀 44,176評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡棵帽,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,511評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了渣玲。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片逗概。...
    茶點故事閱讀 38,646評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖忘衍,靈堂內(nèi)的尸體忽然破棺而出逾苫,到底是詐尸還是另有隱情,我是刑警寧澤枚钓,帶...
    沈念sama閱讀 34,322評論 4 330
  • 正文 年R本政府宣布铅搓,位于F島的核電站,受9級特大地震影響搀捷,放射性物質(zhì)發(fā)生泄漏星掰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,934評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望氢烘。 院中可真熱鬧怀偷,春花似錦、人聲如沸播玖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,755評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽黎棠。三九已至,卻和暖如春镰绎,著一層夾襖步出監(jiān)牢的瞬間脓斩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,987評論 1 266
  • 我被黑心中介騙來泰國打工畴栖, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留随静,地道東北人。 一個月前我還...
    沈念sama閱讀 46,358評論 2 360
  • 正文 我出身青樓吗讶,卻偏偏與公主長得像燎猛,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子照皆,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,514評論 2 348

推薦閱讀更多精彩內(nèi)容