NLP講座3: 詞性信息-子詞模型

1.人類語(yǔ)言的聲音:語(yǔ)音和語(yǔ)音學(xué)


  • 語(yǔ)音是聲音流–毫無(wú)爭(zhēng)議的“物理”
  • 語(yǔ)音學(xué)假設(shè)一小部分或幾組獨(dú)特的類別單元:音素或獨(dú)特特征
  • 也許是普遍的類型學(xué)堰塌,但特定語(yǔ)言的實(shí)現(xiàn)
  • 類別感知的最佳證據(jù)來(lái)自語(yǔ)音學(xué)
    • 音素內(nèi)差異縮姓孕獭;音素間放大

形態(tài):詞的一部分


  • 傳統(tǒng)上场刑,我們把語(yǔ)素作為最小的語(yǔ)義單元
  • [[un [[fortun(e)] ROOT ate] STEM] STEM ly] WORD
  • 深度學(xué)習(xí):形態(tài)學(xué)研究很少般此;
    一次嘗試遞歸神經(jīng)網(wǎng)絡(luò)是(Luong,Socher牵现,&Manning 2013)

<一種處理較大詞匯量的可能方法-最看不見的單詞是新的形態(tài)形式(或數(shù)字)>

形態(tài)學(xué)


  • 一個(gè)簡(jiǎn)單的替代方法是使用字符n-gram
  • Wickelphones(Rumelhart&McClelland 1986)
  • 微軟的DSSM(Huang铐懊,He,Gao瞎疼,Deng科乎,Acero和Hect 2013)
  • 有關(guān)使用卷積層的想法
  • 可以更輕松地提供語(yǔ)素的許多好處嗎?

書寫系統(tǒng)中的單詞


寫作系統(tǒng)在表達(dá)單詞的方式上有所不同-或不

  • 沒(méi)有分詞 例:美國(guó)關(guān)島國(guó)際機(jī)場(chǎng)及其辦公室均接獲
  • 單詞(主要)分為:This is a sentence with words
    • 批評(píng)家贼急?

      • 分開的 Je vous ai apporte? des bonbons
      • 已加入 ?+ ???+ ??+ ?? = ??????? = so+said+we+it
    • 化合物茅茂?

      • 分開的 life insurance company employee
      • 已加入 Lebensversicherungsgesellschaftsangestellter

單詞級(jí)別下的模型


  • 需要處理 large,openvocabulary
    • 豐富的形態(tài):nejneobhospodar?ova?vatelne?js?i?mu
      (“to the worst farmable one”)

    • 音譯:Christopher Krys?tof

    • 非正式拼寫:

字符級(jí)別下的模型


1.單詞嵌入可以由字符嵌入組成

  • 為未知單詞生成嵌入
  • 相似的拼寫共享相似的嵌入
  • 解決OOV問(wèn)題

2.可以將連接的語(yǔ)言當(dāng)作字符來(lái)處理兩種方法都已證明非常成功!

  • 令人驚訝的是-傳統(tǒng)上竿裂,音素/字母不是語(yǔ)義單位-但是DL模型組成了組

文字下方:書寫系統(tǒng)


大多數(shù)深度學(xué)習(xí)NLP的工作都是從書面形式的語(yǔ)言開始的-它是易于處理的發(fā)現(xiàn)數(shù)據(jù)
但是人類語(yǔ)言寫作系統(tǒng)不是一回事玉吁!

音位(也許有字) jiyawu ngabulu Wambaya
僵化音素 thorough failure English
音節(jié)/摩拉 ??????? Inuktitut
表意文字(音節(jié)符號(hào)) 去年太空船二號(hào)墜毀 Chinese
結(jié)合以上 インド洋の島 Japanese

2. 純字符級(jí)模型


  • Wesawone很好的例子,用于句子分類的字符級(jí)模型
  • 非常深的卷積網(wǎng)絡(luò)用于文本分類
  • Conneau腻异,Schwenk进副,Lecun,Barrault,EACL 2017
  • 通過(guò)深度卷積堆棧獲得強(qiáng)大結(jié)果

純字符級(jí)NMT模型


-最初表現(xiàn)不理想?(Vilar等,2007影斑; Neubig等给赞,2013)

  • 僅解碼器
  • (鐘俊英,趙慶gh矫户,Yoshua Bengio片迅。arXiv
    2016)。
  • 有希望的結(jié)果
  • (Wang Ling皆辽,Isabel Trancoso柑蛇,Chris Dyer,Alan Black驱闷,arXiv 2015)
  • (Thang Luong耻台,Christopher Manning,ACL 2016)
  • (Marta R.Costa-Jussà空另,JoséA. R. Fonollosa盆耽,ACL 2016)

英語(yǔ)-捷克語(yǔ)WMT 2015成績(jī)


  • LuongandManning測(cè)試了基準(zhǔn)基線純字符級(jí)seq2seq(LSTM)NMT系統(tǒng)
  • 針對(duì)關(guān)鍵字級(jí)別的基準(zhǔn)進(jìn)行了有效處理
  • Butitwasssllooooww
    • 3個(gè)星期的訓(xùn)練...在運(yùn)行時(shí)不是那么快

英語(yǔ)-捷克語(yǔ)WMT 2015示例


無(wú)需顯式細(xì)分的全字符級(jí)神經(jīng)機(jī)器翻譯


Jason Lee,Kyunghyun Cho扼菠,Thomas Hoffmann摄杂。 2017.編碼器如下; 解碼器是字符級(jí)GRU

在LSTM seq2seq模型中具有深度的更強(qiáng)字符結(jié)果


回顧基于字符的神經(jīng)機(jī)器翻譯的能力和壓縮循榆。 2018.Cherry析恢,F(xiàn)oster,Bapna冯痢,F(xiàn)irat氮昧,Macherey,Google AI

3. 子詞模型:兩種趨勢(shì)


  • 與詞級(jí)模型相同的體系結(jié)構(gòu):
  • 但是使用較小的單位:“單詞”
  • [Sennrich浦楣,Haddow,Birch咪辱,ACL’16a]振劳,[Chung,Cho油狂,Bengio历恐,ACL’16]。
  • 混合架構(gòu):
  • 主模型有文字专筷; 角色的其他東西
  • [Costa-Jussà&Fonollosa弱贼,ACL’16],[Luong&Manning磷蛹,ACL’16]吮旅。

字節(jié)對(duì)編碼


  • 最初是壓縮算法:
    • 最頻繁的字節(jié)對(duì)一個(gè)新字節(jié)。

Rico Sennrich味咳,Barry Haddow和Alexandra Birch庇勃。 具有子詞單位的稀有詞的神經(jīng)機(jī)器翻譯檬嘀。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus


  • 分詞算法:
  • 雖然是自底向上的聚類
  • 以數(shù)據(jù)中所有(Unicode)字符的字母組合詞表開頭
  • 最常見的ngram對(duì)一個(gè)新的ngram

  • 分詞算法:
  • 從字符詞匯開始
  • 最常見的ngram對(duì)一個(gè)新的ngram






  • 達(dá)到目標(biāo)詞匯量大小并在您到達(dá)時(shí)停止
  • 確定性最長(zhǎng)的單詞分段
  • 使用某些先前的標(biāo)記器(通常是用于MT的Moses標(biāo)記器)識(shí)別的單詞進(jìn)行細(xì)分
  • 自動(dòng)決定vocabforsystem

字詞/句子模型


  • GoogleNMT(GNMT)使用以下版本
    • V1:字詞模型
    • V2:句子模型
  • Ratherthancharn-gramcount责嚷,使用貪婪近似來(lái)最大化語(yǔ)言模型的對(duì)數(shù)可能性以選擇片段
    • 添加最大程度減少困惑的n-gram
  • 單詞模型對(duì)內(nèi)單詞進(jìn)行標(biāo)記
  • 句子模型來(lái)自原始文本
  • BERT使用字詞模型的變體
  • (相對(duì))常用詞在詞匯表中:
    • 1910年代鸳兽,費(fèi)爾法克斯
  • 其他單詞是由單詞構(gòu)成的:
    • hypatia = h ## yp ## ati ## a
      如果您以其他方式使用BERT
      基于模型,您必須處理

4. 字符級(jí)以構(gòu)建詞級(jí)學(xué)習(xí)詞級(jí)表示形式


語(yǔ)音標(biāo)記(Dos Santos和Zadrozny 2014)

  • 卷積字符以生成單詞嵌入
  • 修復(fù)了用于PoS標(biāo)記的詞嵌入窗口

基于字符的LSTM構(gòu)建單詞表示


基于字符的LSTM


技術(shù)方法


字符感知神經(jīng)語(yǔ)言模型

Yoon Kim罕拂,Yacine Jernite揍异,David Sontag,Alexander M.Rush爆班,2015年
更為復(fù)雜/復(fù)雜的方法

  • 推導(dǎo)適用于多種語(yǔ)言的強(qiáng)大而強(qiáng)大的語(yǔ)言模型衷掷。
  • 編碼子詞相關(guān)性:事件,事件蛋济,事件...
  • 解決現(xiàn)有模型的稀有字問(wèn)題棍鳖。
  • 以更少的參數(shù)獲得可比的表現(xiàn)力。

卷積層


  • 在字符級(jí)輸入上進(jìn)行卷積碗旅。
  • 隨時(shí)間變化的最大池化(有效地選擇n-gram)渡处。

公路網(wǎng)(Srivastava et al.2015)


  • 模擬n-gram交互。
  • 在保留原始信息的同時(shí)進(jìn)行轉(zhuǎn)換祟辟。
  • 功能類似于LSTM存儲(chǔ)單元医瘫。

長(zhǎng)短期記憶網(wǎng)絡(luò)


  • 分層Softmax,用于處理大量輸出詞匯旧困。
  • 通過(guò)截?cái)嗟姆聪騻鞑ミM(jìn)行訓(xùn)練醇份。

定量結(jié)果


定性見解


外賣


  • 論文質(zhì)疑使用詞嵌入作為神經(jīng)語(yǔ)言建模輸入的必要性。
  • 字符上方的CNN +高速公路網(wǎng)絡(luò)可以提取豐富的語(yǔ)義和結(jié)構(gòu)信息吼具。
  • 關(guān)鍵思想:您可以構(gòu)成“構(gòu)建基塊”以獲得細(xì)微而強(qiáng)大的模型僚纷!

混合NMT


  • 兩全其美的架構(gòu):
  • 主要在單詞級(jí)別進(jìn)行翻譯
  • 僅在需要時(shí)進(jìn)入角色級(jí)別
  • 對(duì)復(fù)制機(jī)制進(jìn)行了超過(guò)2種BLEU改進(jìn),以嘗試填寫稀有詞

2級(jí)解碼


  • 單詞級(jí)光束搜索
  • 單詞級(jí)光束搜索
  • 字符級(jí)光束搜索<unk>

英語(yǔ)和捷克語(yǔ)的結(jié)果


  • 訓(xùn)練WMT’15數(shù)據(jù)(1200萬(wàn)個(gè)句子對(duì))
    • newstest2015

樣本英語(yǔ)-捷克語(yǔ)翻譯

  • Char-based:錯(cuò)誤的名字翻譯
  • Word-based:不正確的對(duì)齊


  • Char-based&hybrid:diagnózen的正確翻譯


  • 基于單詞:身份復(fù)制失敗

  • hybrid:正確,11-year-old – jedena?ctileta?
  • 錯(cuò)誤:Shani Bartova?

5. 單詞嵌入的字符


詞嵌入和詞形態(tài)的聯(lián)合模型
(Cao and Rei 2016)

  • 與w2v相同的目標(biāo)拗盒,但使用字符
  • 雙向LSTM計(jì)算嵌入
  • 模型嘗試捕獲形態(tài)
  • 模型可以推斷出詞根

FastText embeddings


使用子詞信息Bojanowski怖竭,Grave,Joulin和Mikolov豐富詞向量陡蝇。 公平痊臭。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc

  • 目標(biāo):高效的類似于word2vec的單詞表示庫(kù)登夫,但更適合具有多種形態(tài)的稀有單詞和語(yǔ)言
  • w2v跳過(guò)語(yǔ)法模型的擴(kuò)展广匙,包含字符n-gram
  • 用邊界符號(hào)和整個(gè)單詞表示的單詞表示為charcharn-gram:
  • where = <wh,whe恼策,her鸦致,ere,re>,<where>
    • 請(qǐng)注意蹋凝,<her>或<her與她不同
      • 前綴鲁纠,后綴和整個(gè)單詞都很特殊
  • 代表這些表示的詞。
    上下文分?jǐn)?shù)中的單詞為:
    • 細(xì)節(jié):不是共享所有n-gram的表示鳍寂,而是使用“哈希技巧”來(lái)固定向量個(gè)數(shù)

單詞相似性數(shù)據(jù)集得分(相關(guān)性)

  • 稀有詞的差別收益
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末改含,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子迄汛,更是在濱河造成了極大的恐慌捍壤,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,284評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鞍爱,死亡現(xiàn)場(chǎng)離奇詭異鹃觉,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)睹逃,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,115評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門盗扇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人沉填,你說(shuō)我怎么就攤上這事疗隶。” “怎么了翼闹?”我有些...
    開封第一講書人閱讀 164,614評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵斑鼻,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我猎荠,道長(zhǎng)坚弱,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,671評(píng)論 1 293
  • 正文 為了忘掉前任关摇,我火速辦了婚禮荒叶,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘输虱。我一直安慰自己停撞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,699評(píng)論 6 392
  • 文/花漫 我一把揭開白布悼瓮。 她就那樣靜靜地躺著,像睡著了一般艰猬。 火紅的嫁衣襯著肌膚如雪横堡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,562評(píng)論 1 305
  • 那天冠桃,我揣著相機(jī)與錄音命贴,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛胸蛛,可吹牛的內(nèi)容都是我干的污茵。 我是一名探鬼主播,決...
    沈念sama閱讀 40,309評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼葬项,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼泞当!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起民珍,我...
    開封第一講書人閱讀 39,223評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤襟士,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后嚷量,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體陋桂,經(jīng)...
    沈念sama閱讀 45,668評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,859評(píng)論 3 336
  • 正文 我和宋清朗相戀三年蝶溶,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嗜历。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,981評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡抖所,死狀恐怖梨州,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情部蛇,我是刑警寧澤摊唇,帶...
    沈念sama閱讀 35,705評(píng)論 5 347
  • 正文 年R本政府宣布,位于F島的核電站涯鲁,受9級(jí)特大地震影響巷查,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜抹腿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,310評(píng)論 3 330
  • 文/蒙蒙 一岛请、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧警绩,春花似錦崇败、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,904評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至混狠,卻和暖如春岸霹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背将饺。 一陣腳步聲響...
    開封第一講書人閱讀 33,023評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工贡避, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留痛黎,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,146評(píng)論 3 370
  • 正文 我出身青樓刮吧,卻偏偏與公主長(zhǎng)得像湖饱,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子杀捻,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,933評(píng)論 2 355