1.人類語(yǔ)言的聲音:語(yǔ)音和語(yǔ)音學(xué)
- 語(yǔ)音是聲音流–毫無(wú)爭(zhēng)議的“物理”
- 語(yǔ)音學(xué)假設(shè)一小部分或幾組獨(dú)特的類別單元:音素或獨(dú)特特征
- 也許是普遍的類型學(xué)堰塌,但特定語(yǔ)言的實(shí)現(xiàn)
- 類別感知的最佳證據(jù)來(lái)自語(yǔ)音學(xué)
- 音素內(nèi)差異縮姓孕獭;音素間放大
形態(tài):詞的一部分
- 傳統(tǒng)上场刑,我們把語(yǔ)素作為最小的語(yǔ)義單元
- [[un [[fortun(e)] ROOT ate] STEM] STEM ly] WORD
- 深度學(xué)習(xí):形態(tài)學(xué)研究很少般此;
一次嘗試遞歸神經(jīng)網(wǎng)絡(luò)是(Luong,Socher牵现,&Manning 2013)
<一種處理較大詞匯量的可能方法-最看不見的單詞是新的形態(tài)形式(或數(shù)字)>
形態(tài)學(xué)
- 一個(gè)簡(jiǎn)單的替代方法是使用字符n-gram
- Wickelphones(Rumelhart&McClelland 1986)
- 微軟的DSSM(Huang铐懊,He,Gao瞎疼,Deng科乎,Acero和Hect 2013)
- 有關(guān)使用卷積層的想法
- 可以更輕松地提供語(yǔ)素的許多好處嗎?
書寫系統(tǒng)中的單詞
寫作系統(tǒng)在表達(dá)單詞的方式上有所不同-或不
- 沒(méi)有分詞 例:美國(guó)關(guān)島國(guó)際機(jī)場(chǎng)及其辦公室均接獲
- 單詞(主要)分為:This is a sentence with words
-
批評(píng)家贼急?
- 分開的 Je vous ai apporte? des bonbons
- 已加入 ?+ ???+ ??+ ?? = ??????? = so+said+we+it
-
化合物茅茂?
- 分開的 life insurance company employee
- 已加入 Lebensversicherungsgesellschaftsangestellter
-
單詞級(jí)別下的模型
- 需要處理 large,openvocabulary
豐富的形態(tài):nejneobhospodar?ova?vatelne?js?i?mu
(“to the worst farmable one”)音譯:Christopher Krys?tof
非正式拼寫:
字符級(jí)別下的模型
1.單詞嵌入可以由字符嵌入組成
- 為未知單詞生成嵌入
- 相似的拼寫共享相似的嵌入
- 解決OOV問(wèn)題
2.可以將連接的語(yǔ)言當(dāng)作字符來(lái)處理兩種方法都已證明非常成功!
- 令人驚訝的是-傳統(tǒng)上竿裂,音素/字母不是語(yǔ)義單位-但是DL模型組成了組
文字下方:書寫系統(tǒng)
大多數(shù)深度學(xué)習(xí)NLP的工作都是從書面形式的語(yǔ)言開始的-它是易于處理的發(fā)現(xiàn)數(shù)據(jù)
但是人類語(yǔ)言寫作系統(tǒng)不是一回事玉吁!
音位(也許有字) | jiyawu ngabulu | Wambaya |
僵化音素 | thorough failure | English |
音節(jié)/摩拉 | ??????? | Inuktitut |
表意文字(音節(jié)符號(hào)) | 去年太空船二號(hào)墜毀 | Chinese |
結(jié)合以上 | インド洋の島 | Japanese |
2. 純字符級(jí)模型
- Wesawone很好的例子,用于句子分類的字符級(jí)模型
- 非常深的卷積網(wǎng)絡(luò)用于文本分類
- Conneau腻异,Schwenk进副,Lecun,Barrault,EACL 2017
- 通過(guò)深度卷積堆棧獲得強(qiáng)大結(jié)果
純字符級(jí)NMT模型
-最初表現(xiàn)不理想?(Vilar等,2007影斑; Neubig等给赞,2013)
- 僅解碼器
- (鐘俊英,趙慶gh矫户,Yoshua Bengio片迅。arXiv
2016)。 - 有希望的結(jié)果
- (Wang Ling皆辽,Isabel Trancoso柑蛇,Chris Dyer,Alan Black驱闷,arXiv 2015)
- (Thang Luong耻台,Christopher Manning,ACL 2016)
- (Marta R.Costa-Jussà空另,JoséA. R. Fonollosa盆耽,ACL 2016)
英語(yǔ)-捷克語(yǔ)WMT 2015成績(jī)
- LuongandManning測(cè)試了基準(zhǔn)基線純字符級(jí)seq2seq(LSTM)NMT系統(tǒng)
- 針對(duì)關(guān)鍵字級(jí)別的基準(zhǔn)進(jìn)行了有效處理
- Butitwasssllooooww
- 3個(gè)星期的訓(xùn)練...在運(yùn)行時(shí)不是那么快
英語(yǔ)-捷克語(yǔ)WMT 2015示例
無(wú)需顯式細(xì)分的全字符級(jí)神經(jīng)機(jī)器翻譯
Jason Lee,Kyunghyun Cho扼菠,Thomas Hoffmann摄杂。 2017.編碼器如下; 解碼器是字符級(jí)GRU
在LSTM seq2seq模型中具有深度的更強(qiáng)字符結(jié)果
回顧基于字符的神經(jīng)機(jī)器翻譯的能力和壓縮循榆。 2018.Cherry析恢,F(xiàn)oster,Bapna冯痢,F(xiàn)irat氮昧,Macherey,Google AI
3. 子詞模型:兩種趨勢(shì)
- 與詞級(jí)模型相同的體系結(jié)構(gòu):
- 但是使用較小的單位:“單詞”
- [Sennrich浦楣,Haddow,Birch咪辱,ACL’16a]振劳,[Chung,Cho油狂,Bengio历恐,ACL’16]。
- 混合架構(gòu):
- 主模型有文字专筷; 角色的其他東西
- [Costa-Jussà&Fonollosa弱贼,ACL’16],[Luong&Manning磷蛹,ACL’16]吮旅。
字節(jié)對(duì)編碼
- 最初是壓縮算法:
- 最頻繁的字節(jié)對(duì)一個(gè)新字節(jié)。
Rico Sennrich味咳,Barry Haddow和Alexandra Birch庇勃。 具有子詞單位的稀有詞的神經(jīng)機(jī)器翻譯檬嘀。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus
- 分詞算法:
- 雖然是自底向上的聚類
- 以數(shù)據(jù)中所有(Unicode)字符的字母組合詞表開頭
- 最常見的ngram對(duì)一個(gè)新的ngram
- 分詞算法:
- 從字符詞匯開始
-
最常見的ngram對(duì)一個(gè)新的ngram
↓
↓
↓
↓
- 達(dá)到目標(biāo)詞匯量大小并在您到達(dá)時(shí)停止
- 確定性最長(zhǎng)的單詞分段
- 使用某些先前的標(biāo)記器(通常是用于MT的Moses標(biāo)記器)識(shí)別的單詞進(jìn)行細(xì)分
- 自動(dòng)決定vocabforsystem
- 不再以傳統(tǒng)方式強(qiáng)烈“用詞”
https://github.com/rsennrich/nematus
- 不再以傳統(tǒng)方式強(qiáng)烈“用詞”
字詞/句子模型
- GoogleNMT(GNMT)使用以下版本
- V1:字詞模型
- V2:句子模型
- Ratherthancharn-gramcount责嚷,使用貪婪近似來(lái)最大化語(yǔ)言模型的對(duì)數(shù)可能性以選擇片段
- 添加最大程度減少困惑的n-gram
- 單詞模型對(duì)內(nèi)單詞進(jìn)行標(biāo)記
- 句子模型來(lái)自原始文本
- 空格保留為特殊標(biāo)記(_)并正常分組
- 您可以通過(guò)連接片段并將它們重新編碼為空格來(lái)結(jié)束事物
- https://github.com/google/sentencepiece
- https://arxiv.org/pdf/1804.10959.pdf
- BERT使用字詞模型的變體
- (相對(duì))常用詞在詞匯表中:
- 1910年代鸳兽,費(fèi)爾法克斯
- 其他單詞是由單詞構(gòu)成的:
- hypatia = h ## yp ## ati ## a
如果您以其他方式使用BERT
基于模型,您必須處理
- hypatia = h ## yp ## ati ## a
4. 字符級(jí)以構(gòu)建詞級(jí)學(xué)習(xí)詞級(jí)表示形式
語(yǔ)音標(biāo)記(Dos Santos和Zadrozny 2014)
- 卷積字符以生成單詞嵌入
- 修復(fù)了用于PoS標(biāo)記的詞嵌入窗口
基于字符的LSTM構(gòu)建單詞表示
基于字符的LSTM
技術(shù)方法
字符感知神經(jīng)語(yǔ)言模型
Yoon Kim罕拂,Yacine Jernite揍异,David Sontag,Alexander M.Rush爆班,2015年
更為復(fù)雜/復(fù)雜的方法
- 推導(dǎo)適用于多種語(yǔ)言的強(qiáng)大而強(qiáng)大的語(yǔ)言模型衷掷。
- 編碼子詞相關(guān)性:事件,事件蛋济,事件...
- 解決現(xiàn)有模型的稀有字問(wèn)題棍鳖。
- 以更少的參數(shù)獲得可比的表現(xiàn)力。
卷積層
- 在字符級(jí)輸入上進(jìn)行卷積碗旅。
- 隨時(shí)間變化的最大池化(有效地選擇n-gram)渡处。
公路網(wǎng)(Srivastava et al.2015)
- 模擬n-gram交互。
- 在保留原始信息的同時(shí)進(jìn)行轉(zhuǎn)換祟辟。
- 功能類似于LSTM存儲(chǔ)單元医瘫。
長(zhǎng)短期記憶網(wǎng)絡(luò)
- 分層Softmax,用于處理大量輸出詞匯旧困。
- 通過(guò)截?cái)嗟姆聪騻鞑ミM(jìn)行訓(xùn)練醇份。
定量結(jié)果
定性見解
外賣
- 論文質(zhì)疑使用詞嵌入作為神經(jīng)語(yǔ)言建模輸入的必要性。
- 字符上方的CNN +高速公路網(wǎng)絡(luò)可以提取豐富的語(yǔ)義和結(jié)構(gòu)信息吼具。
- 關(guān)鍵思想:您可以構(gòu)成“構(gòu)建基塊”以獲得細(xì)微而強(qiáng)大的模型僚纷!
混合NMT
- 兩全其美的架構(gòu):
- 主要在單詞級(jí)別進(jìn)行翻譯
- 僅在需要時(shí)進(jìn)入角色級(jí)別
- 對(duì)復(fù)制機(jī)制進(jìn)行了超過(guò)2種BLEU改進(jìn),以嘗試填寫稀有詞
2級(jí)解碼
- 單詞級(jí)光束搜索
- 單詞級(jí)光束搜索
- 字符級(jí)光束搜索<unk>
英語(yǔ)和捷克語(yǔ)的結(jié)果
- 訓(xùn)練WMT’15數(shù)據(jù)(1200萬(wàn)個(gè)句子對(duì))
- newstest2015
樣本英語(yǔ)-捷克語(yǔ)翻譯
- Char-based:錯(cuò)誤的名字翻譯
-
Word-based:不正確的對(duì)齊
-
Char-based&hybrid:diagnózen的正確翻譯
基于單詞:身份復(fù)制失敗
- hybrid:正確,11-year-old – jedena?ctileta?
- 錯(cuò)誤:Shani Bartova?
5. 單詞嵌入的字符
詞嵌入和詞形態(tài)的聯(lián)合模型
(Cao and Rei 2016)
- 與w2v相同的目標(biāo)拗盒,但使用字符
- 雙向LSTM計(jì)算嵌入
- 模型嘗試捕獲形態(tài)
- 模型可以推斷出詞根
FastText embeddings
使用子詞信息Bojanowski怖竭,Grave,Joulin和Mikolov豐富詞向量陡蝇。 公平痊臭。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc
- 目標(biāo):高效的類似于word2vec的單詞表示庫(kù)登夫,但更適合具有多種形態(tài)的稀有單詞和語(yǔ)言
- w2v跳過(guò)語(yǔ)法模型的擴(kuò)展广匙,包含字符n-gram
- 用邊界符號(hào)和整個(gè)單詞表示的單詞表示為charcharn-gram:
- where = <wh,whe恼策,her鸦致,ere,re>,<where>
- 請(qǐng)注意蹋凝,<her>或<her與她不同
- 前綴鲁纠,后綴和整個(gè)單詞都很特殊
- 請(qǐng)注意蹋凝,<her>或<her與她不同
- 代表這些表示的詞。
上下文分?jǐn)?shù)中的單詞為:- 細(xì)節(jié):不是共享所有n-gram的表示鳍寂,而是使用“哈希技巧”來(lái)固定向量個(gè)數(shù)
單詞相似性數(shù)據(jù)集得分(相關(guān)性)
- 稀有詞的差別收益