2018 · NIPS · Learned in Translation: Contextualized Word Vectors
想法來源:從CV中借鑒的想法,深層的神經(jīng)網(wǎng)絡權重初始化問題否副,可以提升最后的表現(xiàn)性能据德。
價值:在通用的NLP任務中提高最后的表現(xiàn)添怔。
方法:訓練好的機器翻譯的encoder(BiLSTM)袱蚓,作為上下文編碼器,結合Glove向量作為表示遥巴,扔到downstream任務里分飞。
缺點:task specific悴务,大多還是利用了下游任務的模型表現(xiàn)。
詳細方案:
訓練好一個翻譯模型的encoder譬猫,用這個encoder編碼單詞表示讯檐。拼接glove向量
下游任務還是利用各自的模型,比如分類染服,利用率a-o-a模型和self att, max, mean, min pooling别洪。QA利用了Dynamic Coattention Network (DCN)
數(shù)據(jù)集:
- smallest MT dataset comes from the WMT 2016 multi-modal translation shared task
- largest MT dataset WMT 2017
- medium-sized MT dataset Spoken Language Translation 2016
- Stanford Sentiment Treebank (SST)
- IMDb dataset
- small TREC dataset
- Stanford Natural Language Inference Corpus (SNLI)
- SQuAD
實驗:
分類:
QA: