論文
代碼
一渠脉、背景
詞的向量表示宇整,在很多NLP任務中常用預訓練好的詞向量表作為模型的輸入。該論文提出了一個A La Carte詞向量表示模型芋膘,相對于word2vec鳞青,它利用了更多的詞的上下文信息。實驗數(shù)據(jù)使用的是SemEval 2013为朋、2015比賽的多語言詞義消歧任務(Mutilingual Word Sense Disambiguation Task)臂拓,包含5種語言,英語习寸、法語胶惰、德語、意大利語霞溪、西班牙語孵滞。
二中捆、模型
假設:
1)有一個大的文本語料集={
,
,
...}
2)文本語料集中的詞w,構成一個詞表V
3)詞w的上下文詞序列用c表示坊饶,它由固定大小的窗口截取而來
4)模型需要訓練的詞向量泄伪,詞向量表為vw,模型的目標是訓練出一個好的文本特征表示