上周末繼續(xù)玩了點(diǎn)word2vec航厚,因?yàn)橹霸嚨慕Y(jié)果是在中文文本上效果相當(dāng)好授嘀,而在英文文本下效果很普通。我考慮了一下可能的原因诫钓。
一是漢語(yǔ)對(duì)語(yǔ)序的依賴(lài)度更大旬昭,且沒(méi)有變格變位。
二是文本——我總覺(jué)得wikipedia文本并不是一個(gè)很好的corpus菌湃,它的語(yǔ)言缺乏足夠的變化问拘,也不夠生動(dòng)——對(duì)比而言,我玩了幾次的中文文本都是文學(xué)作品(一次是演義公案小說(shuō)惧所,一次是金古梁)骤坐。
所以我這次抓了543本英文文學(xué)作品(隨便從我手邊的一個(gè)什么1600本英文小說(shuō)包里撈出來(lái)的,里面范圍很廣從阿婆到莎士比亞都有)下愈,共5.25E7單詞纽绍,一下子神清氣爽效果好多了!
不但是如此势似,倘若把7本哈利波特的文本掛在wikipedia文本后面拌夏,都會(huì)對(duì)結(jié)果有很大的幫助。
這周等我試試德語(yǔ)履因,文本應(yīng)當(dāng)可以從古騰堡整障簿。德語(yǔ)估計(jì)更難搞,因?yàn)閷?duì)變格變位的依賴(lài)更大栅迄,而可分動(dòng)詞更是惡意的存在——而且有些復(fù)合詞簡(jiǎn)直該做下分詞站故。
最難搞的估計(jì)是土雞語(yǔ)這款往詞上拼命堆后綴的語(yǔ)言,感覺(jué)幾乎不能用這種方法來(lái)建立向量——除非做個(gè)分詞把后綴拆出來(lái)——不過(guò)也可以試一試毅舆,只是文本不好找世蔗。