最近出于興趣和需要钓辆,重新回顧中文分詞技術,期間有些心得胎撤,以及一些關于自然語言處理的淺薄之見,這里簡單分享一下凉唐。 首先极颓,中文分詞_百度百科里面簡單...
![240](https://upload.jianshu.io/collections/images/1700678/280178983403075274.png?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
最近出于興趣和需要钓辆,重新回顧中文分詞技術,期間有些心得胎撤,以及一些關于自然語言處理的淺薄之見,這里簡單分享一下凉唐。 首先极颓,中文分詞_百度百科里面簡單...
詞向量是用來表示詞的向量,通常也被認為是詞的特征向量」荷#現(xiàn)在已經(jīng)成為自然語言處理的基礎技術畅铭。詞向量的好壞,會直接影響模型的實驗結果勃蜘,對于沒有GPU...
最近使用中文維基百科數(shù)據(jù)訓練Word2Vec時硕噩,發(fā)現(xiàn)數(shù)據(jù)里面包含了很多繁體字,這就很尷尬了缭贡。這時候就知道OpenCC的強大了炉擅。哈哈,本來打算直接...
如果使用基于最大似然估計的模型谍失,模型中存在隱變量,就要用EM算法做參數(shù)估計莹汤。個人認為快鱼,理解EM算法背后的idea,遠比看懂它的數(shù)學推導重要纲岭。id...
Dataset WMT2018 AI challenger(英中翻譯規(guī)模最大的口語領域英中雙語對照數(shù)據(jù)集) UM-Corpus: A Large...
曼哈頓距離 歐氏距離 標準化歐氏距離 夾角余弦 曼哈頓距離(Manhattan Distance) 曼哈頓距離是由十九世紀的赫爾曼·閔可夫斯基所...
使用如下命令安裝torchtext
kenlm是一個linux下快速輕量的語言模型訓練工具。 下載 或者 安裝依賴 編譯安裝 以上兩種來源區(qū)別我也不是很清楚止潮,沒有細究柒莉。 安裝Pyt...
聲明:資源全部源自網(wǎng)絡,如有侵權沽翔,請聯(lián)系我將及時刪除兢孝。 最近在網(wǎng)上找語料窿凤,多比較雜亂不全,所以這里做一次整理跨蟹,方便大家雳殊。如果大家手里有可以分享的...
佩奇排名(PageRank),又稱網(wǎng)頁排名窗轩、谷歌左側排名夯秃,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計算的技術,而作為網(wǎng)頁排名的要素之一痢艺,以Goo...