240 投稿
收錄了19篇文章 · 7人關注
  • 淺談中文分詞與自然語言處理

    最近出于興趣和需要钓辆,重新回顧中文分詞技術,期間有些心得胎撤,以及一些關于自然語言處理的淺薄之見,這里簡單分享一下凉唐。 首先极颓,中文分詞_百度百科里面簡單...

  • Resize,w 360,h 240
    預訓練好的詞向量資源

    詞向量是用來表示詞的向量,通常也被認為是詞的特征向量」荷#現(xiàn)在已經(jīng)成為自然語言處理的基礎技術畅铭。詞向量的好壞,會直接影響模型的實驗結果勃蜘,對于沒有GPU...

  • OpenCC - 簡體繁體轉換

    最近使用中文維基百科數(shù)據(jù)訓練Word2Vec時硕噩,發(fā)現(xiàn)數(shù)據(jù)里面包含了很多繁體字,這就很尷尬了缭贡。這時候就知道OpenCC的強大了炉擅。哈哈,本來打算直接...

  • 如何感性地理解EM算法阳惹?

    如果使用基于最大似然估計的模型谍失,模型中存在隱變量,就要用EM算法做參數(shù)估計莹汤。個人認為快鱼,理解EM算法背后的idea,遠比看懂它的數(shù)學推導重要纲岭。id...

  • 中文機器翻譯數(shù)據(jù)集

    Dataset WMT2018 AI challenger(英中翻譯規(guī)模最大的口語領域英中雙語對照數(shù)據(jù)集) UM-Corpus: A Large...

  • 基于距離的算法 曼哈頓抹竹,歐氏等

    曼哈頓距離 歐氏距離 標準化歐氏距離 夾角余弦 曼哈頓距離(Manhattan Distance) 曼哈頓距離是由十九世紀的赫爾曼·閔可夫斯基所...

  • torchtext安裝

    使用如下命令安裝torchtext

  • Resize,w 360,h 240
    Manjaro下安裝使用kenlm

    kenlm是一個linux下快速輕量的語言模型訓練工具。 下載 或者 安裝依賴 編譯安裝 以上兩種來源區(qū)別我也不是很清楚止潮,沒有細究柒莉。 安裝Pyt...

  • 中文文本語料庫整理(不定時更新2015-10-24).md

    聲明:資源全部源自網(wǎng)絡,如有侵權沽翔,請聯(lián)系我將及時刪除兢孝。 最近在網(wǎng)上找語料窿凤,多比較雜亂不全,所以這里做一次整理跨蟹,方便大家雳殊。如果大家手里有可以分享的...

    1.0 gkiwi 6 34 1
  • Resize,w 360,h 240
    PageRank算法核心思想及數(shù)學支撐

    佩奇排名(PageRank),又稱網(wǎng)頁排名窗轩、谷歌左側排名夯秃,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計算的技術,而作為網(wǎng)頁排名的要素之一痢艺,以Goo...

    0.5 Nicky_Ye 1 12 1
亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品