結(jié)巴分詞:
Tree
DAG
route概率
hmm
收到一篇文章效斑,我要對(duì)其切詞造虏,大概思路
- step1:去雜質(zhì)(火星文什么的)
- step2:匹配本地詞表梯醒,就能分好一部門詞灶芝,沒分好的以單個(gè)字input-HMM
- step3:HMM后得到一個(gè)分郑原,滿足閾值就合成詞唉韭,不滿足就單個(gè)字
樹:根據(jù)詞庫(kù),就可以畫出詞樹
把詞庫(kù)變成樹犯犁,是為了快速遍歷属愤,節(jié)約空間
DAG圖:匹配樹的時(shí)候,就可以構(gòu)建出DAG字典
route概率酸役,就是為了從DAG中取出最合適的切詞住诸,
概率化比較DAG線路,對(duì)DAG每個(gè)組合取概率
2個(gè)參數(shù)簇捍,倒序累加概率只壳,前進(jìn)的節(jié)點(diǎn)