中文實(shí)現(xiàn)的crf算法下載:
https://jaist.dl.sourceforge.net/project/crf/
https://github.com/witgo/CRF
機(jī)械匹配的時(shí)候逗载,從前到后椒惨,和從后到前,哪一種方法更加準(zhǔn)確蝇狼。
詞庫(kù)整理的技巧
1螃壤、在現(xiàn)有詞庫(kù)的基礎(chǔ)上抗果,進(jìn)行分詞,在分出來(lái)的詞的基礎(chǔ)上奸晴,進(jìn)行人工整理
2冤馏、不使用詞庫(kù),在機(jī)械匹配的基礎(chǔ)上寄啼,進(jìn)行人工整理
3逮光、使用基于統(tǒng)計(jì)的分詞方法,進(jìn)行人工整理
機(jī)械匹配的方法
向后循環(huán)墩划,向后匹配
向后循環(huán)涕刚,向前匹配
向前循環(huán),向前匹配
向前循環(huán)乙帮,向后匹配
這4種副女,哪一種最準(zhǔn)確呢?
http://blog.csdn.net/ifengle/article/details/3849852
(conditional random fields蚣旱,簡(jiǎn)稱 CRF,或CRFs)戴陡,是一種判別式概率模型塞绿,是隨機(jī)場(chǎng)的一種,常用于標(biāo)注或分析序列資料恤批,如自然語(yǔ)言文字或是生物序列异吻。條件隨機(jī)場(chǎng)(CRF)由Lafferty等人于2001年提出,結(jié)合了最大熵模型和隱馬爾可夫模型的特點(diǎn)喜庞,是一種無(wú)向圖模型诀浪,基于統(tǒng)計(jì)學(xué),可以作為一種分詞方法
CRF簡(jiǎn)介
Conditional Random Field:條件隨機(jī)場(chǎng)延都,一種機(jī)器學(xué)習(xí)技術(shù)(模型)雷猪。
CRF由John Lafferty最早用于NLP技術(shù)領(lǐng)域,其在NLP技術(shù)領(lǐng)域中主要用于文本標(biāo)注晰房,并有多種應(yīng)用場(chǎng)景求摇,例如:
- 分詞(標(biāo)注字的詞位信息射沟,由字構(gòu)詞)
- 詞性標(biāo)注(標(biāo)注分詞的詞性,例如:名詞与境,動(dòng)詞验夯,助詞)
- 命名實(shí)體識(shí)別(識(shí)別人名,地名摔刁,機(jī)構(gòu)名挥转,商品名等具有一定內(nèi)在規(guī)律的實(shí)體名詞)