基于規(guī)則集疗琉,rule-base: XX 是 XXXX 類似于 XXXX 成立于 XX年 XX月規(guī)則集合可以設(shè)置一些限制簿寂, 比如實(shí)體的類型。 優(yōu)點(diǎn)...
命名實(shí)體識(shí)別 即專有名詞拧额,如人名碑诉,地名,機(jī)構(gòu)等等 有限集合侥锦,基于詞庫 1.詞庫+分類詞庫中無法識(shí)別的一些詞进栽,可通過相似度,以及分類方法識(shí)別例如 ...
在講隱馬模型之前恭垦,首先要了解下快毛,啥是馬爾可夫模型。 馬爾可夫模型 幾個(gè)條件 當(dāng)前狀態(tài)只與前一個(gè)狀態(tài)相關(guān) 一個(gè)狀態(tài)到所有狀態(tài)的轉(zhuǎn)移概率和為1 概率...
前言 最進(jìn)在看分詞源碼唠帝,發(fā)現(xiàn)詞庫的存儲(chǔ)是基于Trie樹的數(shù)據(jù)結(jié)構(gòu),特此了解了下其原理玄柏。Trie樹又叫前綴樹襟衰,字典樹。Trie樹的用途:字典搜索粪摘,...
中期總結(jié) 最近在工作中右蒲,涉及到多分類問題,原先采取的是邏輯回歸策略進(jìn)行求解赶熟,效果還算理想瑰妄。主要存在以下幾個(gè)問題: 1.訓(xùn)練的模型較多,one v...
校驗(yàn)二分類特征相關(guān)性 1.1 統(tǒng)計(jì)樣本集中文檔總數(shù)(N)映砖。 1.2 統(tǒng)計(jì)每個(gè)詞的正文檔出現(xiàn)頻率(A)间坐、負(fù)文檔出現(xiàn)頻率(B)、正文檔不出現(xiàn)頻率)...
語言模型 一個(gè)語言模型通常構(gòu)建為字符串的S的概率分布P(s)。比如竹宋,每個(gè)人100句話中平均大約有一句“你好”劳澄,那么“你好”這句話的概率大致為,像...
概述: 喬姆斯基(Noam Chomky)曾經(jīng)把語言定義為:按照一定規(guī)律構(gòu)成的句子和字符串的有限或無限的集合蜈七。也有把語言看成一個(gè)數(shù)學(xué)系統(tǒng).......
過擬合 正則化特點(diǎn) 都是通過限制權(quán)限的大小秒拔。L1:讓參數(shù)變得更稀疏,即使更多的參數(shù)變?yōu)?飒硅,類似特征提取砂缩。L2:弱參數(shù)平方后變的更小,模型優(yōu)化中幾...