基于規(guī)則集懈贺,rule-base: XX 是 XXXX 類似于 XXXX 成立于 XX年 XX月規(guī)則集合可以設(shè)置一些限制蜻韭, 比如實(shí)體的類型左电。 優(yōu)點(diǎn)...
命名實(shí)體識(shí)別 即專有名詞,如人名咽白,地名啤握,機(jī)構(gòu)等等 有限集合,基于詞庫(kù) 1.詞庫(kù)+分類詞庫(kù)中無(wú)法識(shí)別的一些詞晶框,可通過(guò)相似度排抬,以及分類方法識(shí)別例如 ...
在講隱馬模型之前,首先要了解下授段,啥是馬爾可夫模型畜埋。 馬爾可夫模型 幾個(gè)條件 當(dāng)前狀態(tài)只與前一個(gè)狀態(tài)相關(guān) 一個(gè)狀態(tài)到所有狀態(tài)的轉(zhuǎn)移概率和為1 概率...
前言 最進(jìn)在看分詞源碼畴蒲,發(fā)現(xiàn)詞庫(kù)的存儲(chǔ)是基于Trie樹(shù)的數(shù)據(jù)結(jié)構(gòu)悠鞍,特此了解了下其原理。Trie樹(shù)又叫前綴樹(shù)模燥,字典樹(shù)咖祭。Trie樹(shù)的用途:字典搜索,...
中期總結(jié) 最近在工作中蔫骂,涉及到多分類問(wèn)題么翰,原先采取的是邏輯回歸策略進(jìn)行求解,效果還算理想辽旋。主要存在以下幾個(gè)問(wèn)題: 1.訓(xùn)練的模型較多浩嫌,one v...
校驗(yàn)二分類特征相關(guān)性 1.1 統(tǒng)計(jì)樣本集中文檔總數(shù)(N)。 1.2 統(tǒng)計(jì)每個(gè)詞的正文檔出現(xiàn)頻率(A)补胚、負(fù)文檔出現(xiàn)頻率(B)码耐、正文檔不出現(xiàn)頻率)...
語(yǔ)言模型 一個(gè)語(yǔ)言模型通常構(gòu)建為字符串的S的概率分布P(s)。比如溶其,每個(gè)人100句話中平均大約有一句“你好”骚腥,那么“你好”這句話的概率大致為,像...
概述: 喬姆斯基(Noam Chomky)曾經(jīng)把語(yǔ)言定義為:按照一定規(guī)律構(gòu)成的句子和字符串的有限或無(wú)限的集合瓶逃。也有把語(yǔ)言看成一個(gè)數(shù)學(xué)系統(tǒng).......
過(guò)擬合 正則化特點(diǎn) 都是通過(guò)限制權(quán)限的大小束铭。L1:讓參數(shù)變得更稀疏,即使更多的參數(shù)變?yōu)?厢绝,類似特征提取契沫。L2:弱參數(shù)平方后變的更小,模型優(yōu)化中幾...