1. 分詞方法
中文分詞方法可以分為以下幾種:
1) 基于統(tǒng)計的分詞方法
基于統(tǒng)計的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率來決定其是否構(gòu)成詞冷溶。詞是字的組合,相鄰的字同時出現(xiàn)的次數(shù)越多, 就越有可能構(gòu)成一個詞咱扣。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度硝烂。常用的方法有HMM(隱馬爾科夫模型)别威,MAXENT(最大熵模型),MEMM(最大熵隱馬爾科夫模型)凳枝,CRF(條件隨機場)抄沮。
2) 基于語法規(guī)則的分詞方法
基于語法規(guī)則的分詞法基本思想是: 在分詞的同時進行句法、語義分析, 利用句法信息和語義信息來進行詞性標注, 以解決分詞歧義現(xiàn)象。因為現(xiàn)有的語法知識合是、句法規(guī)則十分籠統(tǒng)了罪、復(fù)雜, 基于語法和規(guī)則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統(tǒng)應(yīng)用較少。
3) 基于詞典的分詞方法
在基于詞典的方法中聪全,可以進一步分為最大匹配法泊藕,最大概率法,最短路徑法等难礼。最大匹配法指的是按照一定順序選取字符串中的若干個字當(dāng)做一個詞娃圆,去詞典中查找。
根據(jù)掃描方式可細分為:正向最大匹配蛾茉,反向最大匹配讼呢,雙向最大匹配,最小切分谦炬。
最大概率法指的是一個待切分的漢字串可能包含多種分詞結(jié)果悦屏,將其中概率最大的那個作為該字串的分詞結(jié)果。
最短路徑法指的是在詞圖上選擇一條詞數(shù)最少的路徑键思。
2. 判別式模型和生成式模型
判別式模型 --- 已知輸入變量x础爬,判別模型(discriminative model)通過求解條件概率分布P(y|x)或者直接計算y的值來預(yù)測y。
常見的判別模型有線性回歸(Linear Regression),邏輯回歸(Logistic Regression),支持向量機(SVM), 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(Traditional Neural Networks),線性判別分析(Linear Discriminative Analysis)吼鳞,條件隨機場(Conditional Random Field)看蚜;
生成式模型 --- 生成模型(generative model)通過對觀測值和標注數(shù)據(jù)計算聯(lián)合概率分布P(x,y)來達到判定估算y的目的。
常見的生成模型有樸素貝葉斯(Naive Bayes), 隱馬爾科夫模型(HMM),貝葉斯網(wǎng)絡(luò)(Bayesian Networks)和隱含狄利克雷分布(Latent Dirichlet Allocation)赔桌。
3. CRF的優(yōu)缺點比較
HMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率直接建模供炎,統(tǒng)計共現(xiàn)概率。而MEMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率疾党,統(tǒng)計時統(tǒng)計的是條件概率音诫。MEMM容易陷入局部最優(yōu),是因為MEMM只在局部做歸一化雪位。
CRF是在給定需要標記的觀察序列的條件下纽竣,計算整個標記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下茧泪,定義下一個狀態(tài)的狀態(tài)分布。
CRF模型中聋袋,統(tǒng)計了全局概率队伟,在做歸一化時,考慮了數(shù)據(jù)在全局的分布幽勒,而不是僅僅在局部歸一化嗜侮,這樣就解決了MEMM中的標記偏置的問題。
總結(jié): CRF沒有HMM那樣嚴格的獨立性假設(shè)條件,因而可以容納任意的上下文信息锈颗,特征設(shè)計靈活顷霹。CRF需要訓(xùn)練的參數(shù)更多,與MEMM和HMM相比击吱,它存在訓(xùn)練代價大淋淀、復(fù)雜度高的缺點。
4. 模型過擬合的原因
機器學(xué)習(xí)中發(fā)生過擬合的主要原因有:
(1)使用過于復(fù)雜的模型覆醇;
(2)數(shù)據(jù)噪聲較大朵纷;
(3)訓(xùn)練數(shù)據(jù)少。
由此對應(yīng)的降低過擬合的方法有:
(1)簡化模型假設(shè)永脓,或者使用懲罰項限制模型復(fù)雜度袍辞;
(2)進行數(shù)據(jù)清洗,減少噪聲常摧;
(3)收集更多訓(xùn)練數(shù)據(jù)搅吁。
5.特征選擇的方法
常采用特征選擇方法。常見的 六種特征選擇方法:
1)DF(Document Frequency) 文檔頻率
DF:統(tǒng)計特征詞出現(xiàn)的文檔數(shù)量落午,用來衡量某個特征詞的重要性
2)MI(Mutual Information) 互信息法
互信息法用于衡量特征詞與文檔類別直接的信息量谎懦。
如果某個特征詞的頻率很低,那么互信息得分就會很大板甘,因此互信息法傾向"低頻"的特征詞党瓮。
相對的詞頻很高的詞,得分就會變低盐类,如果這詞攜帶了很高的信息量寞奸,互信息法就會變得低效。
3)(Information Gain) 信息增益法
通過某個特征詞的缺失與存在的兩種情況下在跳,語料中前后信息的增加枪萄,衡量某個特征詞的重要性。
4)CHI(Chi-square) 卡方檢驗法
利用了統(tǒng)計學(xué)中的"假設(shè)檢驗"的基本思想:首先假設(shè)特征詞與類別直接是不相關(guān)的.如果利用CHI分布計算出的檢驗值偏離閾值越大猫妙,那么更有信心否定原假設(shè)瓷翻,接受原假設(shè)的備則假設(shè):特征詞與類別有著很高的關(guān)聯(lián)度。
5)WLLR(Weighted Log Likelihood Ration)加權(quán)對數(shù)似然
6)WFO(Weighted Frequency and Odds)加權(quán)頻率和可能性
6. 確定性算法
確定性算法表明在不同運行中割坠,算法輸出并不會改變齐帚。
7. HMM
1)前向、后向算法解決的是一個評估問題彼哼,即給定一個模型对妄,求某特定觀測序列的概率,用于評估該序列最匹配的模型敢朱。
2)Baum-Welch算法解決的是一個模型訓(xùn)練問題剪菱,即參數(shù)估計摩瞎,是一種無監(jiān)督的訓(xùn)練方法,主要通過EM迭代實現(xiàn)孝常;
3)維特比算法解決的是給定一個模型和某個特定的輸出序列旗们,求最可能產(chǎn)生這個輸出的狀態(tài)序列。如通過海藻變化(輸出序列)來觀測天氣(狀態(tài)序列)构灸,是預(yù)測問題上渴,通信中的解碼問題。
申明:該部分內(nèi)容為七月在線錯題總結(jié)內(nèi)容冻押,如有問題請聯(lián)系本人驰贷,謝謝!