由上圖中可知臭脓,1):貝葉斯模型(NB)和隱馬爾科夫模型(HMM)都屬于求取聯(lián)合概率的模型挠锥,而最大熵模型(ME)和條件隨機場模型(CRF)則是求取條件概率模型。2):貝葉斯模型和最大熵模型是針對單個標簽輸出的模型部蛇,而隱馬爾科夫模型和CRF則是序列模型肺缕。
1:貝葉斯模型
我們建模的目的是根據(jù)輸入的特征x,獲得最有可能的輸出標簽y奴紧。
其中x代表輸入特征特姐。
每個輸出標簽y的概率值可簡單統(tǒng)計訓練數(shù)據(jù)的頻率即可獲得。接下來最終我們需要計算的子項是P(y|x)
2:隱馬爾科夫模型(HMM)
當我們需要根據(jù)模型計算序列化標簽時黍氮,可簡單改造貝葉斯模型唐含,即
每個輸入x對應一個輸出y,并且序列輸出標簽y之間保持獨立沫浆,這是一個較強的假設捷枯,現(xiàn)實應用中很難保證該假設。而假設時序標簽y之間有時序上的依賴關(guān)系专执,這是一個很合理的假設淮捆,因此有
由該公式,可導出HMM的公式為
3:最大熵模型(ME)
假設1:可用信息服從均勻分布(對于未知信息本股,不要隨機猜測攀痊,每種可能保持均勻分布即可)
由信息論中條件熵定義
最大熵模型的基本思想是尋找最大條件熵的同時,保持和訓練數(shù)據(jù)信息一致痊末。
其中p(x)由經(jīng)驗分布可近似為:
訓練數(shù)據(jù)由特征進行表征蚕苇,特征f_i的期望值由經(jīng)驗分布P(x,y)計算可得,經(jīng)驗分布概率可由變量不同值統(tǒng)計頻率計算而得凿叠。我們建模的希望能達到的是經(jīng)驗分布的期望值等于實際模型分布的期望值涩笤,即有
由約束條件
,根據(jù)經(jīng)典的解優(yōu)化方法盒件,拉格朗日函數(shù)可得
求解拉格朗日等式可得
4:最大熵馬爾科夫模型(MEMM)
最大熵馬爾科夫模型是序列化的最大熵模型蹬碧,最大熵模型(ME)以P(y|x)建模,單次輸入對應單個輸出標簽y炒刁。在序列標簽預測任務時恩沽,基于最大熵模型,并考慮標簽的位置信息翔始,即得最大熵馬爾科夫模型(MEMM)罗心。
由上式可以看出來,模型采用局部歸一化城瞎,但是局部歸一化容易陷入局部最優(yōu)渤闷,而得不到全局最優(yōu)解。
5:無向圖
概率無向圖模型脖镀,又稱為馬爾科夫隨機場飒箭。
由圖可知,最大團為(v1,v2,v4)和(v2,v3,v4)。
概率無向圖的聯(lián)合概率分布P(Y)可由所有最大團C上的勢函數(shù)的乘積表示
勢函數(shù)(potential functions)可以是任意函數(shù)弦蹂,因此勢函數(shù)不必是概率函數(shù)肩碟,最終為了得到合適的概率度量,需要對最大團乘積進行歸一化凸椿。
最大熵模型條件概率為:
其勢函數(shù)為
加權(quán)特征的指數(shù)形式被廣泛采用削祈,因為它滿足了勢函數(shù)嚴格為正的要求。
6:條件隨機場(CRF)
條件隨機場根據(jù)條件概率建模
由無向圖的定義削饵,聯(lián)合概率分布P(Y)可由最大團C上的勢函數(shù)的乘積計算可得岩瘦,因此
由概率無向圖的聯(lián)合概率定義可得,其勢函數(shù)為
最終
模型訓練窿撬,由最大似然函數(shù)計算启昧,有
CRF模型推理,1):前向-后向算法劈伴;2):維特比算法(viterbi)密末。
參考文獻
《Classical Probabilistic Models and Conditional Random Fields》