理解條件隨機(jī)場最好的辦法就是用一個現(xiàn)實的例子來說明它。但是目前中文的條件隨機(jī)場文章鮮有這樣干的风题,可能寫文章的人都是大牛判导,不屑于舉例子吧。于是乎沛硅,我翻譯了這篇文章眼刃。希望對其他伙伴有所幫助。
原文在這里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/]
想直接看英文的朋友可以直接點進(jìn)去了摇肌。我在翻譯時并沒有拘泥于原文擂红,許多地方都加入了自己的理解,用學(xué)術(shù)點的話說就是意譯围小。(畫外音:裝什么裝昵骤,快點開始吧树碱。)好的,下面開始翻譯变秦!
假設(shè)你有許多小明同學(xué)一天內(nèi)不同時段的照片成榜,從小明提褲子起床到脫褲子睡覺各個時間段都有(小明是照片控!)”拿担現(xiàn)在的任務(wù)是對這些照片進(jìn)行分類赎婚。比如有的照片是吃飯,那就給它打上吃飯的標(biāo)簽钳垮;有的照片是跑步時拍的惑淳,那就打上跑步的標(biāo)簽;有的照片是開會時拍的饺窿,那就打上開會的標(biāo)簽歧焦。問題來了,你準(zhǔn)備怎么干肚医?
一個簡單直觀的辦法就是绢馍,不管這些照片之間的時間順序,想辦法訓(xùn)練出一個多元分類器肠套。就是用一些打好標(biāo)簽的照片作為訓(xùn)練數(shù)據(jù)舰涌,訓(xùn)練出一個模型,直接根據(jù)照片的特征來分類你稚。例如瓷耙,如果照片是早上6:00拍的,且畫面是黑暗的刁赖,那就給它打上睡覺的標(biāo)簽;如果照片上有車搁痛,那就給它打上開車的標(biāo)簽。
這樣可行嗎宇弛?
乍一看可以鸡典!但實際上,由于我們忽略了這些照片之間的時間順序這一重要信息枪芒,我們的分類器會有缺陷的彻况。舉個例子,假如有一張小明閉著嘴的照片舅踪,怎么分類纽甘?顯然難以直接判斷,需要參考閉嘴之前的照片硫朦,如果之前的照片顯示小明在吃飯贷腕,那這個閉嘴的照片很可能是小明在咀嚼食物準(zhǔn)備下咽,可以給它打上吃飯的標(biāo)簽咬展;如果之前的照片顯示小明在唱歌泽裳,那這個閉嘴的照片很可能是小明唱歌瞬間的抓拍,可以給它打上唱歌的標(biāo)簽破婆。
所以涮总,為了讓我們的分類器能夠有更好的表現(xiàn),在為一張照片分類時祷舀,我們必須將與它相鄰的照片的標(biāo)簽信息考慮進(jìn)來瀑梗。這——就是條件隨機(jī)場(CRF)大顯身手的地方!
從例子說起——詞性標(biāo)注問題
啥是詞性標(biāo)注問題裳扯?
非常簡單的抛丽,就是給一個句子中的每個單詞注明詞性。比如這句話:“Bob drank coffee at Starbucks”饰豺,注明每個單詞的詞性后是這樣的:“Bob (名詞)? drank(動詞)? coffee(名詞)? at(介詞)? ? Starbucks(名詞)”亿鲜。
下面,就用條件隨機(jī)場來解決這個問題冤吨。
以上面的話為例,有5個單詞,我們將:(名詞肌割,動詞呜叫,名詞,介詞怠李,名詞)作為一個標(biāo)注序列圾叼,稱為l,可選的標(biāo)注序列有很多種捺癞,比如l還可以是這樣:(名詞夷蚊,動詞,動詞翘簇,介詞撬码,名詞),我們要在這么多的可選標(biāo)注序列中版保,挑選出一個最靠譜的作為我們對這句話的標(biāo)注呜笑。
怎么判斷一個標(biāo)注序列靠譜不靠譜呢?
就我們上面展示的兩個標(biāo)注序列來說彻犁,第二個顯然不如第一個靠譜叫胁,因為它把第二、第三個單詞都標(biāo)注成了動詞汞幢,動詞后面接動詞驼鹅,這在一個句子中通常是說不通的。
假如我們給每一個標(biāo)注序列打分,打分越高代表這個標(biāo)注序列越靠譜输钩,我們至少可以說豺型,凡是標(biāo)注中出現(xiàn)了動詞后面還是動詞的標(biāo)注序列,要給它負(fù)分B蚰恕姻氨!
上面所說的動詞后面還是動詞就是一個特征函數(shù),我們可以定義一個特征函數(shù)集合剪验,用這個特征函數(shù)集合來為一個標(biāo)注序列打分肴焊,并據(jù)此選出最靠譜的標(biāo)注序列。也就是說功戚,每一個特征函數(shù)都可以用來為一個標(biāo)注序列評分娶眷,把集合中所有特征函數(shù)對同一個標(biāo)注序列的評分綜合起來,就是這個標(biāo)注序列最終的評分值啸臀。
定義CRF中的特征函數(shù)
現(xiàn)在届宠,我們正式地定義一下什么是CRF中的特征函數(shù),所謂特征函數(shù)壳咕,就是這樣的函數(shù)席揽,它接受四個參數(shù):
句子s(就是我們要標(biāo)注詞性的句子)
i,用來表示句子s中第i個單詞
l_i谓厘,表示要評分的標(biāo)注序列給第i個單詞標(biāo)注的詞性
l_i-1幌羞,表示要評分的標(biāo)注序列給第i-1個單詞標(biāo)注的詞性
它的輸出值是0或者1,0表示要評分的標(biāo)注序列不符合這個特征,1表示要評分的標(biāo)注序列符合這個特征竟稳。
Note:這里属桦,我們的特征函數(shù)僅僅依靠當(dāng)前單詞的標(biāo)簽和它前面的單詞的標(biāo)簽對標(biāo)注序列進(jìn)行評判,這樣建立的CRF也叫作線性鏈CRF他爸,這是CRF中的一種簡單情況聂宾。為簡單起見,本文中我們僅考慮線性鏈CRF诊笤。
從特征函數(shù)到概率
定義好一組特征函數(shù)后系谐,我們要給每個特征函數(shù)f_j賦予一個權(quán)重λ_j。現(xiàn)在讨跟,只要有一個句子s纪他,有一個標(biāo)注序列l(wèi),我們就可以利用前面定義的特征函數(shù)集來對l評分晾匠。
pic1.PNG
上式中有兩個求和茶袒,外面的求和用來求每一個特征函數(shù)f_j評分值的和,里面的求和用來求句子中每個位置的單詞的的特征值的和凉馆。
對這個分?jǐn)?shù)進(jìn)行指數(shù)化和標(biāo)準(zhǔn)化薪寓,我們就可以得到標(biāo)注序列l(wèi)的概率值p(l|s)亡资,如下所示:
pic2.PNG
幾個特征函數(shù)的例子
前面我們已經(jīng)舉過特征函數(shù)的例子,下面我們再看幾個具體的例子向叉,幫助增強(qiáng)大家的感性認(rèn)識锥腻。
pic3.PNG
當(dāng)l_i是“副詞”并且第i個單詞以“l(fā)y”結(jié)尾時,我們就讓f1 = 1植康,其他情況f1為0旷太。不難想到展懈,f1特征函數(shù)的權(quán)重λ1應(yīng)當(dāng)是正的销睁。而且λ1越大,表示我們越傾向于采用那些把以“l(fā)y”結(jié)尾的單詞標(biāo)注為“副詞”的標(biāo)注序列
pic4.PNG
如果i=1存崖,l_i=動詞冻记,并且句子s是以“?”結(jié)尾時来惧,f2=1冗栗,其他情況f2=0。同樣供搀,λ2應(yīng)當(dāng)是正的隅居,并且λ2越大,表示我們越傾向于采用那些把問句的第一個單詞標(biāo)注為“動詞”的標(biāo)注序列葛虐。
pic5.PNG
當(dāng)l_i-1是介詞胎源,l_i是名詞時,f3 = 1屿脐,其他情況f3=0涕蚤。λ3也應(yīng)當(dāng)是正的,并且λ3越大的诵,說明我們越認(rèn)為介詞后面應(yīng)當(dāng)跟一個名詞万栅。
pic6.PNG
如果l_i和l_i-1都是介詞,那么f4等于1西疤,其他情況f4=0烦粒。這里,我們應(yīng)當(dāng)可以想到λ4是負(fù)的代赁,并且λ4的絕對值越大扰她,表示我們越不認(rèn)可介詞后面還是介詞的標(biāo)注序列。
好了管跺,一個條件隨機(jī)場就這樣建立起來了义黎,讓我們總結(jié)一下:
為了建一個條件隨機(jī)場,我們首先要定義一個特征函數(shù)集豁跑,每個特征函數(shù)都以整個句子s廉涕,當(dāng)前位置i泻云,位置i和i-1的標(biāo)簽為輸入。然后為每一個特征函數(shù)賦予一個權(quán)重狐蜕,然后針對每一個標(biāo)注序列l(wèi)宠纯,對所有的特征函數(shù)加權(quán)求和,必要的話层释,可以把求和的值轉(zhuǎn)化為一個概率值婆瓜。
CRF與邏輯回歸的比較
觀察公式:
是不是有點邏輯回歸的味道?
事實上贡羔,條件隨機(jī)場是邏輯回歸的序列化版本廉白。邏輯回歸是用于分類的對數(shù)線性模型,條件隨機(jī)場是用于序列化標(biāo)注的對數(shù)線性模型乖寒。
CRF與HMM的比較
對于詞性標(biāo)注問題猴蹂,HMM模型也可以解決。HMM的思路是用生成辦法楣嘁,就是說磅轻,在已知要標(biāo)注的句子s的情況下,去判斷生成標(biāo)注序列l(wèi)的概率逐虚,如下所示:
pic7.PNG
這里:
p(l_i|l_i-1)是轉(zhuǎn)移概率聋溜,比如,l_i-1是介詞叭爱,l_i是名詞撮躁,此時的p表示介詞后面的詞是名詞的概率。
p(w_i|l_i)表示發(fā)射概率(emission probability)涤伐,比如l_i是名詞馒胆,w_i是單詞“ball”,此時的p表示在是名詞的狀態(tài)下凝果,是單詞“ball”的概率祝迂。
那么,HMM和CRF怎么比較呢器净?
答案是:CRF比HMM要強(qiáng)大的多型雳,它可以解決所有HMM能夠解決的問題,并且還可以解決許多HMM解決不了的問題山害。事實上纠俭,我們可以對上面的HMM模型取對數(shù),就變成下面這樣:
pic8.PNG
我們把這個式子與CRF的式子進(jìn)行比較:
pic1.PNG
不難發(fā)現(xiàn)浪慌,如果我們把第一個HMM式子中的log形式的概率看做是第二個CRF式子中的特征函數(shù)的權(quán)重的話冤荆,我們會發(fā)現(xiàn),CRF和HMM具有相同的形式权纤。
換句話說钓简,我們可以構(gòu)造一個CRF乌妒,使它與HMM的對數(shù)形式相同。怎么構(gòu)造呢外邓?
對于HMM中的每一個轉(zhuǎn)移概率p(l_i=y|l_i-1=x),我們可以定義這樣的一個特征函數(shù):
pic9.PNG
該特征函數(shù)僅當(dāng)l_i = y,l_i-1=x時才等于1撤蚊。這個特征函數(shù)的權(quán)重如下:
pic10.PNG
同樣的,對于HMM中的每一個發(fā)射概率损话,我們也都可以定義相應(yīng)的特征函數(shù)侦啸,并讓該特征函數(shù)的權(quán)重等于HMM中的log形式的發(fā)射概率。
用這些形式的特征函數(shù)和相應(yīng)的權(quán)重計算出來的p(l|s)和對數(shù)形式的HMM模型幾乎是一樣的丧枪!
用一句話來說明HMM和CRF的關(guān)系就是這樣:
每一個HMM模型都等價于某個CRF
每一個HMM模型都等價于某個CRF
每一個HMM模型都等價于某個CRF
但是光涂,CRF要比HMM更加強(qiáng)大,原因主要有兩點:
CRF可以定義數(shù)量更多豪诲,種類更豐富的特征函數(shù)顶捷。HMM模型具有天然具有局部性,就是說屎篱,在HMM模型中,當(dāng)前的單詞只依賴于當(dāng)前的標(biāo)簽葵蒂,當(dāng)前的標(biāo)簽只依賴于前一個標(biāo)簽交播。這樣的局部性限制了HMM只能定義相應(yīng)類型的特征函數(shù),我們在上面也看到了践付。但是CRF卻可以著眼于整個句子s定義更具有全局性的特征函數(shù)秦士,如這個特征函數(shù):
pic4.PNG
如果i=1,l_i=動詞永高,并且句子s是以“隧土?”結(jié)尾時,f2=1命爬,其他情況f2=0曹傀。
CRF可以使用任意的權(quán)重將對數(shù)HMM模型看做CRF時,特征函數(shù)的權(quán)重由于是log形式的概率饲宛,所以都是小于等于0的皆愉,而且概率還要滿足相應(yīng)的限制,如
pic11.PNG
但在CRF中艇抠,每個特征函數(shù)的權(quán)重可以是任意值幕庐,沒有這些限制。
作者:milter
鏈接:http://www.reibang.com/p/55755fc649b1
來源:簡書
簡書著作權(quán)歸作者所有家淤,任何形式的轉(zhuǎn)載都請聯(lián)系作者獲得授權(quán)并注明出處异剥。