哈哈哈沒(méi)錯(cuò)就是我,我我我又跑過(guò)來(lái)開(kāi)新坑了,今天來(lái)和大家嘮嘮CRF的那點(diǎn)事兒.
條件隨機(jī)場(chǎng)(conditional random field, CRF)
- 我們用CRF來(lái)做什么?
可以用于構(gòu)造在給定一組輸入隨機(jī)變量的條件下,另一組輸出隨機(jī)變量的條件概率分布模型.
在開(kāi)始之前
-
概率無(wú)向圖
即馬爾可夫隨機(jī)場(chǎng),是一個(gè)用無(wú)向圖表示的聯(lián)合概率分布.
定義: 圖(graph) 是由 節(jié)點(diǎn)(node) 與 邊(edge) 組成的集合,我們記節(jié)點(diǎn)為,記邊為,將節(jié)點(diǎn)和邊所處的集合分別置為
與,相應(yīng)的,我們把該圖記作,設(shè)由表示聯(lián)合概率分布,在圖中,每一個(gè)節(jié)點(diǎn)都表示一個(gè)隨機(jī)變量,,而與之對(duì)應(yīng)的,則表示了隨機(jī)變量之間的概率依賴關(guān)系.-
三個(gè)性質(zhì):
成對(duì)馬爾可夫性:
局部馬爾可夫性:
全局馬爾可夫性:
顯然成對(duì),局部,全局馬爾可夫性質(zhì)都是等價(jià)的ww
-
我們可以說(shuō):
- 如果聯(lián)合概率分布圖滿足成對(duì)令杈、局部或全局馬爾可夫性,則我們可以稱此聯(lián)合概率分布為概率無(wú)向圖模型或者馬爾可夫隨機(jī)場(chǎng).
-
概率無(wú)向圖因子分解:
最大團(tuán): 如上圖構(gòu)成一個(gè)最大團(tuán),該最大團(tuán)的特點(diǎn)是,從圖上的各個(gè)其他節(jié)點(diǎn)當(dāng)中,任選一個(gè)節(jié)點(diǎn),都不可能同時(shí)存在與的關(guān)系,這樣的團(tuán)(clique)我們稱之為最大團(tuán)(maximal clique).
-
無(wú)向圖會(huì)滿足如下性質(zhì):
其中,C代表一個(gè)最大團(tuán),表示C對(duì)應(yīng)的隨機(jī)變量.
我們通常稱為勢(shì)函數(shù),我們這里要求勢(shì)函數(shù)是嚴(yán)格正項(xiàng).
這里我們用指數(shù)的形式來(lái)表達(dá)是因?yàn)橹笖?shù)函數(shù)良好的性質(zhì).
-
Hammersley-Clifford 定理
- 概率無(wú)向圖模型的聯(lián)合概率分布可以表示為如下形式:
其中,C是無(wú)向圖的最大團(tuán),是的節(jié)點(diǎn)對(duì)應(yīng)的隨機(jī)變量,是上定義的嚴(yán)格整函數(shù),乘積在無(wú)向圖所有的最大團(tuán)上進(jìn)行.
- 概率無(wú)向圖模型的聯(lián)合概率分布可以表示為如下形式:
條件隨機(jī)場(chǎng)的基礎(chǔ)表達(dá)
- 條件隨機(jī)場(chǎng)(conditional random field)是給定隨機(jī)變量條件下,隨機(jī)變量的馬爾可夫隨機(jī)場(chǎng).這里我們主要介紹定義在線性鏈上的特殊條件隨機(jī)場(chǎng),我們稱之為線性鏈馬爾可夫隨機(jī)場(chǎng)(linear chain conditional random field).在該條件概率模型中,是輸出變量,表示標(biāo)記序列,即狀態(tài)序列,是輸入變量,也就是我們得到的需要標(biāo)注的觀測(cè)序列.研究學(xué)習(xí)問(wèn)題時(shí),我們利用訓(xùn)練數(shù)據(jù)集通過(guò)極大似然估計(jì)或正則化的極大似然估計(jì)得到條件概率模型,在研究預(yù)測(cè)問(wèn)題時(shí),我們根據(jù)給定的輸入序列,求出條件概率最大的輸出序列.
-
條件隨機(jī)場(chǎng)的成立條件: 設(shè)與是隨機(jī)變量,是在給定的條件下的條件概率分布.若隨機(jī)變量構(gòu)成一個(gè)由無(wú)向圖表示的馬爾可夫隨機(jī)場(chǎng),即
對(duì)任意結(jié)點(diǎn)成立,則稱條件概率分布為條件隨機(jī)場(chǎng),式中表示在圖中與結(jié)點(diǎn)有邊鏈接的所有結(jié)點(diǎn),表示結(jié)點(diǎn)以外的所有節(jié)點(diǎn),為結(jié)點(diǎn)分別對(duì)應(yīng)的隨機(jī)變量. -
線性鏈條件隨機(jī)場(chǎng): 設(shè),均為線性鏈表示的隨機(jī)變量序列,若在給定的隨機(jī)變量序列的條件下,隨機(jī)變量序列的條件概率分布構(gòu)成條件隨機(jī)場(chǎng),即滿足馬爾可夫性
(在和時(shí)只考慮單邊)
則稱為線性鏈條件隨機(jī)場(chǎng),在標(biāo)注問(wèn)題中,表示輸入觀測(cè)序列,表示對(duì)應(yīng)的輸出標(biāo)記序列,或者我們可以稱之為狀態(tài)序列.
-
條件隨機(jī)場(chǎng)的參數(shù)化形式:
其中,是特征函數(shù),是對(duì)應(yīng)的權(quán)值,而是規(guī)范化因子.
- 其中是定義在邊上的特征函數(shù),我們稱之為轉(zhuǎn)移特征,它同時(shí)依賴于當(dāng)前位置和上一個(gè)位置.
- 而是定義在節(jié)點(diǎn)上的特征函數(shù),我們稱之為狀態(tài)特征,它僅僅依賴于當(dāng)前位置.
- 以上兩個(gè)變量都依賴于位置屬于局部特征,在滿足條件時(shí)它們的取值為1,不滿足條件時(shí),它們的取值為0.
-
條件隨機(jī)場(chǎng)的簡(jiǎn)化形式:為了方便記錄起見(jiàn),我們將轉(zhuǎn)移特征和狀態(tài)特征及其權(quán)值用統(tǒng)一的符號(hào)來(lái)表示.設(shè)有個(gè)轉(zhuǎn)移特征,個(gè)狀態(tài)特征,,記:
相應(yīng)的我們把和寫為如下格式:
權(quán)值對(duì)應(yīng)的統(tǒng)一符號(hào):
條件隨機(jī)場(chǎng)對(duì)應(yīng)的概率表達(dá):
w表示權(quán)值向量:
表示全局特征向量:
我們可以對(duì)應(yīng)地把條件隨機(jī)場(chǎng)寫成向量與的內(nèi)積的形式:
與之對(duì)應(yīng)的歸一化參數(shù)
-
條件隨機(jī)場(chǎng)的矩陣形式:
對(duì)于觀測(cè)序列的每一個(gè)位置我們都定義一個(gè)階矩陣(是標(biāo)記的取值的個(gè)數(shù)):
這樣一來(lái),對(duì)于給定的觀測(cè)序列,標(biāo)記序列的非規(guī)范化概率可以通過(guò)個(gè)矩陣的乘積來(lái)表示,于是,條件概率就是:
其中為規(guī)范化因子,是個(gè)矩陣的乘積的元素:
與表示開(kāi)始狀態(tài)與結(jié)束狀態(tài),規(guī)范化因子是這期間所有的概率矩陣的乘積.
CRF的概率計(jì)算問(wèn)題
-
前向-后向算法:對(duì)于每個(gè)指標(biāo),定義前向向量:
遞推公式為:
終結(jié)項(xiàng)為:
同理可知我們的后向向量:
遞推公式:
終結(jié)項(xiàng):
由此我們可得出如下關(guān)系:
在已知前向后向序列時(shí)的條件概率運(yùn)算:
其中:
-
期望值計(jì)算:
其中:
特征函數(shù)關(guān)于聯(lián)合分布的數(shù)學(xué)期望是:
其中: