上節(jié)回顧:
在上一節(jié)中为居,我們知道CRF層可以從訓練數據集中自動學習到一些約束規(guī)則來保證預測標簽的合法性揍魂。
這些約束包括:
I:句子中第一個詞總是以標簽“B-“ 或 “O”開始抒抬,而不是“I-”
II:標簽“B-label1
I-label2 I-label3 I-…”,label1, label2, label3應該屬于同一類實體癌佩。例如,“B-Person
I-Person” 是合法的序列, 但是“B-Person I-Organization” 是非法標簽序列.
III:標簽序列“O I-label” is 非法的.實體標簽的首個標簽應該是 “B-“ 涣旨,而非 “I-“, 換句話說,有效的標簽序列應該是“O B-label”。
這一小節(jié)股冗,我們將會講述為什么CRF會學習到這些約束規(guī)則霹陡。
1.CRF層
在CRF層損失函數中,有兩種形式的概率。這些分值是CRF層的關鍵概念烹棉。
1.1發(fā)射概率
為了方便起見攒霹,我們用數字來表示各個實體標簽,對應關系如下:
B-Person———————0
I-Person————————1
B-Organization——————2
I-Organization———————3
O———————————————4
1.2轉移概率
為了使轉移概率矩陣更具魯棒性浆洗,我們額外增加兩個標簽——START 和END催束,START 代表句子的開始位置,而非第一個詞伏社,同理抠刺,END代表句子的結束位置.
表1.為增加標簽后的轉移概率的例子。
如表1.所示摘昌,我們可以發(fā)現轉移概率矩陣可以學習到好多約束規(guī)則:
I:句子中第一個詞總是以標簽“B-“ 或 “O”開始速妖,而不是“I-”( 從“START” 到 “I-Person or I-Organization” )。
II:標簽“B-label1
I-label2 I-label3 I-…”,label1, label2, label3應該屬于同一類實體聪黎。例如罕容,“B-Person
I-Person” 是合法的序列, 但是“B-Person I-Organization” 是非法標簽序列.
III:標簽序列“O I-label” is 非法的.實體標簽的首個標簽應該是 “B-“ ,而非 “I-“, 換句話說,有效的標簽序列應該是“O B-label”稿饰。