定義:
條件場(chǎng)是隨機(jī)變量的集合馋贤,這些隨機(jī)變量根據(jù)概率分布被賦予相應(yīng)的值玛痊。
形象比喻:
假設(shè)你有一組關(guān)于 Justin Bieber的日常生活照(你可以想像成Bieber是個(gè)自拍狂究西,經(jīng)常在朋友圈曬自拍),你想標(biāo)注一下這些照片描繪的活動(dòng)場(chǎng)景(比如Bieber是在吃飯、參加舞會(huì)髓窜、開車征讲,還是在睡覺呢)据某,你會(huì)怎么做呢?
一種方法是不考慮照片的發(fā)生先后關(guān)系诗箍,通過svm癣籽、決策樹之類的分類方法,對(duì)每張照片單獨(dú)分類滤祖。比如筷狼,你有事先標(biāo)注的關(guān)于Bieber的一個(gè)月的日常生活照,你可以通過這些標(biāo)注集訓(xùn)練一個(gè)分類器匠童,通過這些標(biāo)注集合埂材,你可能得到一個(gè)這樣的分類器:拍攝于晚上6點(diǎn)之后光線很暗的照片是在睡覺,拍攝于晚上燈光閃爍的照片是在參加舞會(huì).....
通過上述方法雖然也能解決問題汤求,但是會(huì)丟失一些信息俏险,比如有一張照片是bieber嘴的一個(gè)特寫,你怎么判斷他是在吃法還是在唱歌呢首昔?如果你能知道寡喝,這張照片的前一張是關(guān)于Bieber在做飯的照片,那這張嘴的特寫照很可能就是在吃飯勒奇;反之预鬓,前一張照片是在參加舞會(huì),那這張?zhí)貙懢透赡苁窃诔琛?/p>
因此赊颠,為了提高照片標(biāo)注的準(zhǔn)確性格二,我們就需要參考相鄰照片的標(biāo)注,這就是序列標(biāo)注問題竣蹦,也是條件隨機(jī)場(chǎng)能大顯身手的場(chǎng)景顶猜。
Bi-LSTM+CRF應(yīng)用:
在進(jìn)行命名實(shí)體識(shí)別任務(wù)中,該模型有著很好的效果痘括。下圖為該模型的結(jié)構(gòu):盡管不需要了解BiLSTM的實(shí)現(xiàn)細(xì)節(jié)长窄,但為了更好的理解CRF層滔吠,我們還是需要知道一下BiLSTM的輸出到底是什么意思。
BiLSTM層的輸入表示該單詞對(duì)應(yīng)各個(gè)類別的分?jǐn)?shù)挠日。如W0疮绷,BiLSTM節(jié)點(diǎn)的輸出是1.5 (B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) and 0.05 (O)。這些分?jǐn)?shù)將會(huì)是CRF層的輸入嚣潜。
所有的經(jīng)BiLSTM層輸出的分?jǐn)?shù)將作為CRF層的輸入冬骚,類別序列中分?jǐn)?shù)最高的類別就是我們預(yù)測(cè)的最終結(jié)果。
即使沒有CRF層懂算,我們照樣可以訓(xùn)練一個(gè)基于BiLSTM的命名實(shí)體識(shí)別模型只冻,如下圖所示
因?yàn)锽iLSTM模型的結(jié)果是單詞對(duì)應(yīng)各類別的分?jǐn)?shù),我們可以選擇分?jǐn)?shù)最高的類別作為預(yù)測(cè)結(jié)果计技。如W0喜德,“B-Person”的分?jǐn)?shù)最高(1.5),那么我們可以選定“B-Person”作為預(yù)測(cè)結(jié)果酸役。同樣的住诸,w1是“I-Person”, w2是“O”,w3是 “B-Organization” ,w4是 “O”涣澡。
但這樣的預(yù)測(cè)結(jié)果不一定總是正確的贱呐,這時(shí)CRF就起到作用了!CRF可以加入一些約束來保證最終預(yù)測(cè)結(jié)果時(shí)有效的入桂。這些約束可以在訓(xùn)練數(shù)據(jù)時(shí)被CRF層自動(dòng)學(xué)習(xí)到奄薇。
其優(yōu)點(diǎn)是為一個(gè)位置進(jìn)行標(biāo)注的過程中可以利用此前已經(jīng)標(biāo)注的信息,利用維特比解碼來得到最優(yōu)序列抗愁。