作者:milter
鏈接:https://www.zhihu.com/question/35866596/answer/139485548
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處辱挥。
假設(shè)你有許多小明同學(xué)一天內(nèi)不同時(shí)段的照片,從小明提褲子起床到脫褲子睡覺各個(gè)時(shí)間段都有(小明是照片控Q竺觥)颊郎。
現(xiàn)在的任務(wù)是對這些照片進(jìn)行分類带射。比如有的照片是吃飯微渠,那就給它打上吃飯的標(biāo)簽搭幻;有的照片是跑步時(shí)拍的,那就打上跑步的標(biāo)簽逞盆;有的照片是開會(huì)時(shí)拍的粗卜,那就打上開會(huì)的標(biāo)簽。
問題來了纳击,你準(zhǔn)備怎么干?
一個(gè)簡單直觀的辦法就是攻臀,不管這些照片之間的時(shí)間順序焕数,想辦法訓(xùn)練出一個(gè)多元分類器。就是用一些打好標(biāo)簽的照片作為訓(xùn)練數(shù)據(jù)刨啸,訓(xùn)練出一個(gè)模型堡赔,直接根據(jù)照片的特征來分類。例如设联,如果照片是早上6:00拍的善已,且畫面是黑暗的灼捂,那就給它打上睡覺的標(biāo)簽;如果照片上有車,那就給它打上開車的標(biāo)簽换团。這樣可行嗎悉稠?乍一看可以!但實(shí)際上艘包,由于我們忽略了這些照片之間的時(shí)間順序這一重要信息的猛,我們的分類器會(huì)有缺陷的。
舉個(gè)例子想虎,假如有一張小明閉著嘴的照片卦尊,怎么分類?顯然難以直接判斷舌厨,需要參考閉嘴之前的照片岂却,如果之前的照片顯示小明在吃飯,那這個(gè)閉嘴的照片很可能是小明在咀嚼食物準(zhǔn)備下咽裙椭,可以給它打上吃飯的標(biāo)簽躏哩;如果之前的照片顯示小明在唱歌,那這個(gè)閉嘴的照片很可能是小明唱歌瞬間的抓拍骇陈,可以給它打上唱歌的標(biāo)簽震庭。
所以,為了讓我們的分類器能夠有更好的表現(xiàn)你雌,在為一張照片分類時(shí)器联,我們必須將與它相鄰的照片的標(biāo)簽信息考慮進(jìn)來。這——就是條件隨機(jī)場(CRF)大顯身手的地方婿崭!
從例子說起——詞性標(biāo)注問題-----啥是詞性標(biāo)注問題拨拓?
非常簡單的,就是給一個(gè)句子中的每個(gè)單詞注明詞性氓栈。比如這句話:“Bob drank coffee at Starbucks”渣磷,注明每個(gè)單詞的詞性后是這樣的:“Bob (名詞) drank(動(dòng)詞) coffee(名詞) at(介詞) Starbucks(名詞)”。下面授瘦,就用條件隨機(jī)場來解決這個(gè)問題醋界。
以上面的話為例,有5個(gè)單詞提完,我們將:(名詞形纺,動(dòng)詞,名詞徒欣,介詞逐样,名詞)作為一個(gè)標(biāo)注序列,稱為l,可選的標(biāo)注序列有很多種脂新,比如l還可以是這樣:(名詞挪捕,動(dòng)詞,動(dòng)詞争便,介詞级零,名詞),我們要在這么多的可選標(biāo)注序列中始花,挑選出一個(gè)最靠譜的作為我們對這句話的標(biāo)注妄讯。
怎么判斷一個(gè)標(biāo)注序列靠譜不靠譜呢?
就我們上面展示的兩個(gè)標(biāo)注序列來說酷宵,第二個(gè)顯然不如第一個(gè)靠譜亥贸,因?yàn)樗训诙⒌谌齻€(gè)單詞都標(biāo)注成了動(dòng)詞浇垦,動(dòng)詞后面接動(dòng)詞炕置,這在一個(gè)句子中通常是說不通的。假如我們給每一個(gè)標(biāo)注序列打分男韧,打分越高代表這個(gè)標(biāo)注序列越靠譜朴摊,我們至少可以說,凡是標(biāo)注中出現(xiàn)了動(dòng)詞后面還是動(dòng)詞的標(biāo)注序列此虑,要給它減分甚纲!
!上面所說的動(dòng)詞后面還是動(dòng)詞就是一個(gè)特征函數(shù)朦前,我們可以定義一個(gè)特征函數(shù)集合介杆,用這個(gè)特征函數(shù)集合來為一個(gè)標(biāo)注序列打分,并據(jù)此選出最靠譜的標(biāo)注序列韭寸。也就是說春哨,每一個(gè)特征函數(shù)都可以用來為一個(gè)標(biāo)注序列評分,把集合中所有特征函數(shù)對同一個(gè)標(biāo)注序列的評分綜合起來恩伺,就是這個(gè)標(biāo)注序列最終的評分值