設(shè)計(jì)漢語的組合標(biāo)注器
訓(xùn)練和測(cè)試語料使用thulac標(biāo)注過的漢語文本。
(1)首先要對(duì)文本Leipzig10ksents.txt用thulac進(jìn)行分詞,注意要使用詞性標(biāo)注,因?yàn)檎麄€(gè)文件很大,所以考慮直接調(diào)用thu.cut_f(sourcefile, outputfile)進(jìn)行處理,這樣就得到一個(gè)分好詞且含有詞性標(biāo)記的文本棠众。
(2)從分詞結(jié)果看出,詞和詞性標(biāo)注的格式為:詞_詞性,這顯然不利于在NLTK中使用闸拿,故可以用字符串的replace將格式裝換為:詞/詞性的格式空盼,然后再用NLTK的str2tuple()函數(shù)轉(zhuǎn)換為元組的形式。
(3)從標(biāo)注好的文本中看出新荤,文本是以每個(gè)句子為一行揽趾,因此在劃分訓(xùn)練集測(cè)試集時(shí),應(yīng)該轉(zhuǎn)換成以句子為單位的形式苛骨,使用readlines()結(jié)合b步驟即可實(shí)現(xiàn)篱瞎。訓(xùn)練集測(cè)試集的比例為選為9:1。
(4)組合標(biāo)注器則可以參考PPT中給出的英文組合標(biāo)注器痒芝,設(shè)計(jì)如下:
??? 二元詞性標(biāo)注—>一元詞性標(biāo)注—>正則表達(dá)式標(biāo)注(數(shù)字俐筋、標(biāo)點(diǎn)符號(hào))—>默認(rèn)標(biāo)注(名詞)
總體來看,自己設(shè)計(jì)的漢語組合標(biāo)注器的評(píng)估結(jié)果還是挺高的严衬。其中在加上正則表達(dá)式標(biāo)注器(主要是對(duì)數(shù)字澄者、標(biāo)點(diǎn)匹配)之后,結(jié)果明顯更好请琳,這是因?yàn)槲谋局袛?shù)字粱挡、標(biāo)點(diǎn)的比例大的原因。
該問題的難點(diǎn)在于將thulac標(biāo)注的文本表示為NLTK可以進(jìn)行操作的形式俄精。
下面附上使用NLTK自帶的sinica_treebank語料進(jìn)行進(jìn)行組合標(biāo)注器的設(shè)計(jì):
參考文獻(xiàn):