命名實(shí)體識別在越來越多的場景下被應(yīng)用,如自動問答功蜓、知識圖譜等园爷。非結(jié)構(gòu)化的文本內(nèi)容有很多豐富的信息,但找到相關(guān)的知識始終是一個(gè)具有挑戰(zhàn)性的任務(wù)式撼,命名實(shí)體識別也不例外童社。
前面我們用隱馬爾可夫模型(HMM)自己嘗試訓(xùn)練過一個(gè)分詞器,其實(shí) HMM 也可以用來訓(xùn)練命名實(shí)體識別器著隆,但在本文扰楼,我們講另外一個(gè)算法——條件隨機(jī)場(CRF),來訓(xùn)練一個(gè)命名實(shí)體識別器旅东。
淺析條件隨機(jī)場(CRF)
條件隨機(jī)場(Conditional Random Fields灭抑,簡稱 CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型十艾,在自然語言處理中得到了廣泛應(yīng)用抵代。
首先,我們來看看什么是隨機(jī)場忘嫉』珉梗“隨機(jī)場”的名字取的很玄乎,其實(shí)理解起來不難庆冕。隨機(jī)場是由若干個(gè)位置組成的整體康吵,當(dāng)按照某種分布給每一個(gè)位置隨機(jī)賦予一個(gè)值之后,其全體就叫做隨機(jī)場访递。
還是舉詞性標(biāo)注的例子晦嵌。假如我們有一個(gè)十個(gè)詞形成的句子需要做詞性標(biāo)注。這十個(gè)詞每個(gè)詞的詞性可以在我們已知的詞性集合(名詞拷姿,動詞……)中去選擇惭载。當(dāng)我們?yōu)槊總€(gè)詞選擇完詞性后,這就形成了一個(gè)隨機(jī)場响巢。
了解了隨機(jī)場描滔,我們再來看看馬爾科夫隨機(jī)場。馬爾科夫隨機(jī)場是隨機(jī)場的特例踪古,它假設(shè)隨機(jī)場中某一個(gè)位置的賦值僅僅與和它相鄰的位置的賦值有關(guān)含长,和與其不相鄰的位置的賦值無關(guān)券腔。
繼續(xù)舉十個(gè)詞的句子詞性標(biāo)注的例子。如果我們假設(shè)所有詞的詞性只和它相鄰的詞的詞性有關(guān)時(shí)拘泞,這個(gè)隨機(jī)場就特化成一個(gè)馬爾科夫隨機(jī)場纷纫。比如第三個(gè)詞的詞性除了與自己本身的位置有關(guān)外,還只與第二個(gè)詞和第四個(gè)詞的詞性有關(guān)陪腌。
理解了馬爾科夫隨機(jī)場涛酗,再理解 CRF 就容易了。CRF 是馬爾科夫隨機(jī)場的特例偷厦,它假設(shè)馬爾科夫隨機(jī)場中只有 X 和 Y 兩種變量商叹,X 一般是給定的,而 Y 一般是在給定 X 的條件下我們的輸出只泼。這樣馬爾科夫隨機(jī)場就特化成了條件隨機(jī)場剖笙。
在我們十個(gè)詞的句子詞性標(biāo)注的例子中,X 是詞请唱,Y 是詞性弥咪。因此,如果我們假設(shè)它是一個(gè)馬爾科夫隨機(jī)場十绑,那么它也就是一個(gè) CRF聚至。
對于 CRF,我們給出準(zhǔn)確的數(shù)學(xué)語言描述:設(shè) X 與 Y 是隨機(jī)變量本橙,P(Y|X) 是給定 X 時(shí) Y 的條件概率分布扳躬,若隨機(jī)變量 Y 構(gòu)成的是一個(gè)馬爾科夫隨機(jī)場,則稱條件概率分布 P(Y|X) 是條件隨機(jī)場甚亭。
基于 CRF 的中文命名實(shí)體識別模型實(shí)現(xiàn)
在常規(guī)的命名實(shí)體識別中贷币,通用場景下最常提取的是時(shí)間、人物亏狰、地點(diǎn)及組織機(jī)構(gòu)名役纹,因此本模型也將提取以上四種實(shí)體。
1.開發(fā)環(huán)境暇唾。
本次開發(fā)所選用的環(huán)境為:
Sklearn_crfsuite
Python 3.6
Jupyter Notebook
2.數(shù)據(jù)預(yù)處理促脉。
本模型使用人民日報(bào)1998年標(biāo)注數(shù)據(jù),進(jìn)行預(yù)處理策州。語料庫詞性標(biāo)記中瘸味,對應(yīng)的實(shí)體詞依次為 t、nr抽活、ns硫戈、nt。對語料需要做以下處理:
將語料全角字符統(tǒng)一轉(zhuǎn)為半角下硕;
合并語料庫分開標(biāo)注的姓和名丁逝,例如:溫/nr 家寶/nr汁胆;
合并語料庫中括號中的大粒度詞,例如:[國家/n 環(huán)保局/n]nt霜幼;
合并語料庫分開標(biāo)注的時(shí)間嫩码,例如:(/w 一九九七年/t 十二月/t 三十一日/t )/w。
首先引入需要用到的庫:
import re
import sklearn_crfsuite
from sklearn_crfsuite import metrics
from sklearn.externals import joblib
數(shù)據(jù)預(yù)處理罪既,定義 CorpusProcess 類铸题,我們還是先給出類實(shí)現(xiàn)框架:
class CorpusProcess(object):
def __init__(self):
"""初始化"""
pass
def read_corpus_from_file(self, file_path):
"""讀取語料"""
pass
def write_corpus_to_file(self, data, file_path):
"""寫語料"""
pass
def q_to_b(self,q_str):
"""全角轉(zhuǎn)半角"""
pass
def b_to_q(self,b_str):
"""半角轉(zhuǎn)全角"""
pass
def pre_process(self):
"""語料預(yù)處理 """
pass
def process_k(self, words):
"""處理大粒度分詞,合并語料庫中括號中的大粒度分詞,類似:[國家/n 環(huán)保局/n]nt """
pass
def process_nr(self, words):
""" 處理姓名,合并語料庫分開標(biāo)注的姓和名琢感,類似:溫/nr 家寶/nr"""
pass
def process_t(self, words):
"""處理時(shí)間,合并語料庫分開標(biāo)注的時(shí)間詞丢间,類似: (/w 一九九七年/t 十二月/t 三十一日/t )/w """
pass
def pos_to_tag(self, p):
"""由詞性提取標(biāo)簽"""
pass
def tag_perform(self, tag, index):
"""標(biāo)簽使用BIO模式"""
pass
def pos_perform(self, pos):
"""去除詞性攜帶的標(biāo)簽先驗(yàn)知識"""
pass
def initialize(self):
"""初始化 """
pass
def init_sequence(self, words_list):
"""初始化字序列、詞性序列驹针、標(biāo)記序列 """
pass
def extract_feature(self, word_grams):
"""特征選取"""
pass
def segment_by_window(self, words_list=None, window=3):
"""窗口切分"""
pass
def generator(self):
"""訓(xùn)練數(shù)據(jù)"""
pass
由于整個(gè)代碼實(shí)現(xiàn)過程較長烘挫,我這里給出重點(diǎn)步驟,最后會在 Github 上連同語料代碼一同給出柬甥,下面是關(guān)鍵過程實(shí)現(xiàn)饮六。
對語料中的句子、詞性苛蒲,實(shí)體分類標(biāo)記進(jìn)行區(qū)分卤橄。標(biāo)簽采用“BIO”體系,即實(shí)體的第一個(gè)字為 B_臂外,其余字為 I_窟扑,非實(shí)體字統(tǒng)一標(biāo)記為 O。大部分情況下寄月,標(biāo)簽體系越復(fù)雜辜膝,準(zhǔn)確度也越高无牵,但這里采用簡單的 BIO 體系也能達(dá)到相當(dāng)不錯的效果漾肮。這里模型采用 tri-gram 形式,所以在字符列中茎毁,要在句子前后加上占位符克懊。
def init_sequence(self, words_list):
"""初始化字序列、詞性序列七蜘、標(biāo)記序列 """
words_seq = [[word.split(u'/')[0] for word in words] for words in words_list]
pos_seq = [[word.split(u'/')[1] for word in words] for words in words_list]
tag_seq = [[self.pos_to_tag(p) for p in pos] for pos in pos_seq]
self.pos_seq = [[[pos_seq[index][i] for _ in range(len(words_seq[index][i]))]
for i in range(len(pos_seq[index]))] for index in range(len(pos_seq))]
self.tag_seq = [[[self.tag_perform(tag_seq[index][i], w) for w in range(len(words_seq[index][i]))]
for i in range(len(tag_seq[index]))] for index in range(len(tag_seq))]
self.pos_seq = [[u'un']+[self.pos_perform(p) for pos in pos_seq for p in pos]+[u'un'] for pos_seq in self.pos_seq]
self.tag_seq = [[t for tag in tag_seq for t in tag] for tag_seq in self.tag_seq]
self.word_seq = [[u'<BOS>']+[w for word in word_seq for w in word]+[u'<EOS>'] for word_seq in words_seq]
處理好語料之后谭溉,緊接著進(jìn)行模型定義和訓(xùn)練,定義 CRF_NER 類橡卤,我們還是采用先給出類實(shí)現(xiàn)框架扮念,再具體講解其實(shí)現(xiàn):
class CRF_NER(object):
def __init__(self):
"""初始化參數(shù)"""
pass
def initialize_model(self):
"""初始化"""
pass
def train(self):
"""訓(xùn)練"""
pass
def predict(self, sentence):
"""預(yù)測"""
pass
def load_model(self):
"""加載模型 """
pass
def save_model(self):
"""保存模型"""
pass
在 CRF_NER 類中,分別完成了語料預(yù)處理和模型訓(xùn)練碧库、保存柜与、預(yù)測功能巧勤,具體實(shí)現(xiàn)如下。
第一步弄匕,init 函數(shù)實(shí)現(xiàn)了模型參數(shù)定義和 CorpusProcess 的實(shí)例化和語料預(yù)處理:
def __init__(self):
"""初始化參數(shù)"""
self.algorithm = "lbfgs"
self.c1 ="0.1"
self.c2 = "0.1"
self.max_iterations = 100 #迭代次數(shù)
self.model_path = dir + "model.pkl"
self.corpus = CorpusProcess() #Corpus 實(shí)例
self.corpus.pre_process() #語料預(yù)處理
self.corpus.initialize() #初始化語料
self.model = None
第二步颅悉,給出模型定義,了解 sklearn_crfsuite.CRF
詳情可查該文檔迁匠。
def initialize_model(self):
"""初始化"""
algorithm = self.algorithm
c1 = float(self.c1)
c2 = float(self.c2)
max_iterations = int(self.max_iterations)
self.model = sklearn_crfsuite.CRF(algorithm=algorithm, c1=c1, c2=c2,
max_iterations=max_iterations, all_possible_transitions=True)
第三步剩瓶,模型訓(xùn)練和保存,分為訓(xùn)練集和測試集:
def train(self):
"""訓(xùn)練"""
self.initialize_model()
x, y = self.corpus.generator()
x_train, y_train = x[500:], y[500:]
x_test, y_test = x[:500], y[:500]
self.model.fit(x_train, y_train)
labels = list(self.model.classes_)
labels.remove('O')
y_predict = self.model.predict(x_test)
metrics.flat_f1_score(y_test, y_predict, average='weighted', labels=labels)
sorted_labels = sorted(labels, key=lambda name: (name[1:], name[0]))
print(metrics.flat_classification_report(y_test, y_predict, labels=sorted_labels, digits=3))
self.save_model()
第四至第六步中 predict城丧、load_model延曙、save_model 方法的實(shí)現(xiàn),大家可以在文末給出的地址中查看源碼亡哄,這里就不堆代碼了搂鲫。
最后,我們來看看模型訓(xùn)練和預(yù)測的過程和結(jié)果:
ner = CRF_NER()
model = ner.train()
經(jīng)過模型訓(xùn)練磺平,得到的準(zhǔn)確率和召回率如下:
進(jìn)行模型預(yù)測魂仍,其結(jié)果還不錯,如下:
總結(jié)
本文淺析了條件隨機(jī)場拣挪,并使用 sklearn_crfsuite.CRF 模型擦酌,對人民日報(bào)1998年標(biāo)注數(shù)據(jù)進(jìn)行了模型訓(xùn)練和預(yù)測,以幫助大家加強(qiáng)對條件隨機(jī)場的理解菠劝。