NLP第15課:基于 CRF 的中文命名實(shí)體識別模型實(shí)現(xiàn)

命名實(shí)體識別在越來越多的場景下被應(yīng)用,如自動問答功蜓、知識圖譜等园爷。非結(jié)構(gòu)化的文本內(nèi)容有很多豐富的信息,但找到相關(guān)的知識始終是一個(gè)具有挑戰(zhàn)性的任務(wù)式撼,命名實(shí)體識別也不例外童社。

前面我們用隱馬爾可夫模型(HMM)自己嘗試訓(xùn)練過一個(gè)分詞器,其實(shí) HMM 也可以用來訓(xùn)練命名實(shí)體識別器著隆,但在本文扰楼,我們講另外一個(gè)算法——條件隨機(jī)場(CRF),來訓(xùn)練一個(gè)命名實(shí)體識別器旅东。

淺析條件隨機(jī)場(CRF)

條件隨機(jī)場(Conditional Random Fields灭抑,簡稱 CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型十艾,在自然語言處理中得到了廣泛應(yīng)用抵代。

首先,我們來看看什么是隨機(jī)場忘嫉』珉梗“隨機(jī)場”的名字取的很玄乎,其實(shí)理解起來不難庆冕。隨機(jī)場是由若干個(gè)位置組成的整體康吵,當(dāng)按照某種分布給每一個(gè)位置隨機(jī)賦予一個(gè)值之后,其全體就叫做隨機(jī)場访递。

還是舉詞性標(biāo)注的例子晦嵌。假如我們有一個(gè)十個(gè)詞形成的句子需要做詞性標(biāo)注。這十個(gè)詞每個(gè)詞的詞性可以在我們已知的詞性集合(名詞拷姿,動詞……)中去選擇惭载。當(dāng)我們?yōu)槊總€(gè)詞選擇完詞性后,這就形成了一個(gè)隨機(jī)場响巢。

了解了隨機(jī)場描滔,我們再來看看馬爾科夫隨機(jī)場。馬爾科夫隨機(jī)場是隨機(jī)場的特例踪古,它假設(shè)隨機(jī)場中某一個(gè)位置的賦值僅僅與和它相鄰的位置的賦值有關(guān)含长,和與其不相鄰的位置的賦值無關(guān)券腔。

繼續(xù)舉十個(gè)詞的句子詞性標(biāo)注的例子。如果我們假設(shè)所有詞的詞性只和它相鄰的詞的詞性有關(guān)時(shí)拘泞,這個(gè)隨機(jī)場就特化成一個(gè)馬爾科夫隨機(jī)場纷纫。比如第三個(gè)詞的詞性除了與自己本身的位置有關(guān)外,還只與第二個(gè)詞和第四個(gè)詞的詞性有關(guān)陪腌。

理解了馬爾科夫隨機(jī)場涛酗,再理解 CRF 就容易了。CRF 是馬爾科夫隨機(jī)場的特例偷厦,它假設(shè)馬爾科夫隨機(jī)場中只有 X 和 Y 兩種變量商叹,X 一般是給定的,而 Y 一般是在給定 X 的條件下我們的輸出只泼。這樣馬爾科夫隨機(jī)場就特化成了條件隨機(jī)場剖笙。

在我們十個(gè)詞的句子詞性標(biāo)注的例子中,X 是詞请唱,Y 是詞性弥咪。因此,如果我們假設(shè)它是一個(gè)馬爾科夫隨機(jī)場十绑,那么它也就是一個(gè) CRF聚至。

對于 CRF,我們給出準(zhǔn)確的數(shù)學(xué)語言描述:設(shè) X 與 Y 是隨機(jī)變量本橙,P(Y|X) 是給定 X 時(shí) Y 的條件概率分布扳躬,若隨機(jī)變量 Y 構(gòu)成的是一個(gè)馬爾科夫隨機(jī)場,則稱條件概率分布 P(Y|X) 是條件隨機(jī)場甚亭。

基于 CRF 的中文命名實(shí)體識別模型實(shí)現(xiàn)

在常規(guī)的命名實(shí)體識別中贷币,通用場景下最常提取的是時(shí)間、人物亏狰、地點(diǎn)及組織機(jī)構(gòu)名役纹,因此本模型也將提取以上四種實(shí)體。

1.開發(fā)環(huán)境暇唾。

本次開發(fā)所選用的環(huán)境為:

Sklearn_crfsuite
Python 3.6
Jupyter Notebook
2.數(shù)據(jù)預(yù)處理促脉。

本模型使用人民日報(bào)1998年標(biāo)注數(shù)據(jù),進(jìn)行預(yù)處理策州。語料庫詞性標(biāo)記中瘸味,對應(yīng)的實(shí)體詞依次為 t、nr抽活、ns硫戈、nt。對語料需要做以下處理:

將語料全角字符統(tǒng)一轉(zhuǎn)為半角下硕;
合并語料庫分開標(biāo)注的姓和名丁逝,例如:溫/nr 家寶/nr汁胆;
合并語料庫中括號中的大粒度詞,例如:[國家/n 環(huán)保局/n]nt霜幼;
合并語料庫分開標(biāo)注的時(shí)間嫩码,例如:(/w 一九九七年/t 十二月/t 三十一日/t )/w。
首先引入需要用到的庫:

    import re
    import sklearn_crfsuite
    from sklearn_crfsuite import metrics
    from sklearn.externals import joblib

數(shù)據(jù)預(yù)處理罪既,定義 CorpusProcess 類铸题,我們還是先給出類實(shí)現(xiàn)框架:

class CorpusProcess(object):

    def __init__(self):
        """初始化"""
        pass

    def read_corpus_from_file(self, file_path):
        """讀取語料"""
        pass

    def write_corpus_to_file(self, data, file_path):
        """寫語料"""
        pass

    def q_to_b(self,q_str):
        """全角轉(zhuǎn)半角"""
        pass

    def b_to_q(self,b_str):
        """半角轉(zhuǎn)全角"""
        pass

    def pre_process(self):
        """語料預(yù)處理 """
        pass

    def process_k(self, words):
        """處理大粒度分詞,合并語料庫中括號中的大粒度分詞,類似:[國家/n  環(huán)保局/n]nt """
        pass

    def process_nr(self, words):
        """ 處理姓名,合并語料庫分開標(biāo)注的姓和名琢感,類似:溫/nr  家寶/nr"""
        pass

    def process_t(self, words):
        """處理時(shí)間,合并語料庫分開標(biāo)注的時(shí)間詞丢间,類似: (/w  一九九七年/t  十二月/t  三十一日/t  )/w   """
        pass

    def pos_to_tag(self, p):
        """由詞性提取標(biāo)簽"""
        pass

    def tag_perform(self, tag, index):
        """標(biāo)簽使用BIO模式"""
        pass

    def pos_perform(self, pos):
        """去除詞性攜帶的標(biāo)簽先驗(yàn)知識"""
        pass

    def initialize(self):
        """初始化 """
        pass

    def init_sequence(self, words_list):
        """初始化字序列、詞性序列驹针、標(biāo)記序列 """
        pass

    def extract_feature(self, word_grams):
        """特征選取"""
        pass

    def segment_by_window(self, words_list=None, window=3):
        """窗口切分"""
        pass

    def generator(self):
        """訓(xùn)練數(shù)據(jù)"""
        pass

由于整個(gè)代碼實(shí)現(xiàn)過程較長烘挫,我這里給出重點(diǎn)步驟,最后會在 Github 上連同語料代碼一同給出柬甥,下面是關(guān)鍵過程實(shí)現(xiàn)饮六。

對語料中的句子、詞性苛蒲,實(shí)體分類標(biāo)記進(jìn)行區(qū)分卤橄。標(biāo)簽采用“BIO”體系,即實(shí)體的第一個(gè)字為 B_臂外,其余字為 I_窟扑,非實(shí)體字統(tǒng)一標(biāo)記為 O。大部分情況下寄月,標(biāo)簽體系越復(fù)雜辜膝,準(zhǔn)確度也越高无牵,但這里采用簡單的 BIO 體系也能達(dá)到相當(dāng)不錯的效果漾肮。這里模型采用 tri-gram 形式,所以在字符列中茎毁,要在句子前后加上占位符克懊。

def init_sequence(self, words_list):
            """初始化字序列、詞性序列七蜘、標(biāo)記序列 """
            words_seq = [[word.split(u'/')[0] for word in words] for words in words_list]
            pos_seq = [[word.split(u'/')[1] for word in words] for words in words_list]
            tag_seq = [[self.pos_to_tag(p) for p in pos] for pos in pos_seq]
            self.pos_seq = [[[pos_seq[index][i] for _ in range(len(words_seq[index][i]))]
                            for i in range(len(pos_seq[index]))] for index in range(len(pos_seq))]
            self.tag_seq = [[[self.tag_perform(tag_seq[index][i], w) for w in range(len(words_seq[index][i]))]
                            for i in range(len(tag_seq[index]))] for index in range(len(tag_seq))]
            self.pos_seq = [[u'un']+[self.pos_perform(p) for pos in pos_seq for p in pos]+[u'un'] for pos_seq in self.pos_seq]
            self.tag_seq = [[t for tag in tag_seq for t in tag] for tag_seq in self.tag_seq]
            self.word_seq = [[u'<BOS>']+[w for word in word_seq for w in word]+[u'<EOS>'] for word_seq in words_seq] 

處理好語料之后谭溉,緊接著進(jìn)行模型定義和訓(xùn)練,定義 CRF_NER 類橡卤,我們還是采用先給出類實(shí)現(xiàn)框架扮念,再具體講解其實(shí)現(xiàn):

    class CRF_NER(object):
        def __init__(self):
            """初始化參數(shù)"""
            pass

        def initialize_model(self):
            """初始化"""
            pass

        def train(self):
            """訓(xùn)練"""
            pass

        def predict(self, sentence):
            """預(yù)測"""
            pass
        def load_model(self):
            """加載模型 """
            pass
        def save_model(self):
            """保存模型"""
            pass

在 CRF_NER 類中,分別完成了語料預(yù)處理和模型訓(xùn)練碧库、保存柜与、預(yù)測功能巧勤,具體實(shí)現(xiàn)如下。

第一步弄匕,init 函數(shù)實(shí)現(xiàn)了模型參數(shù)定義和 CorpusProcess 的實(shí)例化和語料預(yù)處理:

    def __init__(self):
            """初始化參數(shù)"""
            self.algorithm = "lbfgs"
            self.c1 ="0.1"
            self.c2 = "0.1"
            self.max_iterations = 100 #迭代次數(shù)
            self.model_path = dir + "model.pkl"
            self.corpus = CorpusProcess()  #Corpus 實(shí)例
            self.corpus.pre_process()  #語料預(yù)處理
            self.corpus.initialize()  #初始化語料
            self.model = None

第二步颅悉,給出模型定義,了解 sklearn_crfsuite.CRF 詳情可查該文檔迁匠。

    def initialize_model(self):
            """初始化"""
            algorithm = self.algorithm
            c1 = float(self.c1)
            c2 = float(self.c2)
            max_iterations = int(self.max_iterations)
            self.model = sklearn_crfsuite.CRF(algorithm=algorithm, c1=c1, c2=c2,
                                              max_iterations=max_iterations, all_possible_transitions=True)

第三步剩瓶,模型訓(xùn)練和保存,分為訓(xùn)練集和測試集:

    def train(self):
            """訓(xùn)練"""
            self.initialize_model()
            x, y = self.corpus.generator()
            x_train, y_train = x[500:], y[500:]
            x_test, y_test = x[:500], y[:500]
            self.model.fit(x_train, y_train)
            labels = list(self.model.classes_)
            labels.remove('O')
            y_predict = self.model.predict(x_test)
            metrics.flat_f1_score(y_test, y_predict, average='weighted', labels=labels)
            sorted_labels = sorted(labels, key=lambda name: (name[1:], name[0]))
            print(metrics.flat_classification_report(y_test, y_predict, labels=sorted_labels, digits=3))
            self.save_model()

第四至第六步中 predict城丧、load_model延曙、save_model 方法的實(shí)現(xiàn),大家可以在文末給出的地址中查看源碼亡哄,這里就不堆代碼了搂鲫。

最后,我們來看看模型訓(xùn)練和預(yù)測的過程和結(jié)果:

    ner = CRF_NER()
    model = ner.train()

經(jīng)過模型訓(xùn)練磺平,得到的準(zhǔn)確率和召回率如下:

enter image description here

進(jìn)行模型預(yù)測魂仍,其結(jié)果還不錯,如下:

enter image description here

總結(jié)

本文淺析了條件隨機(jī)場拣挪,并使用 sklearn_crfsuite.CRF 模型擦酌,對人民日報(bào)1998年標(biāo)注數(shù)據(jù)進(jìn)行了模型訓(xùn)練和預(yù)測,以幫助大家加強(qiáng)對條件隨機(jī)場的理解菠劝。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末赊舶,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子赶诊,更是在濱河造成了極大的恐慌笼平,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,406評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舔痪,死亡現(xiàn)場離奇詭異寓调,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)锄码,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,732評論 3 393
  • 文/潘曉璐 我一進(jìn)店門夺英,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人滋捶,你說我怎么就攤上這事痛悯。” “怎么了重窟?”我有些...
    開封第一講書人閱讀 163,711評論 0 353
  • 文/不壞的土叔 我叫張陵载萌,是天一觀的道長。 經(jīng)常有香客問我,道長扭仁,這世上最難降的妖魔是什么可缚? 我笑而不...
    開封第一講書人閱讀 58,380評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮斋枢,結(jié)果婚禮上帘靡,老公的妹妹穿的比我還像新娘。我一直安慰自己瓤帚,他們只是感情好描姚,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,432評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著戈次,像睡著了一般轩勘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上怯邪,一...
    開封第一講書人閱讀 51,301評論 1 301
  • 那天绊寻,我揣著相機(jī)與錄音,去河邊找鬼悬秉。 笑死澄步,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的和泌。 我是一名探鬼主播村缸,決...
    沈念sama閱讀 40,145評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼武氓!你這毒婦竟也來了梯皿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,008評論 0 276
  • 序言:老撾萬榮一對情侶失蹤县恕,失蹤者是張志新(化名)和其女友劉穎东羹,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體忠烛,經(jīng)...
    沈念sama閱讀 45,443評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡属提,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,649評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了况木。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垒拢。...
    茶點(diǎn)故事閱讀 39,795評論 1 347
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖火惊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情奔垦,我是刑警寧澤屹耐,帶...
    沈念sama閱讀 35,501評論 5 345
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響惶岭,放射性物質(zhì)發(fā)生泄漏寿弱。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,119評論 3 328
  • 文/蒙蒙 一按灶、第九天 我趴在偏房一處隱蔽的房頂上張望症革。 院中可真熱鬧,春花似錦鸯旁、人聲如沸噪矛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,731評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽艇挨。三九已至,卻和暖如春韭赘,著一層夾襖步出監(jiān)牢的瞬間缩滨,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,865評論 1 269
  • 我被黑心中介騙來泰國打工泉瞻, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留脉漏,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,899評論 2 370
  • 正文 我出身青樓袖牙,卻偏偏與公主長得像鸠删,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子贼陶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,724評論 2 354

推薦閱讀更多精彩內(nèi)容