NLP第15課：基于 CRF 的中文命名實體識別模型實現(xiàn)

命名實體識別在越來越多的場景下被應用预茄，如自動問答隔显、知識圖譜等崎溃。非結構化的文本內容有很多豐富的信息蜻直，但找到相關的知識始終是一個具有挑戰(zhàn)性的任務，命名實體識別也不例外。

前面我們用隱馬爾可夫模型（HMM）自己嘗試訓練過一個分詞器概而，其實 HMM 也可以用來訓練命名實體識別器呼巷，但在本文，我們講另外一個算法——條件隨機場（CRF）赎瑰，來訓練一個命名實體識別器王悍。

淺析條件隨機場（CRF）

條件隨機場（Conditional Random Fields，簡稱 CRF）是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型餐曼，在自然語言處理中得到了廣泛應用压储。

首先，我們來看看什么是隨機場源譬∏觯“隨機場”的名字取的很玄乎，其實理解起來不難瓶佳。隨機場是由若干個位置組成的整體芋膘，當按照某種分布給每一個位置隨機賦予一個值之后，其全體就叫做隨機場霸饲。

還是舉詞性標注的例子为朋。假如我們有一個十個詞形成的句子需要做詞性標注。這十個詞每個詞的詞性可以在我們已知的詞性集合（名詞厚脉，動詞……)中去選擇习寸。當我們?yōu)槊總€詞選擇完詞性后，這就形成了一個隨機場傻工。

了解了隨機場霞溪，我們再來看看馬爾科夫隨機場。馬爾科夫隨機場是隨機場的特例中捆，它假設隨機場中某一個位置的賦值僅僅與和它相鄰的位置的賦值有關鸯匹，和與其不相鄰的位置的賦值無關。

繼續(xù)舉十個詞的句子詞性標注的例子泄伪。如果我們假設所有詞的詞性只和它相鄰的詞的詞性有關時殴蓬，這個隨機場就特化成一個馬爾科夫隨機場。比如第三個詞的詞性除了與自己本身的位置有關外蟋滴，還只與第二個詞和第四個詞的詞性有關染厅。

理解了馬爾科夫隨機場，再理解 CRF 就容易了津函。CRF 是馬爾科夫隨機場的特例肖粮，它假設馬爾科夫隨機場中只有 X 和 Y 兩種變量，X 一般是給定的尔苦，而 Y 一般是在給定 X 的條件下我們的輸出涩馆。這樣馬爾科夫隨機場就特化成了條件隨機場行施。

在我們十個詞的句子詞性標注的例子中，X 是詞凌净，Y 是詞性。因此屋讶，如果我們假設它是一個馬爾科夫隨機場冰寻，那么它也就是一個 CRF。

對于 CRF皿渗，我們給出準確的數(shù)學語言描述：設 X 與 Y 是隨機變量斩芭，P(Y|X) 是給定 X 時 Y 的條件概率分布，若隨機變量 Y 構成的是一個馬爾科夫隨機場乐疆，則稱條件概率分布 P(Y|X) 是條件隨機場划乖。

基于 CRF 的中文命名實體識別模型實現(xiàn)

在常規(guī)的命名實體識別中，通用場景下最常提取的是時間挤土、人物琴庵、地點及組織機構名，因此本模型也將提取以上四種實體仰美。

1.開發(fā)環(huán)境迷殿。

本次開發(fā)所選用的環(huán)境為：

Sklearn_crfsuite
Python 3.6
Jupyter Notebook
2.數(shù)據(jù)預處理。

本模型使用人民日報1998年標注數(shù)據(jù)咖杂，進行預處理庆寺。語料庫詞性標記中，對應的實體詞依次為 t诉字、nr懦尝、ns、nt壤圃。對語料需要做以下處理：

將語料全角字符統(tǒng)一轉為半角陵霉；
合并語料庫分開標注的姓和名，例如：溫/nr 家寶/nr伍绳；
合并語料庫中括號中的大粒度詞撩匕，例如：[國家/n 環(huán)保局/n]nt；
合并語料庫分開標注的時間墨叛，例如：（/w 一九九七年/t 十二月/t 三十一日/t ）/w止毕。
首先引入需要用到的庫：

    import re
    import sklearn_crfsuite
    from sklearn_crfsuite import metrics
    from sklearn.externals import joblib

數(shù)據(jù)預處理，定義 CorpusProcess 類漠趁，我們還是先給出類實現(xiàn)框架：

class CorpusProcess(object):

    def __init__(self):
        """初始化"""
        pass

    def read_corpus_from_file(self, file_path):
        """讀取語料"""
        pass

    def write_corpus_to_file(self, data, file_path):
        """寫語料"""
        pass

    def q_to_b(self,q_str):
        """全角轉半角"""
        pass

    def b_to_q(self,b_str):
        """半角轉全角"""
        pass

    def pre_process(self):
        """語料預處理 """
        pass

    def process_k(self, words):
        """處理大粒度分詞,合并語料庫中括號中的大粒度分詞,類似：[國家/n  環(huán)保局/n]nt """
        pass

    def process_nr(self, words):
        """ 處理姓名扁凛，合并語料庫分開標注的姓和名，類似：溫/nr  家寶/nr"""
        pass

    def process_t(self, words):
        """處理時間,合并語料庫分開標注的時間詞闯传，類似： （/w  一九九七年/t  十二月/t  三十一日/t  ）/w   """
        pass

    def pos_to_tag(self, p):
        """由詞性提取標簽"""
        pass

    def tag_perform(self, tag, index):
        """標簽使用BIO模式"""
        pass

    def pos_perform(self, pos):
        """去除詞性攜帶的標簽先驗知識"""
        pass

    def initialize(self):
        """初始化 """
        pass

    def init_sequence(self, words_list):
        """初始化字序列谨朝、詞性序列、標記序列 """
        pass

    def extract_feature(self, word_grams):
        """特征選取"""
        pass

    def segment_by_window(self, words_list=None, window=3):
        """窗口切分"""
        pass

    def generator(self):
        """訓練數(shù)據(jù)"""
        pass

由于整個代碼實現(xiàn)過程較長，我這里給出重點步驟字币，最后會在 Github 上連同語料代碼一同給出则披，下面是關鍵過程實現(xiàn)。

對語料中的句子洗出、詞性士复，實體分類標記進行區(qū)分。標簽采用“BIO”體系翩活，即實體的第一個字為 B_阱洪，其余字為 I_，非實體字統(tǒng)一標記為 O菠镇。大部分情況下冗荸，標簽體系越復雜，準確度也越高利耍，但這里采用簡單的 BIO 體系也能達到相當不錯的效果蚌本。這里模型采用 tri-gram 形式，所以在字符列中隘梨，要在句子前后加上占位符魂毁。

def init_sequence(self, words_list):
            """初始化字序列、詞性序列出嘹、標記序列 """
            words_seq = [[word.split(u'/')[0] for word in words] for words in words_list]
            pos_seq = [[word.split(u'/')[1] for word in words] for words in words_list]
            tag_seq = [[self.pos_to_tag(p) for p in pos] for pos in pos_seq]
            self.pos_seq = [[[pos_seq[index][i] for _ in range(len(words_seq[index][i]))]
                            for i in range(len(pos_seq[index]))] for index in range(len(pos_seq))]
            self.tag_seq = [[[self.tag_perform(tag_seq[index][i], w) for w in range(len(words_seq[index][i]))]
                            for i in range(len(tag_seq[index]))] for index in range(len(tag_seq))]
            self.pos_seq = [[u'un']+[self.pos_perform(p) for pos in pos_seq for p in pos]+[u'un'] for pos_seq in self.pos_seq]
            self.tag_seq = [[t for tag in tag_seq for t in tag] for tag_seq in self.tag_seq]
            self.word_seq = [[u'<BOS>']+[w for word in word_seq for w in word]+[u'<EOS>'] for word_seq in words_seq]

處理好語料之后席楚，緊接著進行模型定義和訓練，定義 CRF_NER 類税稼，我們還是采用先給出類實現(xiàn)框架烦秩，再具體講解其實現(xiàn)：

    class CRF_NER(object):
        def __init__(self):
            """初始化參數(shù)"""
            pass

        def initialize_model(self):
            """初始化"""
            pass

        def train(self):
            """訓練"""
            pass

        def predict(self, sentence):
            """預測"""
            pass
        def load_model(self):
            """加載模型 """
            pass
        def save_model(self):
            """保存模型"""
            pass

在 CRF_NER 類中，分別完成了語料預處理和模型訓練郎仆、保存只祠、預測功能，具體實現(xiàn)如下扰肌。

第一步抛寝，init 函數(shù)實現(xiàn)了模型參數(shù)定義和 CorpusProcess 的實例化和語料預處理：

    def __init__(self):
            """初始化參數(shù)"""
            self.algorithm = "lbfgs"
            self.c1 ="0.1"
            self.c2 = "0.1"
            self.max_iterations = 100 #迭代次數(shù)
            self.model_path = dir + "model.pkl"
            self.corpus = CorpusProcess()  #Corpus 實例
            self.corpus.pre_process()  #語料預處理
            self.corpus.initialize()  #初始化語料
            self.model = None

第二步，給出模型定義曙旭，了解 sklearn_crfsuite.CRF 詳情可查該文檔盗舰。

    def initialize_model(self):
            """初始化"""
            algorithm = self.algorithm
            c1 = float(self.c1)
            c2 = float(self.c2)
            max_iterations = int(self.max_iterations)
            self.model = sklearn_crfsuite.CRF(algorithm=algorithm, c1=c1, c2=c2,
                                              max_iterations=max_iterations, all_possible_transitions=True)

第三步，模型訓練和保存桂躏，分為訓練集和測試集：

    def train(self):
            """訓練"""
            self.initialize_model()
            x, y = self.corpus.generator()
            x_train, y_train = x[500:], y[500:]
            x_test, y_test = x[:500], y[:500]
            self.model.fit(x_train, y_train)
            labels = list(self.model.classes_)
            labels.remove('O')
            y_predict = self.model.predict(x_test)
            metrics.flat_f1_score(y_test, y_predict, average='weighted', labels=labels)
            sorted_labels = sorted(labels, key=lambda name: (name[1:], name[0]))
            print(metrics.flat_classification_report(y_test, y_predict, labels=sorted_labels, digits=3))
            self.save_model()

第四至第六步中 predict钻趋、load_model、save_model 方法的實現(xiàn)剂习，大家可以在文末給出的地址中查看源碼蛮位，這里就不堆代碼了较沪。

最后，我們來看看模型訓練和預測的過程和結果：

    ner = CRF_NER()
    model = ner.train()

經(jīng)過模型訓練失仁，得到的準確率和召回率如下：

image

進行模型預測尸曼，其結果還不錯，如下：

image

總結

本文淺析了條件隨機場萄焦，并使用 sklearn_crfsuite.CRF 模型控轿，對人民日報1998年標注數(shù)據(jù)進行了模型訓練和預測，以幫助大家加強對條件隨機場的理解楷扬。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末解幽，一起剝皮案震驚了整個濱河市贴见，隨后出現(xiàn)的幾起案子烘苹，更是在濱河造成了極大的恐慌，老刑警劉巖片部，帶你破解...
沈念sama閱讀 216,402評論 6贊 499
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件镣衡，死亡現(xiàn)場離奇詭異，居然都是意外死亡档悠，警方通過查閱死者的電腦和手機廊鸥，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,377評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來辖所，“玉大人惰说，你說我怎么就攤上這事≡祷兀” “怎么了吆视？”我有些...
開封第一講書人閱讀 162,483評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長酥宴。經(jīng)常有香客問我啦吧，道長，這世上最難降的妖魔是什么拙寡？我笑而不...
開封第一講書人閱讀 58,165評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任授滓，我火速辦了婚禮，結果婚禮上肆糕，老公的妹妹穿的比我還像新娘般堆。我一直安慰自己，他們只是感情好诚啃，可當我...
茶點故事閱讀 67,176評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布郁妈。她就那樣靜靜地躺著，像睡著了一般绍申。火紅的嫁衣襯著肌膚如雪噩咪。梳的紋絲不亂的頭發(fā)上顾彰，一...
開封第一講書人閱讀 51,146評論 1贊 297
城市分裂傳說
那天，我揣著相機與錄音胃碾，去河邊找鬼涨享。笑死，一個胖子當著我的面吹牛仆百，可吹牛的內容都是我干的厕隧。我是一名探鬼主播，決...
沈念sama閱讀 40,032評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼俄周，長吁一口氣：“原來是場噩夢啊……” “哼吁讨！你這毒婦竟也來了？” 一聲冷哼從身側響起峦朗，我...
開封第一講書人閱讀 38,896評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤建丧，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后波势，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翎朱，經(jīng)...
沈念sama閱讀 45,311評論 1贊 310
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,536評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年尺铣，在試婚紗的時候發(fā)現(xiàn)自己被綠了拴曲。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,696評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡凛忿，死狀恐怖澈灼，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情店溢，我是刑警寧澤叁熔，帶...
沈念sama閱讀 35,413評論 5贊 343
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站逞怨，受9級特大地震影響者疤，放射性物質發(fā)生泄漏。R本人自食惡果不足惜叠赦，卻給世界環(huán)境...
茶點故事閱讀 41,008評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一驹马、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧除秀，春花似錦糯累、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案泳姐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至暂吉，卻和暖如春胖秒，著一層夾襖步出監(jiān)牢的瞬間缎患，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,815評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工阎肝，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留挤渔，地道東北人。一個月前我還...
沈念sama閱讀 47,698評論 2贊 368
代替公主和親
正文我出身青樓风题，卻偏偏與公主長得像判导，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子沛硅，可洞房花燭夜當晚...
茶點故事閱讀 44,592評論 2贊 353

NLP第15課：基于 CRF 的中文命名實體識別模型實現(xiàn)

推薦閱讀更多精彩內容