簡稱:NER:目標是識別所有文字提及的命名實體峻黍。可以分成兩個子任務:確定NE的邊界和確定其類型。
提取工具:
1撬即、NLTK提供了一個已經訓練好的可以識別命名實體的分類器
? ? http://www.cnblogs.com/createMoMo/archive/2013/05/30/3109464.html
2、基于哈工的LTP呈队,可以安裝pyltp模型剥槐,用python調用使用
pyltp官方教程? http://pyltp.readthedocs.io/zh_CN/latest/index.html
?超贊實例教程: http://blog.csdn.net/MebiuW/article/details/52496920 ? <代碼>
?該教程包括分詞、詞性標注宪摧、命名實體識別粒竖、依存句法分詞、語義角色標注
3几于、可以基于CRF++的工具包來提(可工業(yè)級使用)
? ? ? http://blog.sina.com.cn/s/blog_618985870101hvuf.html (介紹)
? ? ? ?https://pan.baidu.com/s/1geHjeCj ?(CRF++安裝包)
4蕊苗、基于雙向LSTM和遷移學習的seq2seq核心實體識別:http://kexue.fm/archives/3942/
5、用深度學習做NER沿彭,參考:http://www.reibang.com/p/581832f2c458
6朽砰、現(xiàn)在在深度學習背景下的流行做法是基于 Bi-driectional LSTM + linear-chain CRF 的模型結構。該模型以character為基本粒度 (在這里喉刘,英文的 character 指的是單詞的一個字符瞧柔,中文的 character 指的是單個漢字) 去自動提取特征從而大大降低工作量 [1-6]。? ? ? ? ? ? ? ? ??http://mp.weixin.qq.com/s/W0MO4k3IDect9aOSzu7-Zg? <附帶代碼>
博客參考鏈接:
1睦裳、? http://blog.csdn.net/lalalawxt/article/details/55804384
2造锅、 ? http://www.cnblogs.com/webRobot/p/6086693.html
3、? http://blog.csdn.net/u010718606/article/details/50148261
命名實體識別部分(NER)
? ?model的選擇: Bi-LSTM-CNN-CRF > Bi-LSTM-CRF > CRF
問:如何做實體label標注嗎推沸?就是抽取的實體备绽,想標注類別(比如說醫(yī)學的疾病類券坞,癥狀類等)
答:這是一個多分類問題,
肺素、