聲明:轉(zhuǎn)載請(qǐng)注明出處汹来,謝謝:http://www.reibang.com/p/940464a662b0
另外角溃,更多實(shí)時(shí)更新的個(gè)人學(xué)習(xí)筆記分享,請(qǐng)關(guān)注:
知乎:https://www.zhihu.com/people/yuquanle/columns
公眾號(hào):StudyForAI
CSDN地址:http://blog.csdn.net/m0_37306360
今天總結(jié)一下自然語(yǔ)言處理之詞性標(biāo)注煌妈,后附現(xiàn)有比較好的開(kāi)源實(shí)現(xiàn)工具(基于python實(shí)現(xiàn)包)~~~
詞性定義
百度百科定義:詞性指以詞的特點(diǎn)作為劃分詞類的根據(jù)蚀腿。詞類是一個(gè)語(yǔ)言學(xué)術(shù)語(yǔ),是一種語(yǔ)言中詞的語(yǔ)法分類舷嗡,是以語(yǔ)法特征(包括句法功能和形態(tài)變化)為主要依據(jù)轴猎、兼顧詞匯意義對(duì)詞進(jìn)行劃分的結(jié)果。
維基百科定義:In traditional grammar, a part of speech (abbreviated form: PoS or POS) is a category of words (or, more generally, of lexical items) which have similar grammatical properties.
從組合和聚合關(guān)系來(lái)說(shuō)进萄,一個(gè)詞類是指:在一個(gè)語(yǔ)言中捻脖,眾多具有相同句法功能、能在同樣的組合位置中出現(xiàn)的詞中鼠,聚合在一起形成的范疇可婶。詞類是最普遍的語(yǔ)法的聚合。詞類劃分具有層次性援雇。如漢語(yǔ)中矛渴,詞可以分成實(shí)詞和虛詞,實(shí)詞中又包括體詞惫搏、謂詞等具温,體詞中又可以分出名詞和代詞等。
詞性標(biāo)注就是在給定句子中判定每個(gè)詞的語(yǔ)法范疇筐赔,確定其詞性并加以標(biāo)注的過(guò)程桂躏,這也是自然語(yǔ)言處理中一項(xiàng)非常重要的基礎(chǔ)性工作,所有對(duì)于詞性標(biāo)注的研究已經(jīng)有較長(zhǎng)的時(shí)間川陆,在研究者長(zhǎng)期的研究總結(jié)中剂习,發(fā)現(xiàn)漢語(yǔ)詞性標(biāo)注中面臨了許多棘手的問(wèn)題。
中文詞性標(biāo)注的難點(diǎn)
漢語(yǔ)是一種缺乏詞形態(tài)變化的語(yǔ)言较沪,詞的類別不能像印歐語(yǔ)那樣鳞绕,直接從詞的形態(tài)變化上來(lái)判別。
常用詞兼類現(xiàn)象嚴(yán)重尸曼∶呛危《現(xiàn)代漢語(yǔ)八百詞》收取的常用詞中,兼類詞所占的比例高達(dá)22.5%控轿,而且發(fā)現(xiàn)越是常用的詞冤竹,不同的用法越多拂封。由于兼類使用程度高,兼類現(xiàn)象涉及漢語(yǔ)中大部分詞類鹦蠕,因而造成在漢語(yǔ)文本中詞類歧義排除的任務(wù)量大冒签。
研究者主觀原因造成的困難。語(yǔ)言學(xué)界在詞性劃分的目的钟病、標(biāo)準(zhǔn)等問(wèn)題上還存在分歧萧恕。目前還沒(méi)有一個(gè)統(tǒng)的被廣泛認(rèn)可漢語(yǔ)詞類劃分標(biāo)準(zhǔn),詞類劃分的粒度和標(biāo)記符號(hào)都不統(tǒng)一肠阱。詞類劃分標(biāo)準(zhǔn)和標(biāo)記符號(hào)集的差異票唆,以及分詞規(guī)范的含混性,給中文信息處理帶來(lái)了極大的困難屹徘。
詞性標(biāo)注常見(jiàn)方法
基于規(guī)則的詞性標(biāo)注方法
基于規(guī)則的詞性標(biāo)注方法是人們提出較早的一種詞性標(biāo)注方法走趋,其基本思想是按兼類詞搭配關(guān)系和上下文語(yǔ)境建造詞類消歧規(guī)則。早期的詞類標(biāo)注規(guī)則一般由人工構(gòu)建噪伊。
隨著標(biāo)注語(yǔ)料庫(kù)規(guī)模的增大簿煌,可利用的資源也變得越來(lái)越多,這時(shí)候以人工提取規(guī)則的方法顯然變得不現(xiàn)實(shí)酥宴,于是乎啦吧,人們提出了基于機(jī)器學(xué)習(xí)的規(guī)則自動(dòng)提出方法您觉。
基于統(tǒng)計(jì)模型的詞性標(biāo)注方法
統(tǒng)計(jì)方法將詞性標(biāo)注看作是一個(gè)序列標(biāo)注問(wèn)題拙寡。其基本思想是:給定帶有各自標(biāo)注的詞的序列,我們可以確定下一個(gè)詞最可能的詞性琳水。
現(xiàn)在已經(jīng)有隱馬爾可夫模型(HMM)或條件隨機(jī)域(CRF)等統(tǒng)計(jì)模型了肆糕,這些模型可以使用有標(biāo)記數(shù)據(jù)的大型語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,而有標(biāo)記的數(shù)據(jù)則是指其中每一個(gè)詞都分配了正確的詞性標(biāo)注的文本在孝。
基于統(tǒng)計(jì)方法與規(guī)則方法相結(jié)合的詞性標(biāo)注方法
理性主義方法與經(jīng)驗(yàn)主義相結(jié)合的處理策略一直是自然語(yǔ)言處理領(lǐng)域的專家們不斷研究和探索的問(wèn)題诚啃,對(duì)于詞性標(biāo)注問(wèn)題當(dāng)然也不例外。
這類方法的主要特點(diǎn)在于對(duì)統(tǒng)計(jì)標(biāo)注結(jié)果的篩選私沮,只對(duì)那些被認(rèn)為可疑的標(biāo)注結(jié)果始赎,才采用規(guī)則方法進(jìn)行歧義消解,而不是對(duì)所有情況都既使用統(tǒng)計(jì)方法又使用規(guī)則方法仔燕。
基于深度學(xué)習(xí)的詞性標(biāo)注方法
- 可以當(dāng)作序列標(biāo)注的任務(wù)來(lái)做造垛,目前深度學(xué)習(xí)解決序列標(biāo)注任務(wù)常用方法包括LSTM+CRF、BiLSTM+CRF等晰搀。
**詞性標(biāo)注任務(wù)數(shù)據(jù)集 **
- 人民日?qǐng)?bào)1998詞性標(biāo)注數(shù)據(jù)集:https://pan.baidu.com/s/1fW908EQmyMv0XB5i0DhVyQ
詞性標(biāo)注工具推薦
-
Jieba:“結(jié)巴”中文分詞:做最好的 Python 中文分詞組件五辽,可以進(jìn)行詞性標(biāo)注。
Github地址:https://github.com/fxsjy/jieba
-
SnowNLP:SnowNLP是一個(gè)python寫的類庫(kù)外恕,可以方便的處理中文文本內(nèi)容杆逗。
Github地址:https://github.com/isnowfy/snownlp
-
THULAC:THULAC(THU Lexical Analyzer for Chinese)由清華大學(xué)自然語(yǔ)言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室研制推出的一套中文詞法分析工具包乡翅,具有中文分詞和詞性標(biāo)注功能。
Github地址:https://github.com/thunlp/THULAC
官網(wǎng):http://thulac.thunlp.org/
-
StanfordCoreNLP:斯坦福的罪郊,具備各種nlp功能蠕蚜,包括詞性標(biāo)注。
-
Hanlp:HanLP是一系列模型與算法組成的NLP工具包排龄,由大快搜索主導(dǎo)并完全開(kāi)源波势,目標(biāo)是普及自然語(yǔ)言處理在生產(chǎn)環(huán)境中的應(yīng)用。
Github地址:https://github.com/hankcs/pyhanlp
官網(wǎng):http://hanlp.linrunsoft.com/
-
NLTK:NLTK是一個(gè)高效的Python構(gòu)建的平臺(tái),用來(lái)處理人類自然語(yǔ)言數(shù)據(jù)橄维。
Github地址:https://github.com/nltk/nltk
官網(wǎng):http://www.nltk.org/
-
SpaCy:工業(yè)級(jí)的自然語(yǔ)言處理工具尺铣,遺憾的是不支持中文。
Gihub地址:https://github.com/explosion/spaCy
官網(wǎng):https://spacy.io/
最新研究進(jìn)展看這里:https://github.com/sebastianruder/NLP-progress/blob/master/english/part-of-speech_tagging.md
參考:
1.統(tǒng)計(jì)自然語(yǔ)言處理