日文分詞
日文分詞是日文文本檢索的基礎(chǔ)党涕。本章分析日文分詞技術(shù)應(yīng)用晒衩。
前言:關(guān)于日文稿件檢索優(yōu)化
檢索技術(shù)水平分三個(gè)等級(jí):字符比對(duì)檢索涌攻、個(gè)性化檢索、語(yǔ)義檢索怀各。目前業(yè)務(wù)系統(tǒng)中所涉及的檢索基本都指的是字符比對(duì)檢索栗竖。
以下探討主要針對(duì)字符比對(duì)檢索。
字符比對(duì)檢索結(jié)果不好渠啤,不僅僅是詞典的問題狐肢,分詞器也很重要。
日文新聞稿件的檢索效果好壞首先看詞典沥曹、其次看分詞器份名、然后看檢索引擎碟联、最后看展現(xiàn)結(jié)果。
編輯對(duì)稿件檢索不滿意僵腺,可以從以上四個(gè)層面找到原因鲤孵,相應(yīng)的可以從以上四個(gè)層面優(yōu)化檢索。
- A層:詞典辰如。
詞典質(zhì)量不好會(huì)影響分詞普监,從而影響檢索結(jié)果。日文詞典有一些免費(fèi)的比如ipadic琉兜、neologd凯正、JMdict等等,也有一些如GSK會(huì)員制收費(fèi)的豌蟋。好的詞典搭配好的分詞器廊散,實(shí)現(xiàn)好的檢索效果。 - B層:分詞器梧疲。
分詞器選的不好會(huì)影響檢索效果允睹。日文開源分詞器最好的是MeCab,其他的也不少幌氮,包括Juman缭受、Juman++、ChaSen该互、Kytea贯涎、TinySegmenter
等。 - C層:檢索引擎慢洋。
在分詞器的上面是檢索引擎,常用的是Eleasticsearch陆盘。也可以選擇別的檢索引擎普筹。檢索引擎會(huì)內(nèi)嵌分詞器。比如新華社的中文稿件檢索Elasticsearch內(nèi)嵌的是ik中文分詞器隘马,中國(guó)日?qǐng)?bào)融媒體采編稿件采編Elasticsearch內(nèi)嵌的是ansj中文分詞器太防。 - D層:檢索結(jié)果呈現(xiàn)。
檢索結(jié)果呈現(xiàn)算法會(huì)影響檢索效果酸员。因?yàn)橥瑯邮菣z索出來100天結(jié)果蜒车,哪個(gè)排在第一條,哪個(gè)排在最后一條幔嗦,需要算法優(yōu)化酿愧,呈現(xiàn)的不好給編輯的
感覺就是檢索系統(tǒng)不準(zhǔn)確。
一邀泉、開源詞典(免費(fèi))
1. ipadic日文詞典(免費(fèi))
ipadic是mecab用的日文詞典嬉挡。2015年3月之后就少有更新維護(hù)了钝鸽,所以有很多次新詞分不出來。而MeCab的新用語(yǔ)詞典(mecab-ipadic-neologd)側(cè)更新的比較及時(shí)彌補(bǔ)了這個(gè)不足庞钢。
2. naist-jdic詞典(免費(fèi))
利用NAIST-jdic作為種子詞典拔恰,RWCテキストコーパス作為語(yǔ)料,用MeCab/ChaSen分詞器可以訓(xùn)練學(xué)習(xí)新詞基括。
3. neologd日文詞典(免費(fèi))
全稱是mecab-ipadic-neologd詞典颜懊,可以和MeCab分詞器搭配使用,可以分出來ipadict標(biāo)準(zhǔn)詞典處理不了的單詞风皿,包含許多新詞河爹。neologd詞典可以轉(zhuǎn)化成JUMAN的格式轉(zhuǎn)換程序github,neologd詞典在JUMAN或者JUMAN++分詞器中也可以使用揪阶。neologd詞典可以和ipadic詞典搭配一起使用昌抠。
MeCab分詞器+neologd詞典進(jìn)行分詞時(shí)的試用代碼例子如下(python):
MeCab分詞器使用neologd詞典(mecab-ipadic-neologd)的開源代碼在github上。MeCab分詞器+neologd詞典github源碼
4. UniDic日文詞典(免費(fèi))
包含現(xiàn)代語(yǔ)用和古典語(yǔ)用兩個(gè)詞典鲁僚。利用UniDic作為種子詞典炊苫,日本語(yǔ)コーパスコアデータ作為語(yǔ)料,用MeCab/ChaSen分詞器可以訓(xùn)練學(xué)習(xí)新詞冰沙。
詞典免費(fèi)下載:[詞典下載](http://unidic.ninjal.ac.jp/download)侨艾。
Demo:使用UniDic詞典分詞效果demo
5. juman(on JUMAN-7.0)/jumandic (on MeCab)日文詞典
利用jumandic作為種子詞典,利用京都大學(xué)テキストコーパス作為語(yǔ)料拓挥,可以訓(xùn)練學(xué)習(xí)新的詞出來唠梨。
6. JMdict日文詞典(免費(fèi))
JMdict或EDICT2是xml格式日語(yǔ)字典文件。JMdict是EDICT2格式的擴(kuò)展侥啤。其版權(quán)屬于EDRD(Electronic Dictionary Research and Development Group)当叭。這個(gè)字典文件每天都會(huì)更新,詞典JMdict詞典FTP下載地址 盖灸。
JMdict字典中日語(yǔ)單詞的格式是xml形式蚁鳖,如下圖:
JMdict的字典數(shù)據(jù)庫(kù)每天都會(huì)更新,每天更新的詞可以在這看到:新詞
JMdict的字典數(shù)據(jù)也提供了一個(gè)檢索接口赁炎,可以搜索醉箕。jmdict詞典檢索 EDICT2字典的一個(gè)開源應(yīng)用EDICT2 github源碼
7. ENAMDICT/JMnedict日文名稱詞典(免費(fèi))
包括日文地名、公司名徙垫、人名讥裤、產(chǎn)品牌名等各種名稱。字典下載地址姻报。
8. KANJIDIC/KANJD212日文漢字詞典(免費(fèi))
9. Canna dic
10. 日本地名詞典
二己英、商用詞典(收費(fèi))
有日本官方、民間團(tuán)體組織吴旋、日本公司正式開發(fā)的一些日本語(yǔ)詞典或語(yǔ)料剧辐。
10. EDR単語(yǔ)辭書(V2.0)
EDR未知語(yǔ)集詞典是日本JSP公司的產(chǎn)品寒亥。可以聯(lián)系這個(gè)公司購(gòu)買荧关,該公司還提供分詞軟件溉奕、NLP日文文本分析軟件等。該公司開發(fā)的Ko-BaKo/J軟件自帶150萬(wàn)詞典忍啤。
11. GSK詞典
[官網(wǎng)](http://www.gsk.or.jp/catalog/)加勤,注冊(cè)GSK會(huì)員可以購(gòu)買很多日本語(yǔ)言類資源。目前該組織也在逐漸把一些詞典資源給開放免費(fèi)同波。其中收費(fèi)的詞典如下[收費(fèi)詞典](http://www.gsk.or.jp/resource/)鳄梅。
三、分詞器
1. MeCab分詞器
基于CRF學(xué)習(xí)模型的分詞器未檩。從機(jī)器學(xué)習(xí)的性能角度看戴尸,基于CRF的MeCab分詞器是最好的≡┙疲基于C++開發(fā)孙蒙,也有python和java接口。 Mecab比較新悲雳,優(yōu)于Juman挎峦、Chasen。mecab-ipadic(ipadic)是日文詞典合瓢,mecab-ipadic-utf8是日文模型坦胶。MeCab分詞器的用戶詞典是csv格式。
MeCab分詞器中使用如下方式設(shè)置要選擇的詞典:
辭書タイプを選びます晴楔。"neologd", "all", "ipadic", "user", ""が選べます顿苇。
mecab_wrapper = JapaneseTokenizer.MecabWrapper(dictType='neologd')
MeCab分詞器可以加載的詞典有neoglod詞典,或者ipadic詞典税弃。
2. neologd分詞器
3. Juman分詞器
Juman/Juman++京都大學(xué)の黒橋?河原研究室開發(fā)的一個(gè)分詞器纪岁。juman分詞器對(duì)單詞的分類比MeCab更細(xì)一些。Juman分詞器和文法分析KNP結(jié)合使用效果很好钙皮。Juman++分詞器和KNP的組合。
使用效果更好顽决。
Juman的分詞體系短条。
Demo試用:Juman分詞器試用1
Demo試用:[Juman分詞器試用2](http://reed.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/juman.cgi)
4. Juman++分詞器
Juman++是2016年以后新出來的分詞器,應(yīng)用了深度學(xué)習(xí)技術(shù)才菠,使用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練茸时。
Demo試用:Juman++分詞器試用
5. ChaSen分詞器
基于HMM學(xué)習(xí)模型的分詞器。chasen分詞器比較老舊了赋访。
ChaSen的分詞體系可都。
6. Kytea分詞器
Kytea的分詞算法和Mecab缓待、Juman都不同。使用了SVM和邏輯回歸算法渠牲。分類器采用的是LIBLINEAR旋炒。附帶了UniDic字典數(shù)據(jù),
Kytea分詞器源碼:github源碼
7. TinySegmenter
用javascript寫的分詞器签杈,可用于web程序的nlp應(yīng)用開發(fā)瘫镇,在瀏覽器中既可以分詞。js分詞器中表現(xiàn)最好的答姥。
原理介紹:論文
源代碼:TinySegmenter分詞器github開源代碼
Demo試用:TinySegmenter分詞器試用
8. kuromoji分詞器
用java寫的分詞器铣除。內(nèi)嵌的是MeCab-ipadic詞典。也支持用戶自定義詞典鹦付。
9. yahoo日文分詞器
以api形式提供分詞服務(wù)尚粘。Restful接口,24小時(shí)內(nèi)請(qǐng)求不能超過5萬(wàn)次敲长。Yahoo日本語(yǔ)形態(tài)素解析
10. Tofu日文分詞器
一個(gè)比MeCab輕量級(jí)的日文分詞器郎嫁,詞典量大約是MeCab的十分之一。.net技術(shù)開發(fā)的潘明,所以只能用在windows環(huán)境下行剂。
11. lgo日文分詞器
java編寫的日文分詞器,字典可以和mecab的字典互換钳降。源代碼
12. Sudachi日文分詞器
新推出的日文分詞器厚宰,比mecab表現(xiàn)還要優(yōu)github源碼。
Sudachi配合Elasticsearch一起使用遂填,使用配置手順
13. 其他開源分詞
- JapaneseTokenizers:github源碼
用python寫的一個(gè)分詞包裝程序铲觉,里面包裝了多個(gè)分詞器,包括Mecab吓坚、Juman撵幽、Juman++、Kytea
四礁击、檢索引擎
elasticsearch(Lucene)
elasticsearch可以帶分詞器插件ik盐杂,ansj等。
五哆窿、語(yǔ)料
京都大學(xué)文本語(yǔ)料
由每日新聞社的4萬(wàn)篇新聞稿件經(jīng)過人工標(biāo)注校對(duì)過后的日語(yǔ)文本語(yǔ)料链烈。可供分詞器juman和文法分析knp使用挚躯。
[語(yǔ)料下載](http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0.tar.gz&name=KyotoCorpus4.0.tar.gz)
京都大學(xué)網(wǎng)絡(luò)文本リード語(yǔ)料
[語(yǔ)料下載](http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KWDLC/download_kwdlc.cgi)强衡。
日本語(yǔ)コーパスコアデータ語(yǔ)料
現(xiàn)時(shí)點(diǎn)では「正式公開版 DVD」に収録されているもの。
RWCテキストコーパス語(yǔ)料
跟NICT或者GSK (言語(yǔ)資源協(xié)會(huì))可以買這個(gè)語(yǔ)料码荔。
10. BCCWJ
『現(xiàn)代日本語(yǔ)書き言葉均衡コーパス』(BCCWJ)漩勤,含1億430萬(wàn)詞量感挥。需要花錢購(gòu)買。
六越败、その他
日文語(yǔ)言NLP關(guān)聯(lián)
國(guó)立國(guó)語(yǔ)研究所コーパス開発センター
言語(yǔ)処理學(xué)會(huì)(The Association for Natural Language Processing)
言語(yǔ)情報(bào)処理ポータル
黒橋河原研究室
ACL
言語(yǔ)資源協(xié)會(huì)(GSK)
GeoNLP
用語(yǔ)中日對(duì)照
- 形態(tài)素解析器:分詞器
- 品詞:?jiǎn)卧~詞類触幼,日文分為“體言(たいげん)”(沒有活用的詞)和“用言(ようげん)”(有活用的詞)。體言包括名詞眉尸,代詞域蜗,數(shù)詞,副詞噪猾,連詞(接続詞せつぞくし)霉祸,連體詞(れんたいし),感嘆詞(感動(dòng)詞かんどうし)袱蜡;用言包括動(dòng)詞丝蹭,形容詞,形容動(dòng)詞
sennchi