日文分詞

日文分詞是日文文本檢索的基礎(chǔ)党涕。本章分析日文分詞技術(shù)應(yīng)用晒衩。

前言：關(guān)于日文稿件檢索優(yōu)化

檢索技術(shù)水平分三個(gè)等級(jí)：字符比對(duì)檢索涌攻、個(gè)性化檢索、語(yǔ)義檢索怀各。目前業(yè)務(wù)系統(tǒng)中所涉及的檢索基本都指的是字符比對(duì)檢索栗竖。
以下探討主要針對(duì)字符比對(duì)檢索。

字符比對(duì)檢索結(jié)果不好渠啤，不僅僅是詞典的問題狐肢，分詞器也很重要。
日文新聞稿件的檢索效果好壞首先看詞典沥曹、其次看分詞器份名、然后看檢索引擎碟联、最后看展現(xiàn)結(jié)果。
編輯對(duì)稿件檢索不滿意僵腺，可以從以上四個(gè)層面找到原因鲤孵，相應(yīng)的可以從以上四個(gè)層面優(yōu)化檢索。

A層：詞典辰如。
詞典質(zhì)量不好會(huì)影響分詞普监，從而影響檢索結(jié)果。日文詞典有一些免費(fèi)的比如ipadic琉兜、neologd凯正、JMdict等等，也有一些如GSK會(huì)員制收費(fèi)的豌蟋。好的詞典搭配好的分詞器廊散，實(shí)現(xiàn)好的檢索效果。
B層：分詞器梧疲。
分詞器選的不好會(huì)影響檢索效果允睹。日文開源分詞器最好的是MeCab，其他的也不少幌氮，包括Juman缭受、Juman++、ChaSen该互、Kytea贯涎、TinySegmenter
等。
C層：檢索引擎慢洋。
在分詞器的上面是檢索引擎，常用的是Eleasticsearch陆盘。也可以選擇別的檢索引擎普筹。檢索引擎會(huì)內(nèi)嵌分詞器。比如新華社的中文稿件檢索Elasticsearch內(nèi)嵌的是ik中文分詞器隘马，中國(guó)日?qǐng)?bào)融媒體采編稿件采編Elasticsearch內(nèi)嵌的是ansj中文分詞器太防。
D層：檢索結(jié)果呈現(xiàn)。
檢索結(jié)果呈現(xiàn)算法會(huì)影響檢索效果酸员。因?yàn)橥瑯邮菣z索出來100天結(jié)果蜒车，哪個(gè)排在第一條，哪個(gè)排在最后一條幔嗦，需要算法優(yōu)化酿愧，呈現(xiàn)的不好給編輯的
感覺就是檢索系統(tǒng)不準(zhǔn)確。

檢索優(yōu)化

一邀泉、開源詞典(免費(fèi))

1. ipadic日文詞典(免費(fèi))

ipadic是mecab用的日文詞典嬉挡。2015年3月之后就少有更新維護(hù)了钝鸽，所以有很多次新詞分不出來。而MeCab的新用語(yǔ)詞典(mecab-ipadic-neologd)側(cè)更新的比較及時(shí)彌補(bǔ)了這個(gè)不足庞钢。

2. naist-jdic詞典(免費(fèi))

利用NAIST-jdic作為種子詞典拔恰，RWCテキストコーパス作為語(yǔ)料，用MeCab/ChaSen分詞器可以訓(xùn)練學(xué)習(xí)新詞基括。

3. neologd日文詞典(免費(fèi))

全稱是mecab-ipadic-neologd詞典颜懊，可以和MeCab分詞器搭配使用，可以分出來ipadict標(biāo)準(zhǔn)詞典處理不了的單詞风皿，包含許多新詞河爹。neologd詞典可以轉(zhuǎn)化成JUMAN的格式轉(zhuǎn)換程序github，neologd詞典在JUMAN或者JUMAN++分詞器中也可以使用揪阶。neologd詞典可以和ipadic詞典搭配一起使用昌抠。
MeCab分詞器+neologd詞典進(jìn)行分詞時(shí)的試用代碼例子如下(python)：

mecab-neologd

MeCab分詞器使用neologd詞典(mecab-ipadic-neologd)的開源代碼在github上。MeCab分詞器+neologd詞典github源碼

4. UniDic日文詞典(免費(fèi))

包含現(xiàn)代語(yǔ)用和古典語(yǔ)用兩個(gè)詞典鲁僚。利用UniDic作為種子詞典炊苫，日本語(yǔ)コーパスコアデータ作為語(yǔ)料，用MeCab/ChaSen分詞器可以訓(xùn)練學(xué)習(xí)新詞冰沙。
詞典免費(fèi)下載：[詞典下載](http://unidic.ninjal.ac.jp/download）侨艾。
Demo：使用UniDic詞典分詞效果demo

5. juman(on JUMAN-7.0)/jumandic (on MeCab)日文詞典

利用jumandic作為種子詞典，利用京都大學(xué)テキストコーパス作為語(yǔ)料拓挥，可以訓(xùn)練學(xué)習(xí)新的詞出來唠梨。

6. JMdict日文詞典(免費(fèi))

JMdict或EDICT2是xml格式日語(yǔ)字典文件。JMdict是EDICT2格式的擴(kuò)展侥啤。其版權(quán)屬于EDRD（Electronic Dictionary Research and Development Group）当叭。這個(gè)字典文件每天都會(huì)更新，詞典JMdict詞典FTP下載地址盖灸。
JMdict字典中日語(yǔ)單詞的格式是xml形式蚁鳖，如下圖：

JMdict字典格式

JMdict的字典數(shù)據(jù)庫(kù)每天都會(huì)更新，每天更新的詞可以在這看到：新詞
JMdict的字典數(shù)據(jù)也提供了一個(gè)檢索接口赁炎，可以搜索醉箕。jmdict詞典檢索 EDICT2字典的一個(gè)開源應(yīng)用EDICT2 github源碼

7. ENAMDICT/JMnedict日文名稱詞典(免費(fèi))

包括日文地名、公司名徙垫、人名讥裤、產(chǎn)品牌名等各種名稱。字典下載地址姻报。

8. KANJIDIC/KANJD212日文漢字詞典(免費(fèi))

下載地址

9. Canna dic

下載地址

10. 日本地名詞典

日本地名大全：下載
日本の郡?市區(qū)町村:下載

二己英、商用詞典(收費(fèi))

有日本官方、民間團(tuán)體組織吴旋、日本公司正式開發(fā)的一些日本語(yǔ)詞典或語(yǔ)料剧辐。

10. EDR単語(yǔ)辭書(V2.0)

EDR未知語(yǔ)集詞典是日本JSP公司的產(chǎn)品寒亥。可以聯(lián)系這個(gè)公司購(gòu)買荧关，該公司還提供分詞軟件溉奕、NLP日文文本分析軟件等。該公司開發(fā)的Ko-BaKo/J軟件自帶150萬(wàn)詞典忍啤。

11. GSK詞典

[官網(wǎng)]（http://www.gsk.or.jp/catalog/）加勤，注冊(cè)GSK會(huì)員可以購(gòu)買很多日本語(yǔ)言類資源。目前該組織也在逐漸把一些詞典資源給開放免費(fèi)同波。其中收費(fèi)的詞典如下[收費(fèi)詞典]（http://www.gsk.or.jp/resource/）鳄梅。

三、分詞器

1. MeCab分詞器

基于CRF學(xué)習(xí)模型的分詞器未檩。從機(jī)器學(xué)習(xí)的性能角度看戴尸，基于CRF的MeCab分詞器是最好的≡┙疲基于C++開發(fā)孙蒙，也有python和java接口。 Mecab比較新悲雳，優(yōu)于Juman挎峦、Chasen。mecab-ipadic（ipadic）是日文詞典合瓢，mecab-ipadic-utf8是日文模型坦胶。MeCab分詞器的用戶詞典是csv格式。
MeCab分詞器中使用如下方式設(shè)置要選擇的詞典：
辭書タイプを選びます晴楔。"neologd", "all", "ipadic", "user", ""が選べます顿苇。
mecab_wrapper = JapaneseTokenizer.MecabWrapper(dictType='neologd')
MeCab分詞器可以加載的詞典有neoglod詞典，或者ipadic詞典税弃。

2. neologd分詞器

github源碼

3. Juman分詞器

Juman/Juman++京都大學(xué)の黒橋?河原研究室開發(fā)的一個(gè)分詞器纪岁。juman分詞器對(duì)單詞的分類比MeCab更細(xì)一些。Juman分詞器和文法分析KNP結(jié)合使用效果很好钙皮。Juman++分詞器和KNP的組合。
使用效果更好顽决。
Juman的分詞體系短条。
Demo試用：Juman分詞器試用1
Demo試用：[Juman分詞器試用2](http://reed.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/juman.cgi）

4. Juman++分詞器

Juman++是2016年以后新出來的分詞器，應(yīng)用了深度學(xué)習(xí)技術(shù)才菠，使用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練茸时。
Demo試用：Juman++分詞器試用

5. ChaSen分詞器

基于HMM學(xué)習(xí)模型的分詞器。chasen分詞器比較老舊了赋访。
ChaSen的分詞體系可都。

6. Kytea分詞器

Kytea的分詞算法和Mecab缓待、Juman都不同。使用了SVM和邏輯回歸算法渠牲。分類器采用的是LIBLINEAR旋炒。附帶了UniDic字典數(shù)據(jù)，
Kytea分詞器源碼：github源碼

7. TinySegmenter

用javascript寫的分詞器签杈，可用于web程序的nlp應(yīng)用開發(fā)瘫镇，在瀏覽器中既可以分詞。js分詞器中表現(xiàn)最好的答姥。
原理介紹：論文
源代碼：TinySegmenter分詞器github開源代碼
Demo試用：TinySegmenter分詞器試用

8. kuromoji分詞器

用java寫的分詞器铣除。內(nèi)嵌的是MeCab-ipadic詞典。也支持用戶自定義詞典鹦付。

9. yahoo日文分詞器

以api形式提供分詞服務(wù)尚粘。Restful接口，24小時(shí)內(nèi)請(qǐng)求不能超過5萬(wàn)次敲长。Yahoo日本語(yǔ)形態(tài)素解析

10. Tofu日文分詞器

一個(gè)比MeCab輕量級(jí)的日文分詞器郎嫁，詞典量大約是MeCab的十分之一。.net技術(shù)開發(fā)的潘明，所以只能用在windows環(huán)境下行剂。

11. lgo日文分詞器

java編寫的日文分詞器，字典可以和mecab的字典互換钳降。源代碼

12. Sudachi日文分詞器

新推出的日文分詞器厚宰，比mecab表現(xiàn)還要優(yōu)github源碼。
Sudachi配合Elasticsearch一起使用遂填，使用配置手順

13. 其他開源分詞

JapaneseTokenizers:github源碼
用python寫的一個(gè)分詞包裝程序铲觉，里面包裝了多個(gè)分詞器，包括Mecab吓坚、Juman撵幽、Juman++、Kytea

四礁击、檢索引擎

elasticsearch（Lucene）

elasticsearch可以帶分詞器插件ik盐杂，ansj等。

五哆窿、語(yǔ)料

京都大學(xué)文本語(yǔ)料

由每日新聞社的4萬(wàn)篇新聞稿件經(jīng)過人工標(biāo)注校對(duì)過后的日語(yǔ)文本語(yǔ)料链烈。可供分詞器juman和文法分析knp使用挚躯。
[語(yǔ)料下載]（http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0.tar.gz&name=KyotoCorpus4.0.tar.gz）

京都大學(xué)網(wǎng)絡(luò)文本リード語(yǔ)料

[語(yǔ)料下載]（http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KWDLC/download_kwdlc.cgi）强衡。

日本語(yǔ)コーパスコアデータ語(yǔ)料

現(xiàn)時(shí)點(diǎn)では「正式公開版 DVD」に収録されているもの。

RWCテキストコーパス語(yǔ)料

跟NICT或者GSK (言語(yǔ)資源協(xié)會(huì))可以買這個(gè)語(yǔ)料码荔。

10. BCCWJ

『現(xiàn)代日本語(yǔ)書き言葉均衡コーパス』(BCCWJ)漩勤，含１億430萬(wàn)詞量感挥。需要花錢購(gòu)買。

六越败、その他

日文語(yǔ)言NLP關(guān)聯(lián)

國(guó)立國(guó)語(yǔ)研究所コーパス開発センター
 言語(yǔ)処理學(xué)會(huì)(The Association for Natural Language Processing)
言語(yǔ)情報(bào)処理ポータル
 黒橋河原研究室
 ACL
言語(yǔ)資源協(xié)會(huì)(GSK)
GeoNLP

用語(yǔ)中日對(duì)照

形態(tài)素解析器：分詞器
品詞：?jiǎn)卧~詞類触幼，日文分為“體言（たいげん）”（沒有活用的詞）和“用言（ようげん）”（有活用的詞）。體言包括名詞眉尸，代詞域蜗，數(shù)詞，副詞噪猾，連詞（接続詞せつぞくし）霉祸，連體詞（れんたいし），感嘆詞（感動(dòng)詞かんどうし）袱蜡；用言包括動(dòng)詞丝蹭，形容詞，形容動(dòng)詞

sennchi

最后編輯于：2018.01.25 21:57:21

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末坪蚁，一起剝皮案震驚了整個(gè)濱河市奔穿，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌敏晤，老刑警劉巖贱田，帶你破解...
沈念sama閱讀 216,496評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異嘴脾，居然都是意外死亡男摧，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,407評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門译打，熙熙樓的掌柜王于貴愁眉苦臉地迎上來耗拓，“玉大人，你說我怎么就攤上這事奏司∏茄” “怎么了？”我有些...
開封第一講書人閱讀 162,632評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵韵洋，是天一觀的道長(zhǎng)竿刁。經(jīng)常有香客問我，道長(zhǎng)搪缨，這世上最難降的妖魔是什么食拜？我笑而不...
開封第一講書人閱讀 58,180評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮勉吻，結(jié)果婚禮上监婶，老公的妹妹穿的比我還像新娘旅赢。我一直安慰自己齿桃，他們只是感情好惑惶，可當(dāng)我...
茶點(diǎn)故事閱讀 67,198評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著短纵，像睡著了一般带污。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上香到，一...
開封第一講書人閱讀 51,165評(píng)論 1贊 299
城市分裂傳說
那天鱼冀，我揣著相機(jī)與錄音，去河邊找鬼悠就。笑死千绪，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的梗脾。我是一名探鬼主播荸型，決...
沈念sama閱讀 40,052評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼炸茧！你這毒婦竟也來了瑞妇？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,910評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤梭冠，失蹤者是張志新（化名）和其女友劉穎辕狰，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體控漠，經(jīng)...
沈念sama閱讀 45,324評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡蔓倍，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,542評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了润脸。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柬脸。...
茶點(diǎn)故事閱讀 39,711評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖毙驯，靈堂內(nèi)的尸體忽然破棺而出倒堕，到底是詐尸還是另有隱情，我是刑警寧澤爆价，帶...
沈念sama閱讀 35,424評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布垦巴，位于F島的核電站，受9級(jí)特大地震影響铭段，放射性物質(zhì)發(fā)生泄漏骤宣。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,017評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一序愚、第九天我趴在偏房一處隱蔽的房頂上張望憔披。院中可真熱鬧，春花似錦、人聲如沸芬膝。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,668評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)锰霜。三九已至筹误，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間癣缅，已是汗流浹背厨剪。一陣腳步聲響...
開封第一講書人閱讀 32,823評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留友存，地道東北人祷膳。一個(gè)月前我還...
沈念sama閱讀 47,722評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像屡立，于是被迫代替她去往敵國(guó)和親钾唬。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,611評(píng)論 2贊 353

日文分詞

日文分詞

前言：關(guān)于日文稿件檢索優(yōu)化

一邀泉、開源詞典(免費(fèi))

1. ipadic日文詞典(免費(fèi))

2. naist-jdic詞典(免費(fèi))

3. neologd日文詞典(免費(fèi))

4. UniDic日文詞典(免費(fèi))

5. juman(on JUMAN-7.0)/jumandic (on MeCab)日文詞典

6. JMdict日文詞典(免費(fèi))

7. ENAMDICT/JMnedict日文名稱詞典(免費(fèi))

8. KANJIDIC/KANJD212日文漢字詞典(免費(fèi))

9. Canna dic

10. 日本地名詞典

二己英、商用詞典(收費(fèi))

10. EDR単語(yǔ)辭書(V2.0)

11. GSK詞典

三、分詞器

1. MeCab分詞器

2. neologd分詞器

3. Juman分詞器

4. Juman++分詞器

5. ChaSen分詞器

6. Kytea分詞器

7. TinySegmenter

8. kuromoji分詞器

9. yahoo日文分詞器

10. Tofu日文分詞器

11. lgo日文分詞器

12. Sudachi日文分詞器

13. 其他開源分詞

四礁击、檢索引擎

elasticsearch（Lucene）

五哆窿、語(yǔ)料

京都大學(xué)文本語(yǔ)料

京都大學(xué)網(wǎng)絡(luò)文本リード語(yǔ)料

日本語(yǔ)コーパスコアデータ語(yǔ)料

RWCテキストコーパス語(yǔ)料

10. BCCWJ

六越败、その他

日文語(yǔ)言NLP關(guān)聯(lián)

用語(yǔ)中日對(duì)照

推薦閱讀更多精彩內(nèi)容