日文分詞

日文分詞

日文分詞是日文文本檢索的基礎(chǔ)党涕。本章分析日文分詞技術(shù)應(yīng)用晒衩。

前言:關(guān)于日文稿件檢索優(yōu)化

檢索技術(shù)水平分三個(gè)等級(jí):字符比對(duì)檢索涌攻、個(gè)性化檢索、語(yǔ)義檢索怀各。目前業(yè)務(wù)系統(tǒng)中所涉及的檢索基本都指的是字符比對(duì)檢索栗竖。
以下探討主要針對(duì)字符比對(duì)檢索。

字符比對(duì)檢索結(jié)果不好渠啤,不僅僅是詞典的問題狐肢,分詞器也很重要。
日文新聞稿件的檢索效果好壞首先看詞典沥曹、其次看分詞器份名、然后看檢索引擎碟联、最后看展現(xiàn)結(jié)果。
編輯對(duì)稿件檢索不滿意僵腺,可以從以上四個(gè)層面找到原因鲤孵,相應(yīng)的可以從以上四個(gè)層面優(yōu)化檢索。

  • A層:詞典辰如。
    詞典質(zhì)量不好會(huì)影響分詞普监,從而影響檢索結(jié)果。日文詞典有一些免費(fèi)的比如ipadic琉兜、neologd凯正、JMdict等等,也有一些如GSK會(huì)員制收費(fèi)的豌蟋。好的詞典搭配好的分詞器廊散,實(shí)現(xiàn)好的檢索效果。
  • B層:分詞器梧疲。
    分詞器選的不好會(huì)影響檢索效果允睹。日文開源分詞器最好的是MeCab,其他的也不少幌氮,包括Juman缭受、Juman++、ChaSen该互、Kytea贯涎、TinySegmenter
    等。
  • C層:檢索引擎慢洋。
    在分詞器的上面是檢索引擎,常用的是Eleasticsearch陆盘。也可以選擇別的檢索引擎普筹。檢索引擎會(huì)內(nèi)嵌分詞器。比如新華社的中文稿件檢索Elasticsearch內(nèi)嵌的是ik中文分詞器隘马,中國(guó)日?qǐng)?bào)融媒體采編稿件采編Elasticsearch內(nèi)嵌的是ansj中文分詞器太防。
  • D層:檢索結(jié)果呈現(xiàn)。
    檢索結(jié)果呈現(xiàn)算法會(huì)影響檢索效果酸员。因?yàn)橥瑯邮菣z索出來100天結(jié)果蜒车,哪個(gè)排在第一條,哪個(gè)排在最后一條幔嗦,需要算法優(yōu)化酿愧,呈現(xiàn)的不好給編輯的
    感覺就是檢索系統(tǒng)不準(zhǔn)確。
    檢索優(yōu)化

一邀泉、開源詞典(免費(fèi))

1. ipadic日文詞典(免費(fèi))

ipadic是mecab用的日文詞典嬉挡。2015年3月之后就少有更新維護(hù)了钝鸽,所以有很多次新詞分不出來。而MeCab的新用語(yǔ)詞典(mecab-ipadic-neologd)側(cè)更新的比較及時(shí)彌補(bǔ)了這個(gè)不足庞钢。

2. naist-jdic詞典(免費(fèi))

利用NAIST-jdic作為種子詞典拔恰,RWCテキストコーパス作為語(yǔ)料,用MeCab/ChaSen分詞器可以訓(xùn)練學(xué)習(xí)新詞基括。

3. neologd日文詞典(免費(fèi))

全稱是mecab-ipadic-neologd詞典颜懊,可以和MeCab分詞器搭配使用,可以分出來ipadict標(biāo)準(zhǔn)詞典處理不了的單詞风皿,包含許多新詞河爹。neologd詞典可以轉(zhuǎn)化成JUMAN的格式轉(zhuǎn)換程序github,neologd詞典在JUMAN或者JUMAN++分詞器中也可以使用揪阶。neologd詞典可以和ipadic詞典搭配一起使用昌抠。
MeCab分詞器+neologd詞典進(jìn)行分詞時(shí)的試用代碼例子如下(python):

mecab-neologd

MeCab分詞器使用neologd詞典(mecab-ipadic-neologd)的開源代碼在github上。MeCab分詞器+neologd詞典github源碼

4. UniDic日文詞典(免費(fèi))

包含現(xiàn)代語(yǔ)用和古典語(yǔ)用兩個(gè)詞典鲁僚。利用UniDic作為種子詞典炊苫,日本語(yǔ)コーパスコアデータ作為語(yǔ)料,用MeCab/ChaSen分詞器可以訓(xùn)練學(xué)習(xí)新詞冰沙。
詞典免費(fèi)下載:[詞典下載](http://unidic.ninjal.ac.jp/download)侨艾。
Demo:使用UniDic詞典分詞效果demo

5. juman(on JUMAN-7.0)/jumandic (on MeCab)日文詞典

利用jumandic作為種子詞典,利用京都大學(xué)テキストコーパス作為語(yǔ)料拓挥,可以訓(xùn)練學(xué)習(xí)新的詞出來唠梨。

6. JMdict日文詞典(免費(fèi))

JMdict或EDICT2是xml格式日語(yǔ)字典文件。JMdict是EDICT2格式的擴(kuò)展侥啤。其版權(quán)屬于EDRD(Electronic Dictionary Research and Development Group)当叭。這個(gè)字典文件每天都會(huì)更新,詞典JMdict詞典FTP下載地址 盖灸。
JMdict字典中日語(yǔ)單詞的格式是xml形式蚁鳖,如下圖:

JMdict字典格式

JMdict的字典數(shù)據(jù)庫(kù)每天都會(huì)更新,每天更新的詞可以在這看到:新詞
JMdict的字典數(shù)據(jù)也提供了一個(gè)檢索接口赁炎,可以搜索醉箕。jmdict詞典檢索 EDICT2字典的一個(gè)開源應(yīng)用EDICT2 github源碼

7. ENAMDICT/JMnedict日文名稱詞典(免費(fèi))

包括日文地名、公司名徙垫、人名讥裤、產(chǎn)品牌名等各種名稱。字典下載地址姻报。

8. KANJIDIC/KANJD212日文漢字詞典(免費(fèi))

下載地址

9. Canna dic

下載地址

10. 日本地名詞典

日本地名大全:下載
日本の郡?市區(qū)町村:下載

二己英、商用詞典(收費(fèi))

有日本官方、民間團(tuán)體組織吴旋、日本公司正式開發(fā)的一些日本語(yǔ)詞典或語(yǔ)料剧辐。

10. EDR単語(yǔ)辭書(V2.0)

EDR未知語(yǔ)集詞典是日本JSP公司的產(chǎn)品寒亥。可以聯(lián)系這個(gè)公司購(gòu)買荧关,該公司還提供分詞軟件溉奕、NLP日文文本分析軟件等。該公司開發(fā)的Ko-BaKo/J軟件自帶150萬(wàn)詞典忍啤。

11. GSK詞典

[官網(wǎng)](http://www.gsk.or.jp/catalog/)加勤,注冊(cè)GSK會(huì)員可以購(gòu)買很多日本語(yǔ)言類資源。目前該組織也在逐漸把一些詞典資源給開放免費(fèi)同波。其中收費(fèi)的詞典如下[收費(fèi)詞典](http://www.gsk.or.jp/resource/)鳄梅。

三、分詞器

1. MeCab分詞器

基于CRF學(xué)習(xí)模型的分詞器未檩。從機(jī)器學(xué)習(xí)的性能角度看戴尸,基于CRF的MeCab分詞器是最好的≡┙疲基于C++開發(fā)孙蒙,也有python和java接口。 Mecab比較新悲雳,優(yōu)于Juman挎峦、Chasen。mecab-ipadic(ipadic)是日文詞典合瓢,mecab-ipadic-utf8是日文模型坦胶。MeCab分詞器的用戶詞典是csv格式。
MeCab分詞器中使用如下方式設(shè)置要選擇的詞典:
辭書タイプを選びます晴楔。"neologd", "all", "ipadic", "user", ""が選べます顿苇。
mecab_wrapper = JapaneseTokenizer.MecabWrapper(dictType='neologd')
MeCab分詞器可以加載的詞典有neoglod詞典,或者ipadic詞典税弃。

2. neologd分詞器

github源碼

3. Juman分詞器

Juman/Juman++京都大學(xué)の黒橋?河原研究室開發(fā)的一個(gè)分詞器纪岁。juman分詞器對(duì)單詞的分類比MeCab更細(xì)一些。Juman分詞器和文法分析KNP結(jié)合使用效果很好钙皮。Juman++分詞器和KNP的組合。
使用效果更好顽决。
Juman的分詞體系短条。
Demo試用:Juman分詞器試用1
Demo試用:[Juman分詞器試用2](http://reed.kuee.kyoto-u.ac.jp/nl-resource/cgi-bin/juman.cgi

4. Juman++分詞器

Juman++是2016年以后新出來的分詞器,應(yīng)用了深度學(xué)習(xí)技術(shù)才菠,使用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練茸时。
Demo試用:Juman++分詞器試用

5. ChaSen分詞器

基于HMM學(xué)習(xí)模型的分詞器。chasen分詞器比較老舊了赋访。
ChaSen的分詞體系可都。

6. Kytea分詞器

Kytea的分詞算法和Mecab缓待、Juman都不同。使用了SVM和邏輯回歸算法渠牲。分類器采用的是LIBLINEAR旋炒。附帶了UniDic字典數(shù)據(jù),
Kytea分詞器源碼:github源碼

7. TinySegmenter

用javascript寫的分詞器签杈,可用于web程序的nlp應(yīng)用開發(fā)瘫镇,在瀏覽器中既可以分詞。js分詞器中表現(xiàn)最好的答姥。
原理介紹:論文
源代碼:TinySegmenter分詞器github開源代碼
Demo試用:TinySegmenter分詞器試用

8. kuromoji分詞器

用java寫的分詞器铣除。內(nèi)嵌的是MeCab-ipadic詞典。也支持用戶自定義詞典鹦付。

9. yahoo日文分詞器

以api形式提供分詞服務(wù)尚粘。Restful接口,24小時(shí)內(nèi)請(qǐng)求不能超過5萬(wàn)次敲长。Yahoo日本語(yǔ)形態(tài)素解析

10. Tofu日文分詞器

一個(gè)比MeCab輕量級(jí)的日文分詞器郎嫁,詞典量大約是MeCab的十分之一。.net技術(shù)開發(fā)的潘明,所以只能用在windows環(huán)境下行剂。

11. lgo日文分詞器

java編寫的日文分詞器,字典可以和mecab的字典互換钳降。源代碼

12. Sudachi日文分詞器

新推出的日文分詞器厚宰,比mecab表現(xiàn)還要優(yōu)github源碼
Sudachi配合Elasticsearch一起使用遂填,使用配置手順

13. 其他開源分詞

  • JapaneseTokenizers:github源碼
    用python寫的一個(gè)分詞包裝程序铲觉,里面包裝了多個(gè)分詞器,包括Mecab吓坚、Juman撵幽、Juman++、Kytea

四礁击、檢索引擎

elasticsearch(Lucene)

elasticsearch可以帶分詞器插件ik盐杂,ansj等。

五哆窿、語(yǔ)料

京都大學(xué)文本語(yǔ)料

由每日新聞社的4萬(wàn)篇新聞稿件經(jīng)過人工標(biāo)注校對(duì)過后的日語(yǔ)文本語(yǔ)料链烈。可供分詞器juman和文法分析knp使用挚躯。
[語(yǔ)料下載](http://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/corpus/KyotoCorpus4.0.tar.gz&name=KyotoCorpus4.0.tar.gz

京都大學(xué)網(wǎng)絡(luò)文本リード語(yǔ)料

[語(yǔ)料下載](http://nlp.ist.i.kyoto-u.ac.jp/nl-resource/KWDLC/download_kwdlc.cgi)强衡。

日本語(yǔ)コーパスコアデータ語(yǔ)料

現(xiàn)時(shí)點(diǎn)では「正式公開版 DVD」に収録されているもの。

RWCテキストコーパス語(yǔ)料

跟NICT或者GSK (言語(yǔ)資源協(xié)會(huì))可以買這個(gè)語(yǔ)料码荔。

10. BCCWJ

『現(xiàn)代日本語(yǔ)書き言葉均衡コーパス』(BCCWJ)漩勤,含1億430萬(wàn)詞量感挥。需要花錢購(gòu)買。

六越败、その他

日文語(yǔ)言NLP關(guān)聯(lián)

國(guó)立國(guó)語(yǔ)研究所コーパス開発センター
言語(yǔ)処理學(xué)會(huì)(The Association for Natural Language Processing)
言語(yǔ)情報(bào)処理ポータル
黒橋河原研究室
ACL
言語(yǔ)資源協(xié)會(huì)(GSK)
GeoNLP

用語(yǔ)中日對(duì)照

  • 形態(tài)素解析器:分詞器
  • 品詞:?jiǎn)卧~詞類触幼,日文分為“體言(たいげん)”(沒有活用的詞)和“用言(ようげん)”(有活用的詞)。體言包括名詞眉尸,代詞域蜗,數(shù)詞,副詞噪猾,連詞(接続詞せつぞくし)霉祸,連體詞(れんたいし),感嘆詞(感動(dòng)詞かんどうし)袱蜡;用言包括動(dòng)詞丝蹭,形容詞,形容動(dòng)詞

sennchi

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末坪蚁,一起剝皮案震驚了整個(gè)濱河市奔穿,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌敏晤,老刑警劉巖贱田,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異嘴脾,居然都是意外死亡男摧,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門译打,熙熙樓的掌柜王于貴愁眉苦臉地迎上來耗拓,“玉大人,你說我怎么就攤上這事奏司∏茄” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵韵洋,是天一觀的道長(zhǎng)竿刁。 經(jīng)常有香客問我,道長(zhǎng)搪缨,這世上最難降的妖魔是什么食拜? 我笑而不...
    開封第一講書人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮勉吻,結(jié)果婚禮上监婶,老公的妹妹穿的比我還像新娘旅赢。我一直安慰自己齿桃,他們只是感情好惑惶,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著短纵,像睡著了一般带污。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上香到,一...
    開封第一講書人閱讀 51,165評(píng)論 1 299
  • 那天鱼冀,我揣著相機(jī)與錄音,去河邊找鬼悠就。 笑死千绪,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的梗脾。 我是一名探鬼主播荸型,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼炸茧!你這毒婦竟也來了瑞妇?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤梭冠,失蹤者是張志新(化名)和其女友劉穎辕狰,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體控漠,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蔓倍,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了润脸。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片柬脸。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖毙驯,靈堂內(nèi)的尸體忽然破棺而出倒堕,到底是詐尸還是另有隱情,我是刑警寧澤爆价,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布垦巴,位于F島的核電站,受9級(jí)特大地震影響铭段,放射性物質(zhì)發(fā)生泄漏骤宣。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一序愚、第九天 我趴在偏房一處隱蔽的房頂上張望憔披。 院中可真熱鬧,春花似錦、人聲如沸芬膝。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)锰霜。三九已至筹误,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間癣缅,已是汗流浹背厨剪。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留友存,地道東北人祷膳。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像屡立,于是被迫代替她去往敵國(guó)和親钾唬。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 1.暗闇より夜魔來たる-1あなたはきっとこんな私をお許しにはならないでしょう…ですが侠驯、私はあなたを守る以外の何かを...
    波沙諾瓦閱讀 3,257評(píng)論 0 7
  • 1.暗闇より夜魔來たる-1あなたはきっとこんな私をお許しにはならないでしょう…ですが抡秆、私はあなたを守る以外の何かを...
    波沙諾瓦閱讀 1,925評(píng)論 1 2
  • はくし(博士)じっそう(実裝)= implementation /??mpl?men'te??n/ = 實(shí)現(xiàn) 11...
    歷奇閱讀 375評(píng)論 0 0
  • 40 私の全財(cái)産は100元だけです。 (我全部的財(cái)產(chǎn)只有100元吟策。) あなただけは許せない儒士! (只有你我無法原諒!...
    歷奇閱讀 317評(píng)論 0 0
  • 做任何事情都要有產(chǎn)出,我們的訓(xùn)戰(zhàn)結(jié)合也不例外匾委,其實(shí)在剛到惠州的時(shí)候拖叙,就已經(jīng)知道了我們的任務(wù)——每個(gè)小組針對(duì)本組的課...
    fanta_1222閱讀 500評(píng)論 0 0