聲明:資源全部源自網(wǎng)絡(luò),如有侵權(quán)匀谣,請聯(lián)系我將及時刪除照棋。
最近在網(wǎng)上找語料,多比較雜亂不全振定,所以這里做一次整理必怜,方便大家。
如果大家手里有可以分享的語料資源后频,歡迎分享出來梳庆,我會一并整理到此文。
2015-10-24 : 初版
中文語料卑惜,我把它們分為這樣幾種膏执;
1. 原始語料,比如某某新聞露久,微博合集更米,一些未經(jīng)處理的原始語料;
這個是xml格式毫痕,包含很多meta
2. 分詞庫(語料)征峦,最常見的比如搜狗分詞庫迟几,結(jié)巴詞庫;
這種詞庫比較好找栏笆,也比較雜亂类腮,這里我整理了幾個不錯的,在這里:all@百度盤
此處盡量按照『文本組成@詞數(shù)量_出處』格式進行文件命名蛉加,如下:
分詞詞庫列表
- 這里比較推薦
分詞_頻數(shù)_詞性@35萬_結(jié)巴.txt
和分詞_拼音@4萬_搜狗.txt
兩個詞庫蚜枢。如果你有一些比如拼音
需求,也可以選擇對應(yīng)文本针饥;- 需要注意的一點是厂抽,有一個
分類_分詞@12大類5485文本1127萬_搜狗.20151022.tar.gz
文件,這個是搜狗細胞詞庫所有的詞了丁眼,里面包含非常多的各行業(yè)詞匯筷凤,如下圖,在針對特定行業(yè)ML時候苞七,這些分詞應(yīng)該是比較有幫助的嵌施,特別是帶有【官方推薦】
名字的,都非常不錯莽鸭。
分類_分詞@12大類5485文本1127萬_搜狗.20151022.tar.gz
3. 詞性標注庫(語料),比如98年人民日報詞性標注庫@百度盤吃靠;
此處盡量按照『詞性標注@行數(shù)量_出處』格式進行文件命名硫眨。
相較于上面兩種語料,此語料人工標注成本太高巢块,所以也比較少礁阁。目前我也只有98年人民日報詞性標注庫。不過網(wǎng)上說人民日報2014年詞性標注庫也已經(jīng)有了族奢,但是需要授權(quán)姥闭,我也沒拿到。
98年人民日報詞性標注庫
需要說明的幾點:
- 除了維基中文dump(比較大)是在他們服務(wù)器上越走,其他我都整理在了我的百度盤上了棚品,大家自行使用。
- 對于分類1中的語料庫廊敌,大家可以嘗試從數(shù)據(jù)堂找到更多資源铜跑。
我的中文文本語料庫百度盤:http://pan.baidu.com/s/1gdJJ1FP
update:
- 保險行業(yè)語料庫 (by@3a33c371b8c4)
另:博主建了一個NLP的QQ群,希望有興趣的朋友加入骡澈,群號: 451175756