中文自然語(yǔ)言處理開(kāi)放平臺(tái)
由中國(guó)科學(xué)院計(jì)算技術(shù)研究所·數(shù)字化室&軟件室創(chuàng)立一個(gè)研究自然語(yǔ)言處理的一個(gè)平臺(tái),里面包含有大量的訓(xùn)練測(cè)試語(yǔ)料澜沟。?
語(yǔ)料庫(kù):http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15?
文本語(yǔ)料庫(kù):http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15
sogou文本分類(lèi)語(yǔ)料庫(kù)
文本分類(lèi)語(yǔ)料庫(kù)來(lái)源于Sohu新聞網(wǎng)站保存的大量經(jīng)過(guò)編輯手工整理與分類(lèi)的新聞?wù)Z料與對(duì)應(yīng)的分類(lèi)信息。其分類(lèi)體系包括幾十個(gè)分類(lèi)節(jié)點(diǎn)巢墅,網(wǎng)頁(yè)規(guī)模約為十萬(wàn)篇文檔。
地址:http://www.sogou.com/labs/dl/c.html
中文Web信息檢索論壇
中文Web信息檢索論壇(Chinese Web Information Retrieval Forum,簡(jiǎn)稱(chēng)CWIRF)是由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室從2004年6月起建立并維護(hù)的以大規(guī)模中文Web信息為測(cè)試集的信息檢索研究論壇遮晚。
CWT(Chinese Web Test collection, 中文Web測(cè)試集):
ComPaper10th?
Computer Paper collection with more than 10 thousand papers?
CWT70th?
? ? ?Chinese Web Test collection with 70 thousand pages?
CWT200g?
? ? ?Chinese Web Test collection with 200 GB web pages.?
中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集
CCT2006
2006年3月中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集CCT2006, 編號(hào)YQ-CCT-2006-03. 根據(jù)常見(jiàn)的新聞?lì)悇e而設(shè)定的分類(lèi)體系,從新聞網(wǎng)站上抓取得到對(duì)應(yīng) 類(lèi)別的新聞網(wǎng)頁(yè)作為訓(xùn)練集頁(yè)面拦止。它包括960個(gè)訓(xùn)練網(wǎng)頁(yè)和240個(gè)測(cè)試網(wǎng)頁(yè)县遣, 分布在8個(gè)類(lèi)別中。下載?
CCT2002-v1.1
2002年中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集CCT2002-v1.1, 編號(hào)YQ-WEBBENCH-V1.1,說(shuō)明汹族。 是在CCT2002-v1.0 的基礎(chǔ)上對(duì)類(lèi)別進(jìn)行了部分修正. 是2002年秋天北京大學(xué)網(wǎng)絡(luò)與分布式實(shí)驗(yàn)室天網(wǎng)小組通過(guò)動(dòng)員不同專(zhuān)業(yè)的幾十個(gè)學(xué)生萧求, 人工選取形成了一個(gè)全新的基于層次模型的大規(guī)模中文網(wǎng)頁(yè)樣本集。 它包括11678個(gè)訓(xùn)練網(wǎng)頁(yè)實(shí)例和3630個(gè)測(cè)試網(wǎng)頁(yè)實(shí)例顶瞒,分布在11個(gè)大類(lèi)別中饭聚。下載
-----------------------
下面提供一些網(wǎng)上能下載到的中文的好語(yǔ)料搁拙,供研究人員學(xué)習(xí)使用秒梳。
(1).中科院自動(dòng)化所的中英文新聞?wù)Z料庫(kù)http://www.datatang.com/data/13484
中文新聞分類(lèi)語(yǔ)料庫(kù)從鳳凰、新浪箕速、網(wǎng)易酪碘、騰訊等版面搜集。英語(yǔ)新聞分類(lèi)語(yǔ)料庫(kù)為Reuters-21578的ModApte版本盐茎。
(2).搜狗的中文新聞?wù)Z料庫(kù)http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新聞?wù)Z料與對(duì)應(yīng)的分類(lèi)信息兴垦。有不同大小的版本可以下載。
(3).李榮陸老師的中文語(yǔ)料庫(kù)http://www.datatang.com/data/11968
壓縮后有240M大小
(4).譚松波老師的中文文本分類(lèi)語(yǔ)料http://www.datatang.com/data/11970
不僅包含大的分類(lèi),例如經(jīng)濟(jì)探越、運(yùn)動(dòng)等等狡赐,每個(gè)大類(lèi)下面還包含具體的小類(lèi),例如運(yùn)動(dòng)包含籃球钦幔、足球等等枕屉。能夠作為層次分類(lèi)的語(yǔ)料庫(kù),非常實(shí)用鲤氢。這個(gè)網(wǎng)址免積分(譚松波老師的主頁(yè)):http://www.searchforum.org.cn/tansongbo/corpus1.php
(5).網(wǎng)易分類(lèi)文本數(shù)據(jù)http://www.datatang.com/data/11965
包含運(yùn)動(dòng)搀擂、汽車(chē)等六大類(lèi)的4000條文本數(shù)據(jù)。
(6).中文文本分類(lèi)語(yǔ)料http://www.datatang.com/data/11963
包含Arts卷玉、Literature等類(lèi)別的語(yǔ)料文本哨颂。
(7).更全的搜狗文本分類(lèi)語(yǔ)料http://www.sogou.com/labs/dl/c.html
搜狗實(shí)驗(yàn)室發(fā)布的文本分類(lèi)語(yǔ)料,有不同大小的數(shù)據(jù)版本供免費(fèi)下載
(8).2002年中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集http://www.datatang.com/data/15021
2002年秋天北京大學(xué)網(wǎng)絡(luò)與分布式實(shí)驗(yàn)室天網(wǎng)小組通過(guò)動(dòng)員不同專(zhuān)業(yè)的幾十個(gè)學(xué)生相种,人工選取形成了一個(gè)全新的基于層次模型的大規(guī)模中文網(wǎng)頁(yè)樣本集威恼。它包括11678個(gè)訓(xùn)練網(wǎng)頁(yè)實(shí)例和3630個(gè)測(cè)試網(wǎng)頁(yè)實(shí)例,分布在11個(gè)大類(lèi)別中寝并。
————————————————————————————————————————————————
將預(yù)料庫(kù)進(jìn)行分詞并去掉停用詞,可以使用的分詞工具有:
StandardAnalyzer(中英文)食茎、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)馏谨、IKAnalyzer(中英文别渔,兼容韓文,日文)惧互、paoding(中文)哎媚、MMAnalyzer(中英文)、MMSeg4j(中英文)喊儡、imdict(中英文)拨与、NLTK(中英文)、Jieba(中英文)艾猜,這幾種分詞工具的區(qū)別买喧,可以參加:http://blog.csdn.net/wauwa/article/details/7865526。
(一) 國(guó)家語(yǔ)委?
1國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)http://www.cncorpus.org/?
現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)現(xiàn)在重新開(kāi)放網(wǎng)絡(luò)查詢(xún)了匆赃。重開(kāi)后的在線(xiàn)檢索速度更快淤毛,功能更強(qiáng),同時(shí)提供檢索結(jié)果下載∷懔現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)在線(xiàn)提供免費(fèi)檢索的語(yǔ)料約2000萬(wàn)字低淡,為分詞和詞性標(biāo)注語(yǔ)料。
2古代漢語(yǔ)語(yǔ)料庫(kù)http://www.cncorpus.org/login.aspx?
網(wǎng)站現(xiàn)在還增加了一億字的古代漢語(yǔ)生語(yǔ)料,研究古代漢語(yǔ)的也可以去查詢(xún)和下載蔗蹋。同時(shí)何荚,還提供了分詞、詞性標(biāo)注軟件猪杭、詞頻統(tǒng)計(jì)餐塘、字頻統(tǒng)計(jì)軟件,基于國(guó)家語(yǔ)委語(yǔ)料庫(kù)的字頻詞頻統(tǒng)計(jì)結(jié)果和發(fā)布的詞表等胁孙,以供學(xué)習(xí)研究語(yǔ)言文字的老師同學(xué)使用唠倦。
(二) 北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所?
1《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)http://www.icl.pku.edu.cn/icl_res/?
《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)中一半的語(yǔ)料(1998年上半年)共1300萬(wàn)字已經(jīng)通過(guò)《人民日?qǐng)?bào)》新聞信息中心公開(kāi)提供許可使用權(quán)。其中一個(gè)月的語(yǔ)料(1998年1月)近200萬(wàn)字在互聯(lián)網(wǎng)上公布涮较,供自由下載稠鼻。
(三) 北京語(yǔ)言大學(xué)
漢語(yǔ)國(guó)際教育技術(shù)研發(fā)中心:HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)http://202.112.195.192:8060/hsk/login.asp?
語(yǔ)言研究所:北京口語(yǔ)語(yǔ)料查詢(xún)系統(tǒng)(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)臺(tái)灣中央研究院?
中研院語(yǔ)料庫(kù)WWW版所有功能均開(kāi)放使用,但為防主機(jī)資源耗用過(guò)劇及顧及數(shù)據(jù)傳輸之實(shí)際限制狂票,暫以檢索結(jié)果為限制的條件:院內(nèi)檢索限兩萬(wàn)行數(shù)據(jù)候齿,院外檢索限兩千行數(shù)據(jù)。?
1現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)http://www.sinica.edu.tw/SinicaCorpus/?
專(zhuān) 門(mén)針對(duì)語(yǔ)言分析而設(shè)計(jì)的闺属,每個(gè)文句都依詞斷開(kāi)慌盯,并標(biāo)示詞類(lèi)。語(yǔ)料的搜集也盡量做到現(xiàn)代漢語(yǔ)分配在不同的主題和語(yǔ)式上掂器,是現(xiàn)代漢語(yǔ)無(wú)窮多的語(yǔ)句中一個(gè)代表性 的樣本⊙窃恚現(xiàn)有語(yǔ)料庫(kù)主要針對(duì)語(yǔ)言分析而設(shè)計(jì),由中央研究院信息所国瓮、語(yǔ)言所詞庫(kù)小組完成灭必,內(nèi)含有簡(jiǎn)介、使用說(shuō)明乃摹,現(xiàn)行的語(yǔ)料庫(kù)是4.0的版本禁漓。
2古漢語(yǔ)語(yǔ)料庫(kù)http://www.sinica.edu.tw/ftms-bin/ftmsw?
古漢語(yǔ)語(yǔ)料庫(kù)包含以下五個(gè)語(yǔ)料庫(kù): 上古漢語(yǔ)、中古漢語(yǔ)(含大藏經(jīng))孵睬、近代漢語(yǔ)播歼、其他、出土文獻(xiàn)掰读。部分?jǐn)?shù)據(jù)取自史語(yǔ)所漢籍全文數(shù)據(jù)庫(kù)秘狞,故兩者間略有重迭。此語(yǔ)料庫(kù)之出土文獻(xiàn)語(yǔ)料庫(kù)蹈集,全部取自史語(yǔ)所漢簡(jiǎn)小組所制作的數(shù)據(jù)庫(kù)谒撼。
3近代漢語(yǔ)標(biāo)記語(yǔ)料庫(kù)http://www.sinica.edu.tw/Early_Mandarin/
4樹(shù)圖數(shù)據(jù)庫(kù)http://treebank.sinica.edu.tw/?
「中文句結(jié)構(gòu)樹(shù)資料庫(kù)」(Sinica Treebank Version 3.0) 包含了6個(gè)檔案,61,087個(gè)中文樹(shù)圖雾狈,361,834個(gè)詞廓潜,是中央研究院詞庫(kù)小組從中央研究院平衡語(yǔ)料庫(kù) (Sinica Corpus) 中抽取句子,經(jīng)由電腦剖析成結(jié)構(gòu)樹(shù),並加以人工修正辩蛋、檢驗(yàn)後所得的成果呻畸。在中文句結(jié)構(gòu)樹(shù)中,我們標(biāo)示了中文句語(yǔ)意和語(yǔ)法的訊息悼院。此一「中文句結(jié)構(gòu)樹(shù)資料庫(kù)」目前開(kāi)放網(wǎng)上檢索及資料移轉(zhuǎn)伤为,以供學(xué)者專(zhuān)家在中文句法、語(yǔ)意關(guān)係研究參考之用据途。另有1000個(gè)句結(jié)構(gòu)樹(shù)開(kāi)放下載绞愚。
5中英雙語(yǔ)知識(shí)本體詞網(wǎng)http://bow.sinica.edu.tw/?
結(jié)合詞網(wǎng),知識(shí)本體颖医,與領(lǐng)域標(biāo)記的詞匯知識(shí)庫(kù)位衩。
6搜文解字http://words.sinica.edu.tw/?
包含「搜詞尋字」、「文學(xué)之美」熔萧、「游戲解惑」糖驴、「古文字的世界」四個(gè)單元,可由部件佛致、部首贮缕、字、音俺榆、詞互查感昼,并可查詢(xún)?cè)谒臅?shū)、老罐脊、莊定嗓、唐詩(shī)中的出處,及直接連結(jié)到出處爹殊,閱讀原文蜕乡。
7文國(guó)尋寶記http://www.sinica.edu.tw/wen/?
在搜文解字的基礎(chǔ)之上奸绷,以華語(yǔ)文學(xué)習(xí)者為對(duì)象梗夸,進(jìn)一步將字、詞号醉、音的檢索功能與國(guó)編反症、華康、南一等三種版本的國(guó)小國(guó)語(yǔ)課本結(jié)合畔派,與唐詩(shī)三百首铅碍、宋詞三百首、紅樓夢(mèng)线椰、水滸傳等文學(xué)典籍結(jié)合胞谈,提供網(wǎng)絡(luò)上國(guó)語(yǔ)文學(xué)習(xí)的素材。
8唐詩(shī)三百首http://cls.admin.yzu.edu.tw/300/?
以 國(guó)中、小學(xué)學(xué)生為主要使用對(duì)象烦绳,提供吟唱卿捎、繪畫(huà)、書(shū)法等多媒體數(shù)據(jù)径密,文字?jǐn)?shù)據(jù)報(bào)含作者生平午阵、讀音標(biāo)注、翻譯享扔、批注底桂、評(píng)注、典故出處等資料惧眠;檢索點(diǎn)包含作 者籽懦、詩(shī)題、詩(shī)句锉试、綜合資料猫十、體裁分類(lèi)等;檢索結(jié)果可以列出全文呆盖,并選擇標(biāo)示相關(guān)之文字及多媒體數(shù)據(jù)拖云。并提供了一套可以自動(dòng)檢查格律、韻腳应又、批改的「依韻入 詩(shī)格律自動(dòng)檢測(cè)索引教學(xué)系統(tǒng)」宙项,協(xié)助孩子們依韻作詩(shī),協(xié)助教師批改習(xí)作株扛。
9漢籍電子文獻(xiàn)http://www.sinica.edu.tw/~tdbproj/handy1/?
包含整部25史 整部阮刻13經(jīng)尤筐、超過(guò)2000萬(wàn)字的臺(tái)灣史料、1000萬(wàn)字的大正藏以及其他典籍洞就。
10紅樓夢(mèng)網(wǎng)絡(luò)教學(xué)研究數(shù)據(jù)中心http://cls.hs.yzu.edu.tw/HLM/home.htm?
元智大學(xué)中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)研究室所開(kāi)發(fā)的「網(wǎng)絡(luò)展書(shū)讀—中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)」盆繁,為研究中心負(fù)責(zé)人羅鳳珠老師主持,紅樓夢(mèng)是其中一個(gè)子系統(tǒng)旬蟋,其他還包括善本書(shū)油昂、詩(shī)經(jīng)、唐宋詩(shī)詞倾贰、作詩(shī)填詞等子系統(tǒng)冕碟。此網(wǎng)站為國(guó)內(nèi)Internet最大中國(guó)文學(xué)研究數(shù)據(jù)庫(kù),提供用戶(hù)最完整的中國(guó)文學(xué)研究數(shù)據(jù)匆浙。
(五)中國(guó)傳媒大學(xué)?
1中國(guó)傳媒大學(xué)文本語(yǔ)料庫(kù)檢索系統(tǒng)?
http://ling.cuc.edu.cn/RawPub/
2在線(xiàn)分詞標(biāo)注系統(tǒng)?
http://ling.cuc.edu.cn/cucseg/
3新詞語(yǔ)研究資源庫(kù)?
http://ling.cuc.edu.cn/newword/web/index.asp
4音視頻語(yǔ)料檢索系統(tǒng)?
http://ling.cuc.edu.cn/mmcpub(目前系統(tǒng)正在升級(jí)改造中)
(六)哈爾濱工業(yè)大學(xué)?
1哈工大信息檢索研究室對(duì)外共享語(yǔ)料庫(kù)資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm?
該語(yǔ)料庫(kù)為漢英雙語(yǔ)語(yǔ)料庫(kù)安寺,10萬(wàn)對(duì)齊雙語(yǔ)句對(duì),文本文件格式首尼,同義詞詞林?jǐn)U展版挑庶,77,343條詞語(yǔ)言秸,秉承《同義詞詞林》的編撰風(fēng)格,同時(shí)采用五級(jí)編碼體系迎捺,多文檔自動(dòng)文摘語(yǔ)料庫(kù)井仰,40個(gè)主題,文本文件格式破加,同一主題下是同一事件的不同報(bào)道俱恶,漢語(yǔ)依存樹(shù)庫(kù),不帶關(guān)系5萬(wàn)句范舀,帶關(guān)系1萬(wàn)句合是,LTML化,分詞锭环、詞性聪全、句法部分人工標(biāo)注,可以圖形化查看辅辩,問(wèn)答系統(tǒng)問(wèn)題集难礼,6264句,已標(biāo)注問(wèn)題類(lèi)型玫锋,LTML化蛾茉,分詞、詞性撩鹿、句法谦炬、詞義、淺層語(yǔ)義等程序處理得到节沦,單文檔自動(dòng)文摘語(yǔ)料庫(kù)键思,211篇,分不同體裁甫贯,LTML化吼鳞,文摘句標(biāo)注,分詞叫搁、詞性赔桌、句法、詞義常熙、淺層語(yǔ)義纬乍、文本分類(lèi)碱茁、指代消解等程序處理得到裸卫。
(七)清華大學(xué)?
漢語(yǔ)均衡語(yǔ)料庫(kù)TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)
(八)香港教育學(xué)院?
語(yǔ)言資訊科學(xué)中心及其語(yǔ)料庫(kù)實(shí)驗(yàn)室http://www.livac.org/index.php?lang=sc?
自1995年開(kāi)始纽竣,以「共時(shí)」方式處理了超常的大量漢語(yǔ)語(yǔ)料墓贿,通過(guò)精密的技術(shù)茧泪,累積眾多精確的統(tǒng)計(jì)數(shù)據(jù),建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時(shí)語(yǔ)料庫(kù)聋袋。 本語(yǔ)料庫(kù)最大特點(diǎn)是采用「共時(shí)性」視窗模式队伟,嚴(yán)謹(jǐn)?shù)囟〞r(shí)分別收集來(lái)自多地的定量同類(lèi)語(yǔ)料,可供各種客觀的比較研究幽勒,方便有關(guān)的信息科技發(fā)展與應(yīng)用嗜侮。此外,語(yǔ)料庫(kù)又兼顧了「歷時(shí)性」啥容,方便各方人士客觀地觀察與研究視窗內(nèi)的有代表性的語(yǔ)言發(fā)展全面動(dòng)態(tài)锈颗。
(九)中國(guó)科學(xué)院計(jì)算技術(shù)研究所?
跨語(yǔ)言語(yǔ)料庫(kù)http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級(jí))?
目前的雙語(yǔ)句對(duì)數(shù)據(jù)庫(kù)中有約180,000對(duì)已對(duì)齊的中英文句子咪惠。 本數(shù)據(jù)庫(kù)支持簡(jiǎn)單的中英文查詢(xún)服務(wù)击吱。 查詢(xún)結(jié)果包括句對(duì)編號(hào)、中文句子遥昧、英文句子覆醇、句對(duì)來(lái)源。
(十)中文語(yǔ)言資源聯(lián)盟?
中文語(yǔ)言資源聯(lián)盟http://www.chineseldc.org/?
(Chinese Linguistic Data Consortium,簡(jiǎn)稱(chēng)ChineseLDC)的建立炭臭。ChineseLDC是吸收國(guó)內(nèi)高等院校,科研機(jī)構(gòu)和公司參加的開(kāi)放式語(yǔ)言資源聯(lián)盟永脓。其目的是建成能代表當(dāng)今中文信息處理水平的,通用的中文語(yǔ)言信息知識(shí)庫(kù)。ChineseLDC 將建設(shè)和收集中文信息處理所需要的各種語(yǔ)言資源,包括詞典,語(yǔ)料庫(kù),數(shù)據(jù),工具等鞋仍。在建立和收集語(yǔ)言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶(hù),并且針對(duì)中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評(píng)測(cè)機(jī)制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開(kāi)發(fā)提供支持憨奸。(之所以排名這么后,是因?yàn)槭菄?guó)家出錢(qián)的項(xiàng)目凿试,卻沒(méi)有什么免費(fèi)資源)
【網(wǎng)站】?
語(yǔ)料庫(kù)在線(xiàn)?http://www.cncorpus.org/?
現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)?http://ccl.pku.edu.cn/corpus.asp?item=1?
古代漢語(yǔ)語(yǔ)料庫(kù)?http://ccl.pku.edu.cn/corpus.asp?item=2?
漢英雙語(yǔ)語(yǔ)料庫(kù)?http://ccl.pku.edu.cn/corpus.asp?item=3?
HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)?http://202.112.195.192:8060/hsk/login.asp?
北京口語(yǔ)語(yǔ)料查詢(xún)系統(tǒng)?http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp?
現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)?http://rocling.iis.sinica.edu.tw/new/20corpus.htm?
LIVAC共時(shí)語(yǔ)料庫(kù)?http://www.livac.org/index.php?
蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù)?http://ling.cass.cn/dangdai/LCMC/LCMC.htm?
洛杉磯加州大學(xué)漢語(yǔ)語(yǔ)料庫(kù)?http://www.lancs.ac.uk/fass/projects/corpus/UCLA/?
中文新聞分類(lèi)語(yǔ)料庫(kù)?http://www.nlpir.org/?action-viewnews-itemid-145?
NLPIR 500萬(wàn)條twitter內(nèi)容語(yǔ)料庫(kù)?http://www.nlpir.org/?action-viewnews-itemid-263?
NLPIR微博博主語(yǔ)料庫(kù)100萬(wàn)條?http://www.nlpir.org/?action-viewnews-itemid-232?
現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)詞頻統(tǒng)計(jì)?http://elearning.ling.sinica.edu.tw/CWordfreq.html?
歡迎關(guān)注新浪微博【對(duì)外漢語(yǔ)北京】?
中文句結(jié)構(gòu)樹(shù)資料庫(kù)?http://turing.iis.sinica.edu.tw/treesearch/?
搜狗文本分類(lèi)語(yǔ)料庫(kù)?http://www.sogou.com/labs/dl/c.html?
哈工大信息檢索研究室對(duì)外共享語(yǔ)料庫(kù)?http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm?
傳媒大學(xué)文本語(yǔ)料庫(kù)?http://ling.cuc.edu.cn/RawPub/?
詞語(yǔ)研究資源庫(kù) 對(duì)外漢語(yǔ)北京?http://ling.cuc.edu.cn/newword/web/index.asp?
BFSU CQPweb多語(yǔ)言在線(xiàn)語(yǔ)料庫(kù)檢索平臺(tái)?http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358?
英漢雙語(yǔ)平行語(yǔ)料庫(kù)?http://www.luweixmu.com/ec-corpus/?
babel 漢英平行語(yǔ)料庫(kù)?http://icl.pku.edu.cn/icl_groups/parallel/default.htm?
中國(guó)法律法規(guī)漢英平行語(yǔ)料庫(kù)(大陸)?http://corpus.zscas.edu.cn/lawcorpus1/index.asp?
國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心?http://www.clr.org.cn/?
British National Corpus?http://www.natcorp.ox.ac.uk/
以下資源來(lái)自中國(guó)自然語(yǔ)言開(kāi)源組織:http://www.nlpcn.org/?
Google《紐約時(shí)報(bào)》標(biāo)注數(shù)據(jù)集?
Google公布了一個(gè)《紐約時(shí)報(bào)》標(biāo)注數(shù)據(jù)集:?http://t.cn/RPsjAyl?訓(xùn)練集包括100,834文件排宰,19,261,118標(biāo)注實(shí)體。 測(cè)試集合包括9,706文件那婉,187,080標(biāo)注實(shí)體板甘。Google Code項(xiàng)目鏈接:?http://t.cn/RPsjAyl
360萬(wàn)中文詞庫(kù)包含,詞性详炬,詞頻?
來(lái)源:互聯(lián)網(wǎng)盐类。共有詞條3669276個(gè)。統(tǒng)計(jì)了每個(gè)詞條的詞頻以及詞性信息呛谜。盡請(qǐng)down在跳。。 下載地址:http://pan.baidu.com/s/1gdBtsTP?提取碼:7s4j?
1-billion-word-language-modeling-benchmark 1.67G?
1-billion-word-language-modeling-benchmark-r13output.tar 語(yǔ)言模型詞語(yǔ)搭配語(yǔ)料 鏈接:?http://pan.baidu.com/s/1o6jZOtc?密碼: x4sb
某購(gòu)物網(wǎng)站6w多的商品數(shù)據(jù)隐岛。鏈接:?http://pan.baidu.com/s/1o6DgcNS?密碼: vi4l 包括商品名稱(chēng)價(jià)錢(qián)猫妙。以及圖片鏈接地址分類(lèi)id
內(nèi)容自網(wǎng)絡(luò),如有侵權(quán)聚凹,請(qǐng)聯(lián)系割坠。