中文語(yǔ)料庫(kù)

中文自然語(yǔ)言處理開(kāi)放平臺(tái)


由中國(guó)科學(xué)院計(jì)算技術(shù)研究所·數(shù)字化室&軟件室創(chuàng)立一個(gè)研究自然語(yǔ)言處理的一個(gè)平臺(tái),里面包含有大量的訓(xùn)練測(cè)試語(yǔ)料澜沟。?

語(yǔ)料庫(kù):http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15?

文本語(yǔ)料庫(kù):http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15

sogou文本分類(lèi)語(yǔ)料庫(kù)

文本分類(lèi)語(yǔ)料庫(kù)來(lái)源于Sohu新聞網(wǎng)站保存的大量經(jīng)過(guò)編輯手工整理與分類(lèi)的新聞?wù)Z料與對(duì)應(yīng)的分類(lèi)信息。其分類(lèi)體系包括幾十個(gè)分類(lèi)節(jié)點(diǎn)巢墅,網(wǎng)頁(yè)規(guī)模約為十萬(wàn)篇文檔。

地址:http://www.sogou.com/labs/dl/c.html

中文Web信息檢索論壇

中文Web信息檢索論壇(Chinese Web Information Retrieval Forum,簡(jiǎn)稱(chēng)CWIRF)是由北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室從2004年6月起建立并維護(hù)的以大規(guī)模中文Web信息為測(cè)試集的信息檢索研究論壇遮晚。

CWT(Chinese Web Test collection, 中文Web測(cè)試集):

ComPaper10th?

Computer Paper collection with more than 10 thousand papers?

CWT70th?

? ? ?Chinese Web Test collection with 70 thousand pages?

? ? ?CWT70th順序讀取程序?

CWT200g?

? ? ?Chinese Web Test collection with 200 GB web pages.?

? ? ?CWT20g_of_200g?

? ? ?CWT200g樣例下載?

? ? ?CWT200g順序讀取程序

CWT相關(guān)工具?

中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集

CCT2006

2006年3月中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集CCT2006, 編號(hào)YQ-CCT-2006-03. 根據(jù)常見(jiàn)的新聞?lì)悇e而設(shè)定的分類(lèi)體系,從新聞網(wǎng)站上抓取得到對(duì)應(yīng) 類(lèi)別的新聞網(wǎng)頁(yè)作為訓(xùn)練集頁(yè)面拦止。它包括960個(gè)訓(xùn)練網(wǎng)頁(yè)和240個(gè)測(cè)試網(wǎng)頁(yè)县遣, 分布在8個(gè)類(lèi)別中。下載?

CCT2002-v1.1

2002年中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集CCT2002-v1.1, 編號(hào)YQ-WEBBENCH-V1.1,說(shuō)明汹族。 是在CCT2002-v1.0 的基礎(chǔ)上對(duì)類(lèi)別進(jìn)行了部分修正. 是2002年秋天北京大學(xué)網(wǎng)絡(luò)與分布式實(shí)驗(yàn)室天網(wǎng)小組通過(guò)動(dòng)員不同專(zhuān)業(yè)的幾十個(gè)學(xué)生萧求, 人工選取形成了一個(gè)全新的基于層次模型的大規(guī)模中文網(wǎng)頁(yè)樣本集。 它包括11678個(gè)訓(xùn)練網(wǎng)頁(yè)實(shí)例和3630個(gè)測(cè)試網(wǎng)頁(yè)實(shí)例顶瞒,分布在11個(gè)大類(lèi)別中饭聚。下載

-----------------------

一、語(yǔ)料庫(kù)鏈接

下面提供一些網(wǎng)上能下載到的中文的好語(yǔ)料搁拙,供研究人員學(xué)習(xí)使用秒梳。

(1).中科院自動(dòng)化所的中英文新聞?wù)Z料庫(kù)http://www.datatang.com/data/13484

中文新聞分類(lèi)語(yǔ)料庫(kù)從鳳凰、新浪箕速、網(wǎng)易酪碘、騰訊等版面搜集。英語(yǔ)新聞分類(lèi)語(yǔ)料庫(kù)為Reuters-21578的ModApte版本盐茎。

(2).搜狗的中文新聞?wù)Z料庫(kù)http://www.sogou.com/labs/dl/c.html

包括搜狐的大量新聞?wù)Z料與對(duì)應(yīng)的分類(lèi)信息兴垦。有不同大小的版本可以下載。

(3).李榮陸老師的中文語(yǔ)料庫(kù)http://www.datatang.com/data/11968

壓縮后有240M大小

(4).譚松波老師的中文文本分類(lèi)語(yǔ)料http://www.datatang.com/data/11970

不僅包含大的分類(lèi),例如經(jīng)濟(jì)探越、運(yùn)動(dòng)等等狡赐,每個(gè)大類(lèi)下面還包含具體的小類(lèi),例如運(yùn)動(dòng)包含籃球钦幔、足球等等枕屉。能夠作為層次分類(lèi)的語(yǔ)料庫(kù),非常實(shí)用鲤氢。這個(gè)網(wǎng)址免積分(譚松波老師的主頁(yè)):http://www.searchforum.org.cn/tansongbo/corpus1.php

(5).網(wǎng)易分類(lèi)文本數(shù)據(jù)http://www.datatang.com/data/11965

包含運(yùn)動(dòng)搀擂、汽車(chē)等六大類(lèi)的4000條文本數(shù)據(jù)。

(6).中文文本分類(lèi)語(yǔ)料http://www.datatang.com/data/11963

包含Arts卷玉、Literature等類(lèi)別的語(yǔ)料文本哨颂。

(7).更全的搜狗文本分類(lèi)語(yǔ)料http://www.sogou.com/labs/dl/c.html

搜狗實(shí)驗(yàn)室發(fā)布的文本分類(lèi)語(yǔ)料,有不同大小的數(shù)據(jù)版本供免費(fèi)下載

(8).2002年中文網(wǎng)頁(yè)分類(lèi)訓(xùn)練集http://www.datatang.com/data/15021

2002年秋天北京大學(xué)網(wǎng)絡(luò)與分布式實(shí)驗(yàn)室天網(wǎng)小組通過(guò)動(dòng)員不同專(zhuān)業(yè)的幾十個(gè)學(xué)生相种,人工選取形成了一個(gè)全新的基于層次模型的大規(guī)模中文網(wǎng)頁(yè)樣本集威恼。它包括11678個(gè)訓(xùn)練網(wǎng)頁(yè)實(shí)例和3630個(gè)測(cè)試網(wǎng)頁(yè)實(shí)例,分布在11個(gè)大類(lèi)別中寝并。

————————————————————————————————————————————————

二箫措、有效的分詞工具

將預(yù)料庫(kù)進(jìn)行分詞并去掉停用詞,可以使用的分詞工具有:

StandardAnalyzer(中英文)食茎、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)馏谨、IKAnalyzer(中英文别渔,兼容韓文,日文)惧互、paoding(中文)哎媚、MMAnalyzer(中英文)、MMSeg4j(中英文)喊儡、imdict(中英文)拨与、NLTK(中英文)、Jieba(中英文)艾猜,這幾種分詞工具的區(qū)別买喧,可以參加:http://blog.csdn.net/wauwa/article/details/7865526。






(一) 國(guó)家語(yǔ)委?

1國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)http://www.cncorpus.org/?

現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)現(xiàn)在重新開(kāi)放網(wǎng)絡(luò)查詢(xún)了匆赃。重開(kāi)后的在線(xiàn)檢索速度更快淤毛,功能更強(qiáng),同時(shí)提供檢索結(jié)果下載∷懔現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)在線(xiàn)提供免費(fèi)檢索的語(yǔ)料約2000萬(wàn)字低淡,為分詞和詞性標(biāo)注語(yǔ)料。

2古代漢語(yǔ)語(yǔ)料庫(kù)http://www.cncorpus.org/login.aspx?

網(wǎng)站現(xiàn)在還增加了一億字的古代漢語(yǔ)生語(yǔ)料,研究古代漢語(yǔ)的也可以去查詢(xún)和下載蔗蹋。同時(shí)何荚,還提供了分詞、詞性標(biāo)注軟件猪杭、詞頻統(tǒng)計(jì)餐塘、字頻統(tǒng)計(jì)軟件,基于國(guó)家語(yǔ)委語(yǔ)料庫(kù)的字頻詞頻統(tǒng)計(jì)結(jié)果和發(fā)布的詞表等胁孙,以供學(xué)習(xí)研究語(yǔ)言文字的老師同學(xué)使用唠倦。

(二) 北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所?

1《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)http://www.icl.pku.edu.cn/icl_res/?

《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)中一半的語(yǔ)料(1998年上半年)共1300萬(wàn)字已經(jīng)通過(guò)《人民日?qǐng)?bào)》新聞信息中心公開(kāi)提供許可使用權(quán)。其中一個(gè)月的語(yǔ)料(1998年1月)近200萬(wàn)字在互聯(lián)網(wǎng)上公布涮较,供自由下載稠鼻。

(三) 北京語(yǔ)言大學(xué)

漢語(yǔ)國(guó)際教育技術(shù)研發(fā)中心:HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)http://202.112.195.192:8060/hsk/login.asp?

語(yǔ)言研究所:北京口語(yǔ)語(yǔ)料查詢(xún)系統(tǒng)(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

(四)臺(tái)灣中央研究院?

中研院語(yǔ)料庫(kù)WWW版所有功能均開(kāi)放使用,但為防主機(jī)資源耗用過(guò)劇及顧及數(shù)據(jù)傳輸之實(shí)際限制狂票,暫以檢索結(jié)果為限制的條件:院內(nèi)檢索限兩萬(wàn)行數(shù)據(jù)候齿,院外檢索限兩千行數(shù)據(jù)。?

1現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)http://www.sinica.edu.tw/SinicaCorpus/?

專(zhuān) 門(mén)針對(duì)語(yǔ)言分析而設(shè)計(jì)的闺属,每個(gè)文句都依詞斷開(kāi)慌盯,并標(biāo)示詞類(lèi)。語(yǔ)料的搜集也盡量做到現(xiàn)代漢語(yǔ)分配在不同的主題和語(yǔ)式上掂器,是現(xiàn)代漢語(yǔ)無(wú)窮多的語(yǔ)句中一個(gè)代表性 的樣本⊙窃恚現(xiàn)有語(yǔ)料庫(kù)主要針對(duì)語(yǔ)言分析而設(shè)計(jì),由中央研究院信息所国瓮、語(yǔ)言所詞庫(kù)小組完成灭必,內(nèi)含有簡(jiǎn)介、使用說(shuō)明乃摹,現(xiàn)行的語(yǔ)料庫(kù)是4.0的版本禁漓。

2古漢語(yǔ)語(yǔ)料庫(kù)http://www.sinica.edu.tw/ftms-bin/ftmsw?

古漢語(yǔ)語(yǔ)料庫(kù)包含以下五個(gè)語(yǔ)料庫(kù): 上古漢語(yǔ)、中古漢語(yǔ)(含大藏經(jīng))孵睬、近代漢語(yǔ)播歼、其他、出土文獻(xiàn)掰读。部分?jǐn)?shù)據(jù)取自史語(yǔ)所漢籍全文數(shù)據(jù)庫(kù)秘狞,故兩者間略有重迭。此語(yǔ)料庫(kù)之出土文獻(xiàn)語(yǔ)料庫(kù)蹈集,全部取自史語(yǔ)所漢簡(jiǎn)小組所制作的數(shù)據(jù)庫(kù)谒撼。

3近代漢語(yǔ)標(biāo)記語(yǔ)料庫(kù)http://www.sinica.edu.tw/Early_Mandarin/

4樹(shù)圖數(shù)據(jù)庫(kù)http://treebank.sinica.edu.tw/?

「中文句結(jié)構(gòu)樹(shù)資料庫(kù)」(Sinica Treebank Version 3.0) 包含了6個(gè)檔案,61,087個(gè)中文樹(shù)圖雾狈,361,834個(gè)詞廓潜,是中央研究院詞庫(kù)小組從中央研究院平衡語(yǔ)料庫(kù) (Sinica Corpus) 中抽取句子,經(jīng)由電腦剖析成結(jié)構(gòu)樹(shù),並加以人工修正辩蛋、檢驗(yàn)後所得的成果呻畸。在中文句結(jié)構(gòu)樹(shù)中,我們標(biāo)示了中文句語(yǔ)意和語(yǔ)法的訊息悼院。此一「中文句結(jié)構(gòu)樹(shù)資料庫(kù)」目前開(kāi)放網(wǎng)上檢索及資料移轉(zhuǎn)伤为,以供學(xué)者專(zhuān)家在中文句法、語(yǔ)意關(guān)係研究參考之用据途。另有1000個(gè)句結(jié)構(gòu)樹(shù)開(kāi)放下載绞愚。

5中英雙語(yǔ)知識(shí)本體詞網(wǎng)http://bow.sinica.edu.tw/?

結(jié)合詞網(wǎng),知識(shí)本體颖医,與領(lǐng)域標(biāo)記的詞匯知識(shí)庫(kù)位衩。

6搜文解字http://words.sinica.edu.tw/?

包含「搜詞尋字」、「文學(xué)之美」熔萧、「游戲解惑」糖驴、「古文字的世界」四個(gè)單元,可由部件佛致、部首贮缕、字、音俺榆、詞互查感昼,并可查詢(xún)?cè)谒臅?shū)、老罐脊、莊定嗓、唐詩(shī)中的出處,及直接連結(jié)到出處爹殊,閱讀原文蜕乡。

7文國(guó)尋寶記http://www.sinica.edu.tw/wen/?

在搜文解字的基礎(chǔ)之上奸绷,以華語(yǔ)文學(xué)習(xí)者為對(duì)象梗夸,進(jìn)一步將字、詞号醉、音的檢索功能與國(guó)編反症、華康、南一等三種版本的國(guó)小國(guó)語(yǔ)課本結(jié)合畔派,與唐詩(shī)三百首铅碍、宋詞三百首、紅樓夢(mèng)线椰、水滸傳等文學(xué)典籍結(jié)合胞谈,提供網(wǎng)絡(luò)上國(guó)語(yǔ)文學(xué)習(xí)的素材。

8唐詩(shī)三百首http://cls.admin.yzu.edu.tw/300/?

以 國(guó)中、小學(xué)學(xué)生為主要使用對(duì)象烦绳,提供吟唱卿捎、繪畫(huà)、書(shū)法等多媒體數(shù)據(jù)径密,文字?jǐn)?shù)據(jù)報(bào)含作者生平午阵、讀音標(biāo)注、翻譯享扔、批注底桂、評(píng)注、典故出處等資料惧眠;檢索點(diǎn)包含作 者籽懦、詩(shī)題、詩(shī)句锉试、綜合資料猫十、體裁分類(lèi)等;檢索結(jié)果可以列出全文呆盖,并選擇標(biāo)示相關(guān)之文字及多媒體數(shù)據(jù)拖云。并提供了一套可以自動(dòng)檢查格律、韻腳应又、批改的「依韻入 詩(shī)格律自動(dòng)檢測(cè)索引教學(xué)系統(tǒng)」宙项,協(xié)助孩子們依韻作詩(shī),協(xié)助教師批改習(xí)作株扛。

9漢籍電子文獻(xiàn)http://www.sinica.edu.tw/~tdbproj/handy1/?

包含整部25史 整部阮刻13經(jīng)尤筐、超過(guò)2000萬(wàn)字的臺(tái)灣史料、1000萬(wàn)字的大正藏以及其他典籍洞就。

10紅樓夢(mèng)網(wǎng)絡(luò)教學(xué)研究數(shù)據(jù)中心http://cls.hs.yzu.edu.tw/HLM/home.htm?

元智大學(xué)中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)研究室所開(kāi)發(fā)的「網(wǎng)絡(luò)展書(shū)讀—中國(guó)文學(xué)網(wǎng)絡(luò)系統(tǒng)」盆繁,為研究中心負(fù)責(zé)人羅鳳珠老師主持,紅樓夢(mèng)是其中一個(gè)子系統(tǒng)旬蟋,其他還包括善本書(shū)油昂、詩(shī)經(jīng)、唐宋詩(shī)詞倾贰、作詩(shī)填詞等子系統(tǒng)冕碟。此網(wǎng)站為國(guó)內(nèi)Internet最大中國(guó)文學(xué)研究數(shù)據(jù)庫(kù),提供用戶(hù)最完整的中國(guó)文學(xué)研究數(shù)據(jù)匆浙。

(五)中國(guó)傳媒大學(xué)?

1中國(guó)傳媒大學(xué)文本語(yǔ)料庫(kù)檢索系統(tǒng)?

http://ling.cuc.edu.cn/RawPub/

2在線(xiàn)分詞標(biāo)注系統(tǒng)?

http://ling.cuc.edu.cn/cucseg/

3新詞語(yǔ)研究資源庫(kù)?

http://ling.cuc.edu.cn/newword/web/index.asp

4音視頻語(yǔ)料檢索系統(tǒng)?

http://ling.cuc.edu.cn/mmcpub(目前系統(tǒng)正在升級(jí)改造中)

(六)哈爾濱工業(yè)大學(xué)?

1哈工大信息檢索研究室對(duì)外共享語(yǔ)料庫(kù)資源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm?

該語(yǔ)料庫(kù)為漢英雙語(yǔ)語(yǔ)料庫(kù)安寺,10萬(wàn)對(duì)齊雙語(yǔ)句對(duì),文本文件格式首尼,同義詞詞林?jǐn)U展版挑庶,77,343條詞語(yǔ)言秸,秉承《同義詞詞林》的編撰風(fēng)格,同時(shí)采用五級(jí)編碼體系迎捺,多文檔自動(dòng)文摘語(yǔ)料庫(kù)井仰,40個(gè)主題,文本文件格式破加,同一主題下是同一事件的不同報(bào)道俱恶,漢語(yǔ)依存樹(shù)庫(kù),不帶關(guān)系5萬(wàn)句范舀,帶關(guān)系1萬(wàn)句合是,LTML化,分詞锭环、詞性聪全、句法部分人工標(biāo)注,可以圖形化查看辅辩,問(wèn)答系統(tǒng)問(wèn)題集难礼,6264句,已標(biāo)注問(wèn)題類(lèi)型玫锋,LTML化蛾茉,分詞、詞性撩鹿、句法谦炬、詞義、淺層語(yǔ)義等程序處理得到节沦,單文檔自動(dòng)文摘語(yǔ)料庫(kù)键思,211篇,分不同體裁甫贯,LTML化吼鳞,文摘句標(biāo)注,分詞叫搁、詞性赔桌、句法、詞義常熙、淺層語(yǔ)義纬乍、文本分類(lèi)碱茁、指代消解等程序處理得到裸卫。

(七)清華大學(xué)?

漢語(yǔ)均衡語(yǔ)料庫(kù)TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)

(八)香港教育學(xué)院?

語(yǔ)言資訊科學(xué)中心及其語(yǔ)料庫(kù)實(shí)驗(yàn)室http://www.livac.org/index.php?lang=sc?

自1995年開(kāi)始纽竣,以「共時(shí)」方式處理了超常的大量漢語(yǔ)語(yǔ)料墓贿,通過(guò)精密的技術(shù)茧泪,累積眾多精確的統(tǒng)計(jì)數(shù)據(jù),建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共時(shí)語(yǔ)料庫(kù)聋袋。 本語(yǔ)料庫(kù)最大特點(diǎn)是采用「共時(shí)性」視窗模式队伟,嚴(yán)謹(jǐn)?shù)囟〞r(shí)分別收集來(lái)自多地的定量同類(lèi)語(yǔ)料,可供各種客觀的比較研究幽勒,方便有關(guān)的信息科技發(fā)展與應(yīng)用嗜侮。此外,語(yǔ)料庫(kù)又兼顧了「歷時(shí)性」啥容,方便各方人士客觀地觀察與研究視窗內(nèi)的有代表性的語(yǔ)言發(fā)展全面動(dòng)態(tài)锈颗。

(九)中國(guó)科學(xué)院計(jì)算技術(shù)研究所?

跨語(yǔ)言語(yǔ)料庫(kù)http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升級(jí))?

目前的雙語(yǔ)句對(duì)數(shù)據(jù)庫(kù)中有約180,000對(duì)已對(duì)齊的中英文句子咪惠。 本數(shù)據(jù)庫(kù)支持簡(jiǎn)單的中英文查詢(xún)服務(wù)击吱。 查詢(xún)結(jié)果包括句對(duì)編號(hào)、中文句子遥昧、英文句子覆醇、句對(duì)來(lái)源。

(十)中文語(yǔ)言資源聯(lián)盟?

中文語(yǔ)言資源聯(lián)盟http://www.chineseldc.org/?

(Chinese Linguistic Data Consortium,簡(jiǎn)稱(chēng)ChineseLDC)的建立炭臭。ChineseLDC是吸收國(guó)內(nèi)高等院校,科研機(jī)構(gòu)和公司參加的開(kāi)放式語(yǔ)言資源聯(lián)盟永脓。其目的是建成能代表當(dāng)今中文信息處理水平的,通用的中文語(yǔ)言信息知識(shí)庫(kù)。ChineseLDC 將建設(shè)和收集中文信息處理所需要的各種語(yǔ)言資源,包括詞典,語(yǔ)料庫(kù),數(shù)據(jù),工具等鞋仍。在建立和收集語(yǔ)言資源的基礎(chǔ)上,分發(fā)資源,促成統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,推薦給用戶(hù),并且針對(duì)中文信息處理領(lǐng)域的關(guān)鍵技術(shù)建立評(píng)測(cè)機(jī)制,為中文信息處理的基礎(chǔ)研究和應(yīng)用開(kāi)發(fā)提供支持憨奸。(之所以排名這么后,是因?yàn)槭菄?guó)家出錢(qián)的項(xiàng)目凿试,卻沒(méi)有什么免費(fèi)資源)

【網(wǎng)站】?

語(yǔ)料庫(kù)在線(xiàn)?http://www.cncorpus.org/?

現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)?http://ccl.pku.edu.cn/corpus.asp?item=1?

古代漢語(yǔ)語(yǔ)料庫(kù)?http://ccl.pku.edu.cn/corpus.asp?item=2?

漢英雙語(yǔ)語(yǔ)料庫(kù)?http://ccl.pku.edu.cn/corpus.asp?item=3?

HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)?http://202.112.195.192:8060/hsk/login.asp?

北京口語(yǔ)語(yǔ)料查詢(xún)系統(tǒng)?http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp?

現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)?http://rocling.iis.sinica.edu.tw/new/20corpus.htm?

LIVAC共時(shí)語(yǔ)料庫(kù)?http://www.livac.org/index.php?

蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù)?http://ling.cass.cn/dangdai/LCMC/LCMC.htm?

洛杉磯加州大學(xué)漢語(yǔ)語(yǔ)料庫(kù)?http://www.lancs.ac.uk/fass/projects/corpus/UCLA/?

中文新聞分類(lèi)語(yǔ)料庫(kù)?http://www.nlpir.org/?action-viewnews-itemid-145?

NLPIR 500萬(wàn)條twitter內(nèi)容語(yǔ)料庫(kù)?http://www.nlpir.org/?action-viewnews-itemid-263?

NLPIR微博博主語(yǔ)料庫(kù)100萬(wàn)條?http://www.nlpir.org/?action-viewnews-itemid-232?

現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)詞頻統(tǒng)計(jì)?http://elearning.ling.sinica.edu.tw/CWordfreq.html?

歡迎關(guān)注新浪微博【對(duì)外漢語(yǔ)北京】?

中文句結(jié)構(gòu)樹(shù)資料庫(kù)?http://turing.iis.sinica.edu.tw/treesearch/?

搜狗文本分類(lèi)語(yǔ)料庫(kù)?http://www.sogou.com/labs/dl/c.html?

哈工大信息檢索研究室對(duì)外共享語(yǔ)料庫(kù)?http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm?

傳媒大學(xué)文本語(yǔ)料庫(kù)?http://ling.cuc.edu.cn/RawPub/?

詞語(yǔ)研究資源庫(kù) 對(duì)外漢語(yǔ)北京?http://ling.cuc.edu.cn/newword/web/index.asp?

BFSU CQPweb多語(yǔ)言在線(xiàn)語(yǔ)料庫(kù)檢索平臺(tái)?http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358?

英漢雙語(yǔ)平行語(yǔ)料庫(kù)?http://www.luweixmu.com/ec-corpus/?

babel 漢英平行語(yǔ)料庫(kù)?http://icl.pku.edu.cn/icl_groups/parallel/default.htm?

中國(guó)法律法規(guī)漢英平行語(yǔ)料庫(kù)(大陸)?http://corpus.zscas.edu.cn/lawcorpus1/index.asp?

國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心?http://www.clr.org.cn/?

British National Corpus?http://www.natcorp.ox.ac.uk/

以下資源來(lái)自中國(guó)自然語(yǔ)言開(kāi)源組織:http://www.nlpcn.org/?

Google《紐約時(shí)報(bào)》標(biāo)注數(shù)據(jù)集?

Google公布了一個(gè)《紐約時(shí)報(bào)》標(biāo)注數(shù)據(jù)集:?http://t.cn/RPsjAyl?訓(xùn)練集包括100,834文件排宰,19,261,118標(biāo)注實(shí)體。 測(cè)試集合包括9,706文件那婉,187,080標(biāo)注實(shí)體板甘。Google Code項(xiàng)目鏈接:?http://t.cn/RPsjAyl

360萬(wàn)中文詞庫(kù)包含,詞性详炬,詞頻?

來(lái)源:互聯(lián)網(wǎng)盐类。共有詞條3669276個(gè)。統(tǒng)計(jì)了每個(gè)詞條的詞頻以及詞性信息呛谜。盡請(qǐng)down在跳。。 下載地址:http://pan.baidu.com/s/1gdBtsTP?提取碼:7s4j?

1-billion-word-language-modeling-benchmark 1.67G?

1-billion-word-language-modeling-benchmark-r13output.tar 語(yǔ)言模型詞語(yǔ)搭配語(yǔ)料 鏈接:?http://pan.baidu.com/s/1o6jZOtc?密碼: x4sb

某購(gòu)物網(wǎng)站6w多的商品數(shù)據(jù)隐岛。鏈接:?http://pan.baidu.com/s/1o6DgcNS?密碼: vi4l 包括商品名稱(chēng)價(jià)錢(qián)猫妙。以及圖片鏈接地址分類(lèi)id

內(nèi)容自網(wǎng)絡(luò),如有侵權(quán)聚凹,請(qǐng)聯(lián)系割坠。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末齐帚,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子彼哼,更是在濱河造成了極大的恐慌对妄,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件敢朱,死亡現(xiàn)場(chǎng)離奇詭異剪菱,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)拴签,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)琅豆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人篓吁,你說(shuō)我怎么就攤上這事茫因。” “怎么了杖剪?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,346評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵冻押,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我盛嘿,道長(zhǎng)洛巢,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,097評(píng)論 1 300
  • 正文 為了忘掉前任次兆,我火速辦了婚禮稿茉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘芥炭。我一直安慰自己漓库,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布园蝠。 她就那樣靜靜地躺著渺蒿,像睡著了一般。 火紅的嫁衣襯著肌膚如雪彪薛。 梳的紋絲不亂的頭發(fā)上茂装,一...
    開(kāi)封第一講書(shū)人閱讀 52,696評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音善延,去河邊找鬼少态。 笑死,一個(gè)胖子當(dāng)著我的面吹牛易遣,可吹牛的內(nèi)容都是我干的彼妻。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼训挡,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼澳骤!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起澜薄,我...
    開(kāi)封第一講書(shū)人閱讀 40,108評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤为肮,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后肤京,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體颊艳,經(jīng)...
    沈念sama閱讀 46,646評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評(píng)論 3 342
  • 正文 我和宋清朗相戀三年忘分,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了棋枕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,861評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡妒峦,死狀恐怖重斑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情肯骇,我是刑警寧澤窥浪,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站笛丙,受9級(jí)特大地震影響漾脂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜胚鸯,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評(píng)論 3 336
  • 文/蒙蒙 一骨稿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧姜钳,春花似錦坦冠、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,698評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至泰讽,卻和暖如春例衍,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背已卸。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,804評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工佛玄, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人累澡。 一個(gè)月前我還...
    沈念sama閱讀 49,287評(píng)論 3 379
  • 正文 我出身青樓梦抢,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親愧哟。 傳聞我的和親對(duì)象是個(gè)殘疾皇子奥吩,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評(píng)論 2 361