本文作者傅源跪帝,作為語智云帆科技有限公司資訊類產(chǎn)品經(jīng)理,今天下場為各位老師講解建立語料庫的過程當中些阅,首當其沖就會面臨得問題:我需要建立一個什么樣的語料庫來助力我的研究伞剑?
根據(jù)《語料庫應用教程》,語料庫主要的類型有10類市埋,但這10類語料庫并不是完全相互獨立黎泣,不是完全沒有交叉重疊的分類。對語料庫進行分類是有多種維度缤谎。老師們比較熟悉和常作為項目建立的語料庫種類 -- 學習者語料庫就是區(qū)別于本族語者語料庫抒倚,從語言變體維度出發(fā)分類的。若按語言屬性坷澡,又可分為單語托呕、平行/雙語、多語語料庫频敛。
1.通用語料庫
力求最好地代表一種語言的全貌而建成的語料庫项郊。該類語料庫在最初就要設定好各語言變體在整個語料庫中所占比例,已達到客觀描述語言全貌的目的斟赚。該類語料庫可以在科研項目中用來作為參照語料庫着降,體現(xiàn)出某些專門語料庫的特點。此外拗军,通用語料庫容量龐大任洞,往往可以過濾出特定屬性的文本,形成多個專門用途的子語料庫食绿。比如侈咕,科技學術語料庫,新聞語料庫等等器紧。
英語通用語料庫的典范--英語國家語料庫, 網(wǎng)址如下:
2.專用語料庫
專用語料庫相對于通用語料庫楼眷,是處于特定的研究目的铲汪,由某領域語料集結而成。該語料庫可以集中反映出該領域的語言特點罐柳,并且對于提取專業(yè)領域術語掌腰、編制專門領域工具書等進一步科教研舉措,有很重要的支持作用张吉。而利用專用語料庫進行的翻譯或語言學研究齿梁,可以通過對比通用語料庫,分析特定領域語言特點的特點。
漢語國際教育技術研發(fā)中心的HSK動態(tài)作文語料庫就是一個專用語料庫的例子勺择,一個可能的研究方向:通過分析HSK漢語考試中考生作文的用詞创南,可以了解到外國學生掌握較好的中文詞匯,對比中文通用語料庫省核,就可以得出其掌握熟度較低的詞匯稿辙。
網(wǎng)址如下:
http://202.112.195.192:8060/hsk/login.asp
3.共時語料庫
由同一時代的語言使用樣本構成的語料庫稱為共時語料庫。共時語料庫是相對歷時語料庫而言的气忠×诖ⅲ基于不同時代的語料所建成的多個共時語料庫可以構成一個歷時語料庫。
古漢語語料庫:http://www.sinica.edu.tw/ftms-bin/ftmsw
古漢語語料庫包含以下五個語料庫旧噪,其中上古漢語吨娜、中古漢語(含大藏經(jīng))、近代漢語這三個語料庫即可看做是三個共時語料庫淘钟。而古漢語語料庫本身就可看做是一個歷時語料庫萌壳。
4.歷時語料庫
收集不同時代的語言使用樣本構成的語料庫稱為歷時語料庫。歷時語料庫是觀察和研究語言變化時常用的工具日月。
赫爾辛基英語文本語料庫(Helsinki Corpus of English Texts)是一個典型的英語歷時語料庫袱瓮,其語料橫跨 850-1720年,共計1600萬詞爱咬。
5.口語語料庫
口語語料庫嘗嘗包括由口語轉寫而來的文本尺借,又是也包括語音文件【猓口語語料庫的構建比筆語語料庫多了轉寫的步驟燎斩,并且在這一步驟中的很多設定帶來很多討論。比如是否對于口語中無意義的停頓詞做轉寫蜂绎,如果出現(xiàn)停頓是否也需要轉寫栅表,轉寫的話長度是否也需要標明。這些設定都需要在建庫之前針對研究課題類型做好定義师枣。
暨南大學華文學院口語語料庫怪瓶,語料為留學生的中文口語樣本:
https://huayu.jnu.edu.cn/corpus5/Default.aspx
6.筆語語料庫
筆語語料庫取材于書面語,通常包括書籍践美、報刊洗贰、書信、學術論文等常見筆語形式陨倡。相對于口語敛滋,筆語語料更容易搜集,筆語語料庫相對容量會更大兴革。
7.本族語者語料庫
該類語料庫中的樣本為本族語者的語言使用绎晃。用來對照非本族語者或者學習者語言蜜唾,可以得出學習者語言使用特點。?
英式英語本族語語料庫?British National Corpus (BNC):
https://www.english-corpora.org/bnc/
還有一篇論文《基于語料庫的中國英語學習者和英語本族語者?介詞from的搭配差異研究》庶艾,作者姜珊袁余、楊忠,就體現(xiàn)了很明確的一個對學習者用詞特點的研究落竹。
https://wenku.baidu.com/view/8e568f6d0640be1e650e52ea551810a6f524c896.html
8.學習者語料庫
由非本族語學習者語言使用樣本構成的語料庫泌霍。其中較大的兩個分類為口語語料庫和筆語語料庫,用于分別體現(xiàn)學習者在口語和筆語上的特點述召。學習者語料庫中對于文本的標注朱转,除了常用詞性標注、語義標注還可以有錯誤標注积暖,當中又可以劃分為拼寫錯誤藤为、語法錯誤、時態(tài)錯誤等夺刑。
中國英語學習者語料庫?CLEC:
https://corpus4u.org/forums/74/
9.單語語料庫
單語語料庫中的語料來自于同一種語言缅疟,如英語語料庫、漢語語料庫等遍愿。
10.平行/雙語語料庫和多語語料庫
平行/雙語語料庫中的語料來自于兩種語言存淫,而且相互對應,即一種語言是另一種語言的譯文沼填。構建雙于語料庫中的重要環(huán)節(jié)試兩種語言間的對齊桅咆,通常為句對齊或段對齊。雙語語料庫對于翻譯研究與機器翻譯研究有重要意義坞笙。多語語料庫中的語言使用樣本取自于多種語言岩饼。如Europarl Parallel Corpus (European Parliament Proceedings Parallel Corpus)收集了歐洲議會的多語言文集,將11種語言進行對齊處理薛夜。該語料庫可以從網(wǎng)上免費下載籍茧,https://www.statmt.org/europarl/