第三章 語(yǔ)料庫(kù)的基本技術(shù)
第一部分 語(yǔ)料庫(kù)檢索的目的和檢索類別
簡(jiǎn)單檢索
以AntCone為例
簡(jiǎn)單檢索中,word是檢索項(xiàng)的準(zhǔn)確形式查詢牲阁,如同同時(shí)選擇Case,軟件會(huì)區(qū)別大小寫立叛。在regex模式下负敏,凡是包含所查找部分的單詞都會(huì)被搜索出來(lái)。 所以在regex模式下秘蛇,適合檢索詞綴其做。
簡(jiǎn)單檢索中的通配符
1.*text 匹配text, context, pretext.?? (0或多個(gè)字符)
2. text+ 匹配text和texts??(0或1個(gè)字符)
3.b?d??? 匹配bad,bed,bid等 (1個(gè)字符)
4.in@case? 匹配in case, in the case, in any case (0或1個(gè)詞)
5.in#case 匹配 in this case, in that case, in any case等 (1個(gè)詞)
6.text|texts 匹配text和texts (或者)
利用好通配符可以在簡(jiǎn)單檢索中定義檢索項(xiàng),例如:
?*_VB*@?_V?N????? 檢索被動(dòng)語(yǔ)態(tài)
復(fù)雜檢索
1)了解賦碼文本的規(guī)律赁还,主要以TreeTagger和CLAWS為例
a.觀察詞匯相關(guān)的語(yǔ)言現(xiàn)象時(shí)分析生文本更方便妖泄,但觀察語(yǔ)法屬性時(shí)使用賦碼文本更方便。
b.每一個(gè)形符(包括詞和標(biāo)點(diǎn)符號(hào))后都帶有賦碼艘策,形符和賦碼之間形成一個(gè)“詞_碼”結(jié)構(gòu)蹈胡;而相鄰的“詞_碼” 結(jié)構(gòu)間有一個(gè)空格。
c.詞性賦碼器在賦碼的同時(shí)對(duì)文本進(jìn)行了分詞和斷句柬焕。
d.不同詞性賦碼器所使用的整套代碼存在較大的差異性审残,且代碼的總數(shù)也不相同。代碼集被稱為(tagset).
e.一般來(lái)說(shuō)斑举,每一個(gè)詞性賦碼由2至4個(gè)字母數(shù)字或其他符號(hào)構(gòu)成搅轿,這些符號(hào)具有很強(qiáng)層級(jí)體系,第一個(gè)符號(hào)可以看出詞類富玷。
2)在AntCone中利用正則表達(dá)式進(jìn)行復(fù)雜檢索
在對(duì)賦碼文本進(jìn)行檢索時(shí)璧坟,應(yīng)抓住賦碼的層級(jí)特點(diǎn)既穆,充分利用正則表達(dá)式中的常量和變量。