正文索引(Text Indexing)處理的就是“建立一個數(shù)據(jù)結(jié)構(gòu)以提供對文本內(nèi)容的快速檢索”泊碑。
方法:詞索引(word? index)與 全文索引(full-text index)
詞索引
詞索引基本思想
從正文中抽取出關(guān)鍵詞,用這些關(guān)鍵詞組成適合快速檢索的數(shù)據(jù)結(jié)構(gòu)赋续,適用于可以很容易解析成一組詞的集合的文本,適用于英文(不適用于中文等東方文字)
全文索引
全文索引基本思想
把正文看作一個字符串,在數(shù)據(jù)結(jié)構(gòu)中記錄子字符串的開始位置莫秆,查詢就可以針對正文中的任何子字符串,可以對每個字符建立索引,使查詢不再限于關(guān)鍵詞悔详,這會需要更大的空間
詞索引使用最廣泛
一個有序的關(guān)鍵詞列表,每個關(guān)鍵詞指向一個倒排表镊屎,指向該關(guān)鍵詞出現(xiàn)文檔集合以及在文檔中的位置
如何建立倒排表
第一步,將所有文檔文件的正文分割成多條記錄茄螃,記錄大小取決于程序的需要
(比如:定長的塊缝驳、段落、章節(jié))
第二步归苍,給每條記錄賦一組關(guān)鍵詞
從記錄中抽取關(guān)鍵詞(人工或者自動)
第三步用狱,建立正文倒排表、倒排文件
輸入關(guān)鍵詞的集合拼弃,對于每一個關(guān)鍵詞建立其倒排表夏伊,所有的倒排表存入文件
如何使用關(guān)鍵詞倒排表
第一步,在倒排文件中檢索關(guān)鍵詞吻氧。
第二步溺忧,如果找到了關(guān)鍵詞,那么獲取文件中的對應(yīng)的倒排表盯孙,并獲取倒排表中的記錄
倒排文件的優(yōu)劣
優(yōu):高效檢索鲁森,用于文本數(shù)據(jù)庫系統(tǒng)
劣:支持的檢索類型有限?
????????檢索詞有限
? ? ? ? 空間代價往往很高