Lucene的基本概念

  • Index

    Index就是索引庫(相當(dāng)于書的目錄)赘艳,文檔的集合組成索引丁稀,和一般的數(shù)據(jù)庫不一樣,Lucene不支持主鍵话原。在lucene中并不存在一個(gè)叫做Index的類夕吻。
    創(chuàng)建索引的時(shí)候用IndexWriter,搜索的時(shí)候用IndexReader
    索引庫在物理形式上一般是位于一個(gè)路徑下的一系列文件繁仁。

  • Analyzer

分析器涉馅,一段有意義的文字需要通過Analyzer來分割成一個(gè)個(gè)詞語后才能按關(guān)鍵詞搜索。StandartdAnalyzer是Lucene中常用的分析器黄虱,對于中文分詞有CJKAnalyzer稚矿、SmartChinieseAnalyzer等。

  • Token
    Analyzer返回的結(jié)果就是一串Token。Token包含一個(gè)代表詞本身含義的字符串(也就是詞本身嘛)和該詞在文章中相應(yīng)的起止偏移位置晤揣,Token還包含一個(gè)用來存儲詞類型的字符串桥爽。
  • Document
    一個(gè)Document代表索引庫中的一條記錄(書目錄中的其中一個(gè)條目),也叫做文檔昧识。要搜索的信息封裝成Document后通過IndexWriter寫入索引庫钠四。調(diào)用Searcher接口按關(guān)鍵詞搜索后,返回的也是一個(gè)封裝后的Document列表跪楞。

    在Lucene6.1.0
    文檔中對
    Document
    的描述如下:

Documents are the unit of indexing and search. A Document is a set of fields. Each field has a name and a textual value. A field may be stored with the document, in which case it is returned with search hits on the document. Thus each document should typically contain one or more stored fields which uniquely identify it.
Note that fields which are not stored are not available in documents retrieved from the index.

簡單的翻譯如下:

文檔是建立索引和搜索的基本單位形导,一個(gè)文檔由一系列的filed組成,每個(gè)field有一個(gè)名稱和一個(gè)值(鍵值對)习霹,一個(gè)field可以隨文檔一起存儲朵耕,在搜索時(shí)候隨著Document一起被返回。因此淋叶,每個(gè)Document都應(yīng)該由一個(gè)或者多個(gè)能夠唯一標(biāo)識它的field組成阎曹。值得注意的是,沒有被存儲的field在檢索的時(shí)候是不會被返回的煞檩。

怪不得每次創(chuàng)建Field的時(shí)候处嫌,都會有個(gè)Field.Store.YES,如下:

Field pathField = new StringField("path", file.toString(), Field.Store.YES);
  • Field

一個(gè)Document可以包含多個(gè)列斟湃,叫做Field熏迹。例如一篇文章可以包含“標(biāo)題”、“正文”凝赛、“修改時(shí)間”等Field注暗。創(chuàng)建這些列對象后,可以通過Document的add方法增加這些列墓猎。如:

Document doc = new Document();   
Field pathField = new StringField("path", file.toString(), Field.Store.YES);
doc.add(pathField);

和一般的數(shù)據(jù)庫不一樣捆昏,一個(gè)文檔的一個(gè)列可以有多個(gè)值。例如一篇文檔即可以屬于互聯(lián)網(wǎng)類毙沾,有可以屬于科技類骗卜。

  • Term
    Term是搜索語法的最小單位,復(fù)雜的搜索語句會分解成一個(gè)Term查詢左胞。它表示文檔的一個(gè)詞語寇仓,Term由兩部分組成:它表示的詞語和這個(gè)詞語所出現(xiàn)的Field。

Note: Lucene中的API相對數(shù)據(jù)庫來說比較靈活烤宙,沒有類似數(shù)據(jù)庫先定義表結(jié)構(gòu)后使用的過程遍烦。如果前后兩次寫索引時(shí)定義的列名稱不一樣,Lucene會自動(dòng)創(chuàng)建新的列门烂,所以Field的一致性需要我們自己掌握乳愉。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市屯远,隨后出現(xiàn)的幾起案子蔓姚,更是在濱河造成了極大的恐慌,老刑警劉巖慨丐,帶你破解...
    沈念sama閱讀 222,729評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件坡脐,死亡現(xiàn)場離奇詭異,居然都是意外死亡房揭,警方通過查閱死者的電腦和手機(jī)备闲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來捅暴,“玉大人恬砂,你說我怎么就攤上這事∨钛鳎” “怎么了泻骤?”我有些...
    開封第一講書人閱讀 169,461評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長梧奢。 經(jīng)常有香客問我狱掂,道長,這世上最難降的妖魔是什么亲轨? 我笑而不...
    開封第一講書人閱讀 60,135評論 1 300
  • 正文 為了忘掉前任趋惨,我火速辦了婚禮,結(jié)果婚禮上惦蚊,老公的妹妹穿的比我還像新娘器虾。我一直安慰自己,他們只是感情好蹦锋,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,130評論 6 398
  • 文/花漫 我一把揭開白布曾撤。 她就那樣靜靜地躺著,像睡著了一般晕粪。 火紅的嫁衣襯著肌膚如雪挤悉。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,736評論 1 312
  • 那天巫湘,我揣著相機(jī)與錄音装悲,去河邊找鬼。 笑死尚氛,一個(gè)胖子當(dāng)著我的面吹牛诀诊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播阅嘶,決...
    沈念sama閱讀 41,179評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼属瓣,長吁一口氣:“原來是場噩夢啊……” “哼载迄!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起抡蛙,我...
    開封第一講書人閱讀 40,124評論 0 277
  • 序言:老撾萬榮一對情侶失蹤护昧,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后粗截,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惋耙,經(jīng)...
    沈念sama閱讀 46,657評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,723評論 3 342
  • 正文 我和宋清朗相戀三年熊昌,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了绽榛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,872評論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡婿屹,死狀恐怖灭美,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情昂利,我是刑警寧澤冲粤,帶...
    沈念sama閱讀 36,533評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站页眯,受9級特大地震影響梯捕,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜窝撵,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,213評論 3 336
  • 文/蒙蒙 一傀顾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧碌奉,春花似錦短曾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至魁兼,卻和暖如春婉徘,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背咐汞。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評論 1 274
  • 我被黑心中介騙來泰國打工盖呼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人化撕。 一個(gè)月前我還...
    沈念sama閱讀 49,304評論 3 379
  • 正文 我出身青樓几晤,卻偏偏與公主長得像,于是被迫代替她去往敵國和親植阴。 傳聞我的和親對象是個(gè)殘疾皇子蟹瘾,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,876評論 2 361

推薦閱讀更多精彩內(nèi)容