Lucene的索引文件格式(基于V7_3_0)

拜讀劉超覺先的Lucene學(xué)習(xí)筆記Lucene學(xué)習(xí)總結(jié)之三:Lucene的索引文件格式(1)德玫、Lucene的索引文件格式(2)劫窒、Lucene的索引文件格式(3),受益良多提岔,但是由于文章年代久遠(yuǎn)仙蛉,Lucene以迭代的面目全非,這里依照原作者的思路和框架碱蒙,對現(xiàn)在的最新版Lucene進(jìn)行一些淺顯的學(xué)習(xí)荠瘪,并記錄于此。

Lucene的索引里面存了些什么赛惩,如何存放的哀墓,也即Lucene的索引文件格式,是讀懂Lucene源代碼的一把鑰匙喷兼。

原作者的文章目錄:

---索引---

一篮绰、基本概念

  • 1.1 索引(Index)

  • 1.2 段(Segment)

  • 1.3 文檔(Document)

  • 1.4 域(field)

  • 1.5 詞(term)

  • 1.6 正向信息

  • 1.7 反向信息

  • 1.8 名稱和擴(kuò)展名總結(jié)

二、基本概念

  • 2.1 Byte

  • 2.2 UInt32

  • 2.3 UInt64

  • 2.4 VInt

  • 2.5 Chars

  • 2.6 String

三褒搔、基本規(guī)則

  • 3.1 前綴后綴規(guī)則(Prefix+Suffix)

  • 3.2 差值規(guī)則(Delta)

  • 3.3 或然跟隨規(guī)則(A, B?)

  • 3.4 跳躍表規(guī)則(Skip list)

四阶牍、具體格式

  • 4.1 正向信息

    • 4.1.1 段的元數(shù)據(jù)信息(segments_N)

    • 4.1.2 域(Field)的元數(shù)據(jù)信息(.fnm)

    • 4.1.3 域(Field)的數(shù)據(jù)信息(.fdt喷面,.fdx)

    • 4.1.4 詞向量(Term Vector)的數(shù)據(jù)信息(.tvx,.tvd走孽,.tvf)

  • 4.2 反向信息

    • 4.2.1 詞典(.tis)及詞典索引(.tii)信息

    • 4.2.2 文檔號及詞頻(.frq)信息

    • 4.2.3 詞位置(.prx)信息

  • 4.3 其他信息

    • 4.3.1 標(biāo)準(zhǔn)化因子文件(.nrm)

    • 4.3.2 刪除文檔文件(.del)

五惧辈、總體結(jié)構(gòu)

當(dāng)我們真正進(jìn)入到Lucene源碼之中的時(shí)候,我們會發(fā)現(xiàn):

  • Lucene的索引過程磕瓷,就是按照全文檢索的基本過程盒齿,將倒排表寫成此文件格式的過程。

  • Lucene的搜索過程困食,就是按照此文件格式將索引進(jìn)去的信息讀出來边翁,然后計(jì)算每篇文檔打分(score)的過程。

首先打開Apache Lucene 7.3.0的文檔頁面:
http://lucene.apache.org/core/7_3_0/index.html

參考文檔列表中有以下文檔供我們查閱:

File Description
Changes List of changes in this release.
System Requirements Minimum and supported Java versions.
Migration Guide What changed in Lucene 7; how to migrate code from Lucene 6.x.
JRE Version Migration Information about upgrading between major JRE versions.
File Formats Guide to the supported index format used by Lucene. This can be customized by using an alternate codec.
Search and Scoring in Lucene Introduction to how Lucene scores documents.
Classic Scoring Formula Formula of Lucene's classic Vector Spaceimplementation.
Classic QueryParser Syntax Overview of the Classic QueryParser's syntax and features.
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末硕盹,一起剝皮案震驚了整個濱河市符匾,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌瘩例,老刑警劉巖啊胶,帶你破解...
    沈念sama閱讀 222,946評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異垛贤,居然都是意外死亡焰坪,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評論 3 399
  • 文/潘曉璐 我一進(jìn)店門聘惦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來某饰,“玉大人,你說我怎么就攤上這事善绎∏” “怎么了?”我有些...
    開封第一講書人閱讀 169,716評論 0 364
  • 文/不壞的土叔 我叫張陵涂邀,是天一觀的道長瘟仿。 經(jīng)常有香客問我,道長比勉,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,222評論 1 300
  • 正文 為了忘掉前任驹止,我火速辦了婚禮浩聋,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘臊恋。我一直安慰自己衣洁,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評論 6 398
  • 文/花漫 我一把揭開白布抖仅。 她就那樣靜靜地躺著坊夫,像睡著了一般砖第。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上环凿,一...
    開封第一講書人閱讀 52,807評論 1 314
  • 那天梧兼,我揣著相機(jī)與錄音,去河邊找鬼智听。 笑死羽杰,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的到推。 我是一名探鬼主播考赛,決...
    沈念sama閱讀 41,235評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼莉测!你這毒婦竟也來了颜骤?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,189評論 0 277
  • 序言:老撾萬榮一對情侶失蹤捣卤,失蹤者是張志新(化名)和其女友劉穎忍抽,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體腌零,經(jīng)...
    沈念sama閱讀 46,712評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡梯找,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了益涧。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片锈锤。...
    茶點(diǎn)故事閱讀 40,926評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖闲询,靈堂內(nèi)的尸體忽然破棺而出久免,到底是詐尸還是另有隱情,我是刑警寧澤扭弧,帶...
    沈念sama閱讀 36,580評論 5 351
  • 正文 年R本政府宣布阎姥,位于F島的核電站,受9級特大地震影響鸽捻,放射性物質(zhì)發(fā)生泄漏呼巴。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評論 3 336
  • 文/蒙蒙 一御蒲、第九天 我趴在偏房一處隱蔽的房頂上張望衣赶。 院中可真熱鬧,春花似錦厚满、人聲如沸府瞄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽遵馆。三九已至鲸郊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間货邓,已是汗流浹背秆撮。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留逻恐,地道東北人像吻。 一個月前我還...
    沈念sama閱讀 49,368評論 3 379
  • 正文 我出身青樓,卻偏偏與公主長得像复隆,于是被迫代替她去往敵國和親拨匆。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評論 2 361

推薦閱讀更多精彩內(nèi)容