lucene索引文件格式-segment文件

SegmentInfos

segmentInfo對(duì)象的集合肉渴,其中包含用于與文件系統(tǒng)相關(guān)的段進(jìn)行操作的方法。

索引中的活動(dòng)段存儲(chǔ)在段信息文件 segments_N中雹顺,索引中可能有一個(gè)或多個(gè)segments_N文件野来,但是具有最大值的那個(gè)是有效的段信息文件(當(dāng)存在較舊的segments_N文件時(shí),因?yàn)樗鼈儠簳r(shí)無(wú)法刪除疾牲,或者植捎,writer正在提交,或者正在使用自定義 IndexDeletionPolicy)阳柔。此文件按名稱列出每個(gè)段焰枢,并包含有關(guān)編解碼器和刪除的generation的詳細(xì)信息。

還有一個(gè)segments.gen文件舌剂,該文件包含當(dāng)前索引的generation(segments_N中的N)济锄。這僅用作備用,以防單獨(dú)的目錄列表無(wú)法準(zhǔn)確確定當(dāng)前的generation(對(duì)于某些具有基于時(shí)間的目錄緩存到期的NFS客戶端的情況)霍转。此文件簡(jiǎn)單地包含一個(gè) Int32版本Header( FORMAT_SEGMENTS_GEN_CURRENT)荐绝,接著的是以Int64格式寫入兩次的generation

文件:
  • segments.gen: GenHeader, Generation, Generation, Footer
  • segments_N: Header, Version, NameCounter, SegCount, <SegName, SegCodec, DelGen, DeletionCount, FieldInfosGen, DocValuesGen, UpdatesFiles>SegCount, CommitUserData, Footer
數(shù)據(jù)類型:
  • Header --> CodecHeader
  • GenHeader, NameCounter, SegCount, DeletionCount --> Int32
  • Generation, Version, DelGen, Checksum, FieldInfosGen, DocValuesGen --> Int64
  • SegName, SegCodec --> String
  • CommitUserData --> Map<String,String>
  • UpdatesFiles --> Map<Int32, Set<String>>
  • Footer --> CodecFooter
字段描述:
  • Version計(jì)數(shù)通過(guò)添加或刪除文檔來(lái)更改索引的頻率.
  • NameCounter用于為新段文件生成名稱
  • SegName是段的名稱,并用作組成段索引的所有文件的文件名前綴避消。
  • DelGen是刪除文件的generation計(jì)數(shù)低滩。如果這是-1,則沒(méi)有刪除沾谓。大于零的任何值意味著存儲(chǔ)了刪除的LiveDocsFormat
  • DeletionCount記錄此段中已刪除文檔的數(shù)量
  • SegCodec是編碼此段的解碼器的名稱
  • CommitUserData存儲(chǔ)用戶提供的可選的不透明Map <String委造,String>傳遞給IndexWriter.setCommitData(java.util.Map).
  • FieldInfosGen是fieldInfos文件的generation計(jì)數(shù)。如果為-1均驶,則該段中的fieldInfos沒(méi)有更新昏兆,大于零的任何值意味著存儲(chǔ)的fieldInfos都有更新
  • DocValuesGen是可更新DocValues的生成計(jì)數(shù)。如果為-1妇穴,則該段中的DocValues沒(méi)有更新爬虱。大于零的任何意味著存儲(chǔ)的DocValues都有更新
  • DocValuesGen是可更新DocValues的generation計(jì)數(shù)。如果為-1腾它,則該段中的DocValues沒(méi)有更新跑筝。大于零的任何意味著存儲(chǔ)的DocValues都有更新
  • UpdatesFiles存儲(chǔ)每個(gè)字段在該段中更新的文件集

Lucene40SegmentInfoFormat

文件:
  • .si: Header, SegVersion, SegSize, IsCompoundFile, Diagnostics, Attributes, Files
數(shù)據(jù)類型:
  • Header --> CodecHeader
  • SegSize --> Int32
  • SegVersion --> String
  • Files --> Set<String>
  • Diagnostics, Attributes --> Map<String,String>
  • IsCompoundFile --> Int8
字段描述:
  • SegVersion是創(chuàng)建的段的代碼版本。
  • SegSize是段索引中包含的文檔數(shù)
  • IsCompoundFile記錄段是否寫為復(fù)合文件瞒滴。如果為-1曲梗,則該段不是復(fù)合文件赞警。如果為1,則段是復(fù)合文件虏两。
  • Checksum 包含segments_N文件中所有字節(jié)的CRC32校驗(yàn)和愧旦,這用于在打開(kāi)索引時(shí)驗(yàn)證文件的完整性
  • Diagnostics Map由其IndexWriter創(chuàng)建的每個(gè)段作為調(diào)試輔助工具私密編寫。它包括元數(shù)據(jù)定罢,如當(dāng)前的Lucene版本笤虫,操作系統(tǒng),Java版本祖凫,創(chuàng)建段的原因(merge琼蚯,flush,addIndexes)等惠况。
  • Attributes:編解碼器 - 私有屬性的鍵值映射
  • Files 是此段引用的文件列表
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末遭庶,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子售滤,更是在濱河造成了極大的恐慌罚拟,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件完箩,死亡現(xiàn)場(chǎng)離奇詭異赐俗,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)弊知,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門阻逮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人秩彤,你說(shuō)我怎么就攤上這事叔扼。” “怎么了漫雷?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵瓜富,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我降盹,道長(zhǎng)与柑,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任蓄坏,我火速辦了婚禮价捧,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘涡戳。我一直安慰自己结蟋,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布渔彰。 她就那樣靜靜地躺著嵌屎,像睡著了一般推正。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宝惰,一...
    開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1 305
  • 那天舔稀,我揣著相機(jī)與錄音,去河邊找鬼掌测。 笑死,一個(gè)胖子當(dāng)著我的面吹牛产园,可吹牛的內(nèi)容都是我干的汞斧。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼什燕,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼粘勒!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起屎即,我...
    開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤庙睡,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后技俐,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體乘陪,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年雕擂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了啡邑。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡井赌,死狀恐怖谤逼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情仇穗,我是刑警寧澤流部,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站纹坐,受9級(jí)特大地震影響枝冀,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜恰画,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一宾茂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧拴还,春花似錦跨晴、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)怀骤。三九已至,卻和暖如春焕妙,著一層夾襖步出監(jiān)牢的瞬間蒋伦,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工焚鹊, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留痕届,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓末患,卻偏偏與公主長(zhǎng)得像研叫,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子璧针,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355