[lucene]Lucene學(xué)習(xí)1:倒排分析

基礎(chǔ)#

倒排中主要是詞典和詞頻位置等信息槽卫,倒排索引的設(shè)計(jì)要考慮兩點(diǎn):壓縮和存取性能铭若,在介紹具體的倒排索引前要明晰Lucene中的幾個(gè)概念

  1. PackedBlock和VIntBlock
    固定長度的block(128)和變長的block,在一個(gè)PackedBlock中的一定是不同的數(shù)據(jù),在VIntBlock中的可以是多種類型的數(shù)據(jù)

  2. Postions洲炊,payloads和Offsets
    position
    指的是這個(gè)term在doc中的位置
    offset
    是基于字母的位置

    position & offsets

    payload
    是針對每一個(gè)詞的一些額外數(shù)據(jù)吨悍,這是一個(gè)高級功能,例如:

  1. 我希望創(chuàng)建一個(gè)倒排于微,希望標(biāo)識某個(gè)term是不是粗體的逗嫡,那么,可以借助payload中標(biāo)記株依,在檢索時(shí)優(yōu)先選出


    payload
  2. 希望給每一個(gè)doc一個(gè)自己的ID驱证,
    給每一個(gè)doc加一個(gè)新的Id:myID,然后添加一個(gè)特殊的FieldID和TermID(都相同的ID)恋腕,每一個(gè)文檔都包括這個(gè)TermID
    的包括payload的posting抹锄,payload里保存myID,這樣我們就能從docId找到myID了荠藤。這相當(dāng)于添加了一個(gè)Doc級別的Payload
  3. 通過payload減小倒排大小(時(shí)間換空間)

3.SkipData Settings
skipInterval:Lucene是跳躍的步數(shù)

詞典#

                           ┏━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━┓
                           ┃  PostingsHeader   ┃   TermMetadata    ┃
                           ┗━━━━━━━━━━━━━━━━━━━┻━━━━━━━━━━━━━━━━━━━┛
                                     │                   │          
          ┌ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─ ─                               
                             │                           │          
          ▼                  ▼                ┌ ─ ─ ─ ─ ─           
┏━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━┓                            
┃      Header      ┃  PackedBlockSize  ┃      │                     
┗━━━━━━━━━━━━━━━━━━┻━━━━━━━━━━━━━━━━━━━┛                            
                                              ▼                     
                                ┏━━━━━━━━━━━━━━━━━━━━━━━━━━━┓       
                                ┃(DocFPDelta|SingletonDocID)┃       
                                ┗━━━━━━━━━━━━━━━━━━━━━━━━━━━┛       

參考文檔
1.http://lucene.apache.org/core/5_5_0/core/org/apache/lucene/codecs/lucene50/Lucene50PostingsFormat.html
2.http://www.ibm.com/developerworks/cn/opensource/os-cn-lucene-pl/
3.http://blog.csdn.net/forfuture1978/article/details/4976794

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末伙单,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子哈肖,更是在濱河造成了極大的恐慌吻育,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件淤井,死亡現(xiàn)場離奇詭異布疼,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)币狠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門游两,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人漩绵,你說我怎么就攤上這事器罐。” “怎么了渐行?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵轰坊,是天一觀的道長。 經(jīng)常有香客問我祟印,道長肴沫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任蕴忆,我火速辦了婚禮颤芬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己站蝠,他們只是感情好汰具,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著菱魔,像睡著了一般留荔。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上澜倦,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天聚蝶,我揣著相機(jī)與錄音,去河邊找鬼藻治。 笑死碘勉,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的桩卵。 我是一名探鬼主播验靡,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼雏节!你這毒婦竟也來了胜嗓?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤矾屯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后初厚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體件蚕,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年产禾,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了排作。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡亚情,死狀恐怖妄痪,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情楞件,我是刑警寧澤衫生,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站土浸,受9級特大地震影響罪针,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜黄伊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一泪酱、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦墓阀、人聲如沸毡惜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽经伙。三九已至,卻和暖如春吮成,著一層夾襖步出監(jiān)牢的瞬間橱乱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工粱甫, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留泳叠,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓茶宵,卻偏偏與公主長得像危纫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子乌庶,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容