Elasticsearch簡介孝情、正向索引之拨、倒排索引(系列一)

一. Elasticsearch簡介

????Elasticsearch是一個基于Apache Lucene(TM)的開源搜索引擎。無論在開源還是專有領(lǐng)域咧叭,Lucene可以被認(rèn)為是迄今為止最先進(jìn)、性能最好的烁竭、功能最全的搜索引擎庫菲茬。

????但是,Lucene只是一個庫派撕。想要使用它婉弹,你必須使用Java來作為開發(fā)語言并將其直接集成到你的應(yīng)用中,更糟糕的是终吼,Lucene非常復(fù)雜镀赌,你需要深入了解檢索的相關(guān)知識來理解它是如何工作的。

????Elasticsearch也使用Java開發(fā)并使用Lucene作為其核心來實現(xiàn)所有索引和搜索的功能际跪,但是它的目的是通過簡單的RESTful API來隱藏Lucene的復(fù)雜性商佛,從而讓全文搜索變得簡單。

二. 人物介紹

\color{#4285f4}{Shay Banon}

????在他待業(yè)階段姆打,跟隨著想學(xué)習(xí)廚師的新婚妻子到達(dá)倫敦良姆,便想為妻子開發(fā)一個可以搜索食譜的應(yīng)用,于是便接觸了lucene幔戏,經(jīng)過不斷的研發(fā)玛追,誕生了他的第一款產(chǎn)品 “Compass”。后來產(chǎn)品更名為Elasticsearch闲延,代碼托管在github上痊剖,Shay Banon自己也說過他的產(chǎn)品的成功關(guān)鍵是源于開源,外加除了搜索之外的其他的用例垒玲。Shay Banon于2012年成立Elastic公司陆馁,公司與2018年上市,但是迄今為止好像還是沒有為他的妻子做出搜索菜譜的應(yīng)用侍匙,估計也用不上了吧氮惯。

\color{#4285f4}{Dog cutting}

提到目前幾乎所有的開源搜索引擎叮雳,都不得不提這個人Dog cutting. 他是Lucene的項目發(fā)起人,同樣也是當(dāng)今在大數(shù)據(jù)和云計算領(lǐng)域如日中天的Hadoop的創(chuàng)始人妇汗。

三.正向索引以及倒排索引

????正向索引與倒排索引帘不,這是在搜索領(lǐng)域中非常重要的兩個名詞,正向索引通常用于數(shù)據(jù)庫中杨箭,在搜索引擎領(lǐng)域使用的最多的就是倒排索引寞焙,我們根據(jù)如下兩個網(wǎng)頁來對這兩個概念進(jìn)行闡述:
\color{red}{html1}

我愛我的祖國,我愛編程

\color{red}{html2}

我愛編程互婿,我是個快樂的小碼農(nóng)

3.1 正向索引

????假設(shè)我們使用mysql的全文檢索捣郊,會對如上兩句話分別進(jìn)行分詞處理,所謂的分詞慈参,就是將一句話按照中文的語義拆分成字或者詞呛牲,然后將沒有太多含義的字去掉(例如: 的、得驮配、了娘扩、嗯等這類詞), 那么大概會得到的結(jié)果如下(當(dāng)然還有每個詞或字的詞頻和出現(xiàn)的位置,為了方便理解壮锻,我只是把詞或字列出來):

我 愛 愛我 祖國 我的祖國 編程 我愛編程
我 我愛 愛 編程 愛編程 我愛編程 快樂 碼農(nóng) 小碼農(nóng)

????假設(shè)我們現(xiàn)在使用正向索引搜索 編程 這個詞琐旁,那么會到第一句話所有分詞中查找是否包含有 編程 這個關(guān)鍵詞,如果有則加入到結(jié)果集中猜绣;第二句話也是如此灰殴。假設(shè)現(xiàn)在有100萬個網(wǎng)頁,每次查詢都會到這100萬個網(wǎng)頁所產(chǎn)生的分詞掰邢,到那么搜索的效率將會非常非常低些牺陶。

3.2 倒排索引

????倒排索引是按照分詞與文檔進(jìn)行映射,我們來看看如果按照倒排索引的效果:

關(guān)鍵詞 文檔名
html1,html2
html1,html2
愛我 html1
我愛 html2
祖國 html1
我的祖國 html1
編程 html1,html2
我愛編程 html1,html2
愛編程 html1,html2
快樂 html2
碼農(nóng) html2
小碼農(nóng) html2

????如果采用倒排索引的方式搜索 編程 這個詞辣之,那么會直接找到關(guān)鍵詞中查找到 編程 义图,然后查找到對應(yīng)的文檔,這就是所謂的倒排索引召烂。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末碱工,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子奏夫,更是在濱河造成了極大的恐慌怕篷,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件酗昼,死亡現(xiàn)場離奇詭異廊谓,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)麻削,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門蒸痹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來春弥,“玉大人,你說我怎么就攤上這事叠荠∧渑妫” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵榛鼎,是天一觀的道長逃呼。 經(jīng)常有香客問我,道長者娱,這世上最難降的妖魔是什么抡笼? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮黄鳍,結(jié)果婚禮上推姻,老公的妹妹穿的比我還像新娘。我一直安慰自己框沟,他們只是感情好拾碌,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著街望,像睡著了一般。 火紅的嫁衣襯著肌膚如雪弟跑。 梳的紋絲不亂的頭發(fā)上灾前,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天,我揣著相機(jī)與錄音孟辑,去河邊找鬼哎甲。 笑死,一個胖子當(dāng)著我的面吹牛饲嗽,可吹牛的內(nèi)容都是我干的炭玫。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼貌虾,長吁一口氣:“原來是場噩夢啊……” “哼吞加!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起尽狠,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤衔憨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后袄膏,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體践图,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年沉馆,在試婚紗的時候發(fā)現(xiàn)自己被綠了码党。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片德崭。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖揖盘,靈堂內(nèi)的尸體忽然破棺而出眉厨,到底是詐尸還是另有隱情,我是刑警寧澤扣讼,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布缺猛,位于F島的核電站,受9級特大地震影響椭符,放射性物質(zhì)發(fā)生泄漏荔燎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一销钝、第九天 我趴在偏房一處隱蔽的房頂上張望有咨。 院中可真熱鬧,春花似錦蒸健、人聲如沸座享。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽渣叛。三九已至,卻和暖如春盯捌,著一層夾襖步出監(jiān)牢的瞬間淳衙,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工饺著, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留箫攀,地道東北人。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓幼衰,卻偏偏與公主長得像靴跛,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子渡嚣,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354

推薦閱讀更多精彩內(nèi)容