前言
? ? ? ?我們建立一個(gè)網(wǎng)站或者一個(gè)應(yīng)用通常都會有搜索的功能吓妆,如果我們做的只是用戶量很少的內(nèi)網(wǎng)項(xiàng)目寞焙,并且搜索的字段都是一些內(nèi)容很簡短的字段,比如名字熔掺,編號之類的,那完全可以用數(shù)據(jù)庫like語句
? ? ? ?但是非剃,數(shù)據(jù)庫like查詢性能非常低置逻,如果搜索的請求多,或者需要搜索的是大文本類型的內(nèi)容(全文搜索)备绽,那么這種搜索的方案是不可取的券坞。
? ? ? ?那既然我們要做性能高的全文搜索,這個(gè)需求又不能依賴數(shù)據(jù)庫肺素,只能有我們自己來實(shí)現(xiàn)了恨锚,但是令我們很受打擊的是全文搜索是很難實(shí)現(xiàn)的,我們不僅希望能全文搜索倍靡,還希望它足夠穩(wěn)定足夠快猴伶,希望我們的搜索結(jié)果有關(guān)鍵字高亮,并且能按各種匹配分?jǐn)?shù)來排序塌西,希望它能切換不同的分詞算法來滿足各種分詞需求他挎。所以說,我們想要做一個(gè)功能完善雨让,性能強(qiáng)大的全文搜索真的不是那么簡單,而全文搜索又是一個(gè)常見的需求忿等,所以市面上已經(jīng)有一些現(xiàn)成的解決方案了栖忠。
? ? ? ?這些現(xiàn)成的解決方案開源出來,獲得大量的社區(qū)開發(fā)者支持,不斷為其開發(fā)插件庵寞,使其不斷優(yōu)化和完善狸相,這就成了我們所說的搜索引擎了。
? ? ? ?這些搜索引擎正是我們需要的捐川,它可以解決我們遇到的痛點(diǎn)脓鹃,我們可以直接拿這些開源的搜索引擎來使用,無需關(guān)心它如何實(shí)現(xiàn)古沥,我們只需要專注我們業(yè)務(wù)的開發(fā)就行了瘸右,這樣的話也避免了我們出現(xiàn)重復(fù)造輪子的現(xiàn)象了,而且這還是一個(gè)很麻煩的輪子岩齿。
? ? ? ?在這些開源的搜索引擎中有一個(gè)特別優(yōu)秀太颤,市場占有量最大,他就是Lucene盹沈。但是隨著分布式應(yīng)用,微服務(wù)應(yīng)用乞封,云計(jì)算做裙,大數(shù)據(jù)這些技術(shù)的興起,像搜索這樣的非常消耗系統(tǒng)性能的服務(wù)也應(yīng)該把它抽取出來獨(dú)立部署為一個(gè)服務(wù)系統(tǒng)肃晚,甚至是一個(gè)大型的云服務(wù)锚贱。然后根據(jù)訪問的壓力,可以橫向擴(kuò)展做搜索服務(wù)的集群陷揪,集群中的每個(gè)節(jié)點(diǎn)的數(shù)據(jù)都能以一個(gè)接近實(shí)時(shí)的速度來同步數(shù)據(jù)惋鸥,并把請求按多種不同的算法來分發(fā)到具體的服務(wù)節(jié)點(diǎn)。而服務(wù)化了的搜索引擎能支持RESTful方式請求悍缠,并且交互的數(shù)據(jù)以json這種輕量數(shù)據(jù)格式卦绣。如果我們想讓我們的全文搜索具備以上所提到的這些能力,那只使用Lucene是顯然不夠的飞蚓,我們還得圍繞著Lucene做大量的事情滤港,這樣的工作量和工作難度可能大多數(shù)中小型企業(yè)難以承受。但是趴拧,往往世界上就有那么一群人溅漾,他們很有能力,并且富有分享精神著榴,他們以Lucene為核心構(gòu)建了一套強(qiáng)大的搜索服務(wù)器添履,當(dāng)然這些搜索服務(wù)器不但具備著搜索引擎本該有的一整套搜索相關(guān)的功能,還具備著我們上面所說的這些能力脑又,最重要的是:它們是開源共享的暮胧。而它們中最有名氣的就是elasticsearch和solr锐借。其中,elasticsearch就是我們要深入探討的技術(shù)往衷。
Elasticsearch是什么
? ? ? ?Elasticsearch是一個(gè)基于Lucene搜索引擎為核心構(gòu)建的開源钞翔,分布式,RESTful搜索服務(wù)器席舍。設(shè)計(jì)用于云計(jì)算中布轿,能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定来颤,可靠汰扭,快速,安裝使用方便脚曾,輕松擴(kuò)展服務(wù)節(jié)點(diǎn)东且。
Elasticsearch是用Java開發(fā)的,但它卻不是只支持Java語言本讥,因?yàn)樗С諶ESTful方式調(diào)用珊泳,那理論上它是支持所有開發(fā)語言的,除此之外拷沸,如果你不想使用RESTful方式調(diào)用Elasticsearch服務(wù)器色查,那Elasticsearch還提供了各種語言的api供我們使用。
我們通過以下這張分析圖來看看elasticsearch是如何工作的:
相關(guān)概念
接近實(shí)時(shí)(NRT):
? ? ? ?Elasticsearch 是一個(gè)接近實(shí)時(shí)的搜索平臺撞芍。這意味著秧了,從索引一個(gè)文檔直到這個(gè)文檔能夠被搜索到有一個(gè)很小的延遲,包括如果做了集群的話序无,集群中的各個(gè)節(jié)點(diǎn)數(shù)據(jù)同步也是接近實(shí)時(shí)的验毡。
集群(cluster):
? ? ? ?elasticsearch一個(gè)很大的優(yōu)勢是它可以很方便的做集群,在一個(gè)elasticsearch的集群中帝嗡,有很多的節(jié)點(diǎn)(node)晶通,其中有一個(gè)為主節(jié)點(diǎn),這個(gè)主節(jié)點(diǎn)是可以通過選舉產(chǎn)生的哟玷,主從節(jié)點(diǎn)是對于集群內(nèi)部來說的狮辽。es的一個(gè)概念就是去中心化,字面上理解就是無中心節(jié)點(diǎn)巢寡,這是對于集群外部來說的喉脖,因?yàn)閺耐獠縼砜磂s集群,在邏輯上是個(gè)整體抑月,你與任何一個(gè)節(jié)點(diǎn)的通信和與整個(gè)es集群通信是等價(jià)的树叽。
節(jié)點(diǎn)(node):
? ? ? ?節(jié)點(diǎn)(node)其實(shí)就是一個(gè)elasticsearch服務(wù)器的實(shí)例,節(jié)點(diǎn)(node)主要有3種類型谦絮,第一種類型是client_node题诵,主要是起到請求分發(fā)的作用须误,類似路由。第二種類型是master_node仇轻,是主的節(jié)點(diǎn),所有的新增奶甘,刪除篷店,數(shù)據(jù)分片都是由主節(jié)點(diǎn)操作(elasticsearch底層是沒有更新數(shù)據(jù)操作的,上層對外提供的更新實(shí)際上是刪除了再新增)臭家,當(dāng)然也能承擔(dān)搜索操作疲陕。第三種類型是date_node,該類型的節(jié)點(diǎn)只能做搜索操作钉赁,具體會分配到哪個(gè)date_node蹄殃,就是由client_node決定,而data_node的數(shù)據(jù)都是從master_node同步過來的你踩。
索引(index):
? ? ? ?ElasticSearch將它的數(shù)據(jù)存儲在一個(gè)或多個(gè)索引(index)中诅岩。用SQL領(lǐng)域的術(shù)語來類比,索引就像數(shù)據(jù)庫带膜,可以向索引寫入文檔或者從索引中讀取文檔吩谦。
文檔類型(type):
? ? ? ?文檔類型(type)是用來規(guī)定文檔的各個(gè)字段內(nèi)容的數(shù)據(jù)類型和其他的一些約束,相當(dāng)于關(guān)系型數(shù)據(jù)庫中的表膝藕,一個(gè)索引(index)可以有多個(gè)文檔類型(type)式廷。
文檔(document):
? ? ? ?在Elasticsearch中,文檔(document)是存儲數(shù)據(jù)的載體芭挽,包含一個(gè)或多個(gè)字段滑废。一個(gè)文檔(document)相當(dāng)于關(guān)系型數(shù)據(jù)庫中的一行數(shù)據(jù)。
? ? ? ?這些就是elasticsearch的一些比較重要的概念袜爪,還有其他的概念我們就不一一列舉了蠕趁,但是大家通過以上的概念可能發(fā)現(xiàn),elasticsearch的設(shè)計(jì)跟關(guān)系型數(shù)據(jù)庫的設(shè)計(jì)還是挺像的饿敲,我們可以通過關(guān)系型數(shù)據(jù)庫的概念來類比著學(xué)習(xí)elasticsearch妻导,所以來看看以下這張對比圖:
? ? ? ?那么關(guān)于Elasticsearch的介紹就先講到這里,下個(gè)章節(jié)我們就來把Elasticsearch安裝起來使用怀各。