Elasticsearch 學習記錄(一)

基本概念和術語

  • 什么是 ES
    ES 是一個基于全文搜索引擎庫 Apache Lucene 做出來的開源分布式搜索引擎前痘,使用 JAVA 編寫,隱藏了 Luncene 的復雜性坎拐,提供了簡單 RESTFUL API 接口訪問烦磁。

  • 什么是文檔
    ES 是面向文檔的,文檔代表的就是數據哼勇,也可以理解為 MySQL 中的記錄都伪,但是 ES 不是使用行列存儲數據。ES 的文檔采用 JSON 對象的形式存儲积担,當集群中有多個 ES 節(jié)點時陨晶,存儲的文檔會分布在整個集群中,并且可以從任何節(jié)點立即訪問先誉。

  • 什么是索引
    索引可以被認為是文檔的優(yōu)化集合,每個文檔都是字段的集合的烁,字段是包含數據的鍵值對。默認情況下渴庆,ES 索引每個字段中的所有數據雅镊,并且每個索引字段都有一個專用的優(yōu)化數據結構。

  • 搜索數據
    ES 支持通過 RESETFUL API 查詢結構化數據刃滓、全文查詢,和兩者結合的復雜查詢注盈。

  • 分析數據
    ES 可以聚合查找復雜數據叙赚,并同時進行過濾結果和數據分析老客,因為聚合利用了用于搜索的相同數據結構震叮,所以它們也非畴逝椋快。

  • 節(jié)點
    指已經部署了 ES 的服務器苇瓣,節(jié)點可以指定身份尉间,用以標識在集群中的角色,分為:
    1击罪、node.master :主節(jié)點哲嘲,可以管理整個集群的設置及變化:創(chuàng)建、更新媳禁、刪除索引眠副,添加節(jié)點,為節(jié)點配置分片
    2竣稽、node.data :數據
    3囱怕、node.ingest :數據接入
    4、node.ml :機器學習

  • 集群
    由一個或多個節(jié)點組成毫别,可以通過集群名稱進行標識娃弓,在 elasticsearch.yml 配置文件中的 cluster.name 設置

  • 分片
    1、ES 用于存儲文檔的容器岛宦,可以進行復制以提供數據冗余副本台丛,防止硬件故障造成數據不能訪問的情況。
    2砾肺、分片可以分布在集群中不同的節(jié)點上挽霉,由 ES 自動管理分片的排序
    3、分片可以很方便的支持水平擴容
    4债沮、分片可以進行分布式炼吴、并行的操作,從而提高性能和吞吐量

  • 分片類型
    1疫衩、主分片:每個文檔都存儲在主分片上硅蹦,索引文檔時,首先在主分片上編制索引,然后在此分片的所有副分片上編制索引童芹,索引可以包含一個或多個主分片涮瞻,一旦創(chuàng)建索引,主分片數量就無法修改了假褪。
    2署咽、副分片:每個主分片可以具有零個或多個副本,可以實現故障轉移生音,當主分片無法工作時將副分片提升為主分片位他,也可以提高性能悄蕾。

  • 倒排索引
    ES 中的索引結構,它由文檔中所有不重復詞的列表構成,適合快速的全文搜索执桌,這也是比關系型數據庫更適合做全文索引的重要原因斥滤。
    假設有兩個文檔烂琴,每個文檔的正文字段包含如下內容:
    1弧械、The quick brown fox jumped over the lazy dog
    2、Quick brown foxes leap over lazy dogs in summer
    倒排索引創(chuàng)建時譬挚,會將每個文檔的正文字段拆分成單獨的詞(稱為詞條或Tokens),創(chuàng)建一個包含所有不重復詞條的排序列表减宣,然后列出每個詞條出現在哪個文檔。

詞條 文檔1 文檔2
Quick ?
The ?
brown ?
dog ?
dogs ?
fox ?
foxes ?
in ?
jumped ?
lazy ?
leap ?
over ?
quick ?
summer ?
the ?

默認情況下,ES 文檔每個字段都會被索引屉凯,如果某些字段不需要支持查詢,可以在映射中配置 "index": false悠砚,減少存儲空間占用,并且提升寫入速度绑咱。

  • 文檔值
    在 ES 中枢泰,文檔值(Doc Values)是一種列式存儲結構,在索引時創(chuàng)建窿克,文檔值默認對除 text 和 annotated_text 類型以外的所有字段啟用。文檔值常被應用到以下場景:
    1年叮、對一個字段進行排序
    2、對一個字段進行聚合
    3一姿、地址位置過濾
    4跃惫、腳本計算
    5、使用 docvalue_fields 返回搜索結果部分字段值
    如果確定數據集中的某些字段不會應用以上場景衬横,也可以選擇禁用文檔值终蒂,這樣不僅可以節(jié)省磁盤空間,也會提升索引的速度拇泣,通過 mapping 設置 doc_values:false即可矮锈。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末苞笨,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子序芦,更是在濱河造成了極大的恐慌粤咪,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,948評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件宪塔,死亡現場離奇詭異囊拜,居然都是意外死亡,警方通過查閱死者的電腦和手機南誊,發(fā)現死者居然都...
    沈念sama閱讀 90,371評論 3 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來弟疆,“玉大人,你說我怎么就攤上這事同廉「趟荆” “怎么了?”我有些...
    開封第一講書人閱讀 157,490評論 0 348
  • 文/不壞的土叔 我叫張陵蟆湖,是天一觀的道長玻粪。 經常有香客問我,道長伦仍,這世上最難降的妖魔是什么很洋? 我笑而不...
    開封第一講書人閱讀 56,521評論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮谓苟,結果婚禮上协怒,老公的妹妹穿的比我還像新娘。我一直安慰自己纱皆,他們只是感情好,可當我...
    茶點故事閱讀 65,627評論 6 386
  • 文/花漫 我一把揭開白布派草。 她就那樣靜靜地躺著近迁,像睡著了一般簸州。 火紅的嫁衣襯著肌膚如雪歧譬。 梳的紋絲不亂的頭發(fā)上搏存,一...
    開封第一講書人閱讀 49,842評論 1 290
  • 那天璧眠,我揣著相機與錄音,去河邊找鬼责静。 笑死,一個胖子當著我的面吹牛题翻,可吹牛的內容都是我干的腰鬼。 我是一名探鬼主播,決...
    沈念sama閱讀 38,997評論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼猾普,長吁一口氣:“原來是場噩夢啊……” “哼本谜!你這毒婦竟也來了偎窘?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,741評論 0 268
  • 序言:老撾萬榮一對情侶失蹤他托,失蹤者是張志新(化名)和其女友劉穎仆葡,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體把篓,經...
    沈念sama閱讀 44,203評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡韧掩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,534評論 2 327
  • 正文 我和宋清朗相戀三年窖铡,在試婚紗的時候發(fā)現自己被綠了坊谁。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片滑臊。...
    茶點故事閱讀 38,673評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡雇卷,死狀恐怖,靈堂內的尸體忽然破棺而出聋庵,到底是詐尸還是另有隱情,我是刑警寧澤氧映,帶...
    沈念sama閱讀 34,339評論 4 330
  • 正文 年R本政府宣布脱货,位于F島的核電站,受9級特大地震影響臼疫,放射性物質發(fā)生泄漏。R本人自食惡果不足惜烫堤,卻給世界環(huán)境...
    茶點故事閱讀 39,955評論 3 313
  • 文/蒙蒙 一鸽斟、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧富蓄,春花似錦慢逾、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,770評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽疆导。三九已至,卻和暖如春悠菜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背悔醋。 一陣腳步聲響...
    開封第一講書人閱讀 32,000評論 1 266
  • 我被黑心中介騙來泰國打工兽叮, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人账阻。 一個月前我還...
    沈念sama閱讀 46,394評論 2 360
  • 正文 我出身青樓泽本,卻偏偏與公主長得像,于是被迫代替她去往敵國和親规丽。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,562評論 2 349

推薦閱讀更多精彩內容