五十二棺榔、Elasticsearch聚合分析--stringfield聚合試驗以及fielddata原理初探

1、嘗試對field執(zhí)行aggregation

GET /test_index/test_type/_search
{
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1"
      }
    }
  }
}

報錯

{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
      }
    ],
    "type": "search_phase_execution_exception",
    "reason": "all shards failed",
    "phase": "query",
    "grouped": true,
    "failed_shards": [
      {
        "shard": 0,
        "index": "test_index",
        "node": "rrFOnCB3RwqKOxaIeyLnUw",
        "reason": {
          "type": "illegal_argument_exception",
          "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
        }
      }
    ],
    "caused_by": {
      "type": "illegal_argument_exception",
      "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
    }
  },
  "status": 400
}

對分詞的field隘道,直接執(zhí)行聚合操作症歇,會報錯,大概意思是說谭梗,你必須要打開fielddata忘晤,然后將正排索引數(shù)據(jù)加載到內(nèi)存中,才可以對分詞的field執(zhí)行聚合操作激捏,而且會消耗很大的內(nèi)存设塔。

2、給分詞的field設(shè)置fielddata=true

POST /test_index/_mapping/test_type
{
  "properties": {
    "test_field1" : {
      "type": "text",
      "fielddata": true
    }
  }
}

執(zhí)行搜索

GET /test_index/test_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1"
      }
    }
  }
}

輸出結(jié)果

{
  "took": 23,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "group_by_test_field": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "test",
          "doc_count": 2
        }
      ]
    }
  }
}

發(fā)現(xiàn)成功了缩幸,所以必須將fielddata設(shè)置為true壹置。

3、使用內(nèi)置field不分詞表谊,對string field進行聚合

GET /test_index/test_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1.keyword"
      }
    }
  }
}

發(fā)現(xiàn)這樣也可以成功钞护,所以如果對不分詞的field執(zhí)行聚合搜索,直接就可以執(zhí)行爆办,不需要設(shè)置fielddata=true

4难咕、分詞field+fielddata的工作原理

doc value --》不分詞的所有field,可以執(zhí)行聚合操作--》如果你的某個field不分詞距辆,那么在index-time就會自動生成doc value--》針對這些不分詞的field執(zhí)行聚合操作的時候余佃,自動就會用doc value來執(zhí)行

分詞field,是沒有doc vakue的跨算,在index-time如果某個field是分詞的爆土,那么是不會給他建立doc value正排索引的。因為分詞后诸蚕,占用的空間過于大步势,所以默認(rèn)是不支持分詞field進行聚合的氧猬。

分詞field默認(rèn)沒有doc value,所以直接對分詞field執(zhí)行聚合操作坏瘩,是會報錯的

對于分詞field盅抚,必須打開和使用fielddata,完全存在于純內(nèi)存中倔矾。妄均。。結(jié)構(gòu)和doc value類似哪自。丰包。。如果是ngram或者是大量term提陶,那么必將占用大量的內(nèi)存烫沙。。隙笆。

如果一定要對分詞的field執(zhí)行聚合,那么必須將fielddata=true升筏,然后es就會在執(zhí)行聚合操作的時候撑柔,現(xiàn)場將field對應(yīng)的數(shù)據(jù),建立一份fielddata正排索引您访,fielddata正排索引的結(jié)構(gòu)跟doc value是類似的铅忿,但是只會將fielddata正排索引加載到內(nèi)存中來,然后基于內(nèi)存中的fielddata正排索引執(zhí)行分詞field的聚合操作

如果直接對分詞field執(zhí)行聚合灵汪,報錯檀训,才會讓我們開啟fielddata=true,告訴我們享言,會將fielddata uninverted index峻凫,正排索引,加載到內(nèi)存览露,會耗費內(nèi)存空間

為什么fielddata必須在內(nèi)存荧琼?因為大家自己思考一下,分詞的字符串差牛,需要按照term進行聚合命锄,需要執(zhí)行更加復(fù)雜的算法和操作,如果基于磁盤和os cache偏化,那么性能會很差

fielddata和doc value不一樣脐恩,fielddata在內(nèi)存中的,doc vlaue是加載到磁盤的

若有興趣侦讨,歡迎來加入群驶冒,【Java初學(xué)者學(xué)習(xí)交流群】:458430385析孽,此群有Java開發(fā)人員、UI設(shè)計人員和前端工程師只怎。有問必答袜瞬,共同探討學(xué)習(xí),一起進步身堡!
歡迎關(guān)注我的微信公眾號【Java碼農(nóng)社區(qū)】邓尤,會定時推送各種干貨:


qrcode_for_gh_577b64e73701_258.jpg
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市贴谎,隨后出現(xiàn)的幾起案子汞扎,更是在濱河造成了極大的恐慌,老刑警劉巖擅这,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件澈魄,死亡現(xiàn)場離奇詭異,居然都是意外死亡仲翎,警方通過查閱死者的電腦和手機痹扇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來溯香,“玉大人鲫构,你說我怎么就攤上這事檩奠∈『耍” “怎么了?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵尝艘,是天一觀的道長湿镀。 經(jīng)常有香客問我炕吸,道長,這世上最難降的妖魔是什么勉痴? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任赫模,我火速辦了婚禮,結(jié)果婚禮上蚀腿,老公的妹妹穿的比我還像新娘嘴瓤。我一直安慰自己,他們只是感情好莉钙,可當(dāng)我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布廓脆。 她就那樣靜靜地躺著,像睡著了一般磁玉。 火紅的嫁衣襯著肌膚如雪停忿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天蚊伞,我揣著相機與錄音席赂,去河邊找鬼吮铭。 笑死,一個胖子當(dāng)著我的面吹牛颅停,可吹牛的內(nèi)容都是我干的谓晌。 我是一名探鬼主播,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼纸肉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了喊熟?” 一聲冷哼從身側(cè)響起柏肪,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎芥牌,沒想到半個月后烦味,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡壁拉,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年谬俄,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片扇商。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡凤瘦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出案铺,到底是詐尸還是另有隱情,我是刑警寧澤梆靖,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布控汉,位于F島的核電站,受9級特大地震影響返吻,放射性物質(zhì)發(fā)生泄漏姑子。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一测僵、第九天 我趴在偏房一處隱蔽的房頂上張望街佑。 院中可真熱鬧,春花似錦捍靠、人聲如沸沐旨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽磁携。三九已至,卻和暖如春良风,著一層夾襖步出監(jiān)牢的瞬間谊迄,已是汗流浹背闷供。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留统诺,地道東北人歪脏。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像粮呢,于是被迫代替她去往敵國和親婿失。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內(nèi)容