五十二棺榔、Elasticsearch聚合分析--stringfield聚合試驗以及fielddata原理初探

1、嘗試對field執(zhí)行aggregation

GET /test_index/test_type/_search
{
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1"
      }
    }
  }
}

報錯

{
  "error": {
    "root_cause": [
      {
        "type": "illegal_argument_exception",
        "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
      }
    ],
    "type": "search_phase_execution_exception",
    "reason": "all shards failed",
    "phase": "query",
    "grouped": true,
    "failed_shards": [
      {
        "shard": 0,
        "index": "test_index",
        "node": "rrFOnCB3RwqKOxaIeyLnUw",
        "reason": {
          "type": "illegal_argument_exception",
          "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
        }
      }
    ],
    "caused_by": {
      "type": "illegal_argument_exception",
      "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [test_field1] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory."
    }
  },
  "status": 400
}

對分詞的field隘道，直接執(zhí)行聚合操作症歇，會報錯，大概意思是說谭梗，你必須要打開fielddata忘晤，然后將正排索引數(shù)據(jù)加載到內(nèi)存中，才可以對分詞的field執(zhí)行聚合操作激捏，而且會消耗很大的內(nèi)存设塔。

2、給分詞的field設(shè)置fielddata=true

POST /test_index/_mapping/test_type
{
  "properties": {
    "test_field1" : {
      "type": "text",
      "fielddata": true
    }
  }
}

執(zhí)行搜索

GET /test_index/test_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1"
      }
    }
  }
}

輸出結(jié)果

{
  "took": 23,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "group_by_test_field": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "test",
          "doc_count": 2
        }
      ]
    }
  }
}

發(fā)現(xiàn)成功了缩幸，所以必須將fielddata設(shè)置為true壹置。

3、使用內(nèi)置field不分詞表谊，對string field進行聚合

GET /test_index/test_type/_search
{
  "size": 0,
  "aggs": {
    "group_by_test_field": {
      "terms": {
        "field": "test_field1.keyword"
      }
    }
  }
}

發(fā)現(xiàn)這樣也可以成功钞护，所以如果對不分詞的field執(zhí)行聚合搜索，直接就可以執(zhí)行爆办，不需要設(shè)置fielddata=true

4难咕、分詞field+fielddata的工作原理

doc value --》不分詞的所有field，可以執(zhí)行聚合操作--》如果你的某個field不分詞距辆，那么在index-time就會自動生成doc value--》針對這些不分詞的field執(zhí)行聚合操作的時候余佃，自動就會用doc value來執(zhí)行

分詞field，是沒有doc vakue的跨算，在index-time如果某個field是分詞的爆土，那么是不會給他建立doc value正排索引的。因為分詞后诸蚕，占用的空間過于大步势，所以默認(rèn)是不支持分詞field進行聚合的氧猬。

分詞field默認(rèn)沒有doc value，所以直接對分詞field執(zhí)行聚合操作坏瘩，是會報錯的

對于分詞field盅抚，必須打開和使用fielddata，完全存在于純內(nèi)存中倔矾。妄均。。結(jié)構(gòu)和doc value類似哪自。丰包。。如果是ngram或者是大量term提陶，那么必將占用大量的內(nèi)存烫沙。。隙笆。

如果一定要對分詞的field執(zhí)行聚合，那么必須將fielddata=true升筏，然后es就會在執(zhí)行聚合操作的時候撑柔，現(xiàn)場將field對應(yīng)的數(shù)據(jù)，建立一份fielddata正排索引您访，fielddata正排索引的結(jié)構(gòu)跟doc value是類似的铅忿，但是只會將fielddata正排索引加載到內(nèi)存中來，然后基于內(nèi)存中的fielddata正排索引執(zhí)行分詞field的聚合操作

如果直接對分詞field執(zhí)行聚合灵汪，報錯檀训，才會讓我們開啟fielddata=true，告訴我們享言，會將fielddata uninverted index峻凫，正排索引，加載到內(nèi)存览露，會耗費內(nèi)存空間

為什么fielddata必須在內(nèi)存荧琼？因為大家自己思考一下，分詞的字符串差牛，需要按照term進行聚合命锄，需要執(zhí)行更加復(fù)雜的算法和操作，如果基于磁盤和os cache偏化，那么性能會很差

fielddata和doc value不一樣脐恩，fielddata在內(nèi)存中的，doc vlaue是加載到磁盤的

若有興趣侦讨，歡迎來加入群驶冒，【Java初學(xué)者學(xué)習(xí)交流群】：458430385析孽，此群有Java開發(fā)人員、UI設(shè)計人員和前端工程師只怎。有問必答袜瞬，共同探討學(xué)習(xí)，一起進步身堡！
歡迎關(guān)注我的微信公眾號【Java碼農(nóng)社區(qū)】邓尤，會定時推送各種干貨：

qrcode_for_gh_577b64e73701_258.jpg

最后編輯于：2017.12.09 01:23:00

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市贴谎，隨后出現(xiàn)的幾起案子汞扎，更是在濱河造成了極大的恐慌，老刑警劉巖擅这，帶你破解...
沈念sama閱讀 222,000評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件澈魄，死亡現(xiàn)場離奇詭異，居然都是意外死亡仲翎，警方通過查閱死者的電腦和手機痹扇，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,745評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來溯香，“玉大人鲫构，你說我怎么就攤上這事檩奠∈『耍” “怎么了？”我有些...
開封第一講書人閱讀 168,561評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵尝艘，是天一觀的道長湿镀。經(jīng)常有香客問我炕吸，道長，這世上最難降的妖魔是什么勉痴？我笑而不...
開封第一講書人閱讀 59,782評論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任赫模，我火速辦了婚禮，結(jié)果婚禮上蚀腿，老公的妹妹穿的比我還像新娘嘴瓤。我一直安慰自己，他們只是感情好莉钙，可當(dāng)我...
茶點故事閱讀 68,798評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布廓脆。她就那樣靜靜地躺著，像睡著了一般磁玉。火紅的嫁衣襯著肌膚如雪停忿。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,394評論 1贊 310
城市分裂傳說
那天蚊伞，我揣著相機與錄音席赂，去河邊找鬼吮铭。笑死，一個胖子當(dāng)著我的面吹牛颅停，可吹牛的內(nèi)容都是我干的谓晌。我是一名探鬼主播，決...
沈念sama閱讀 40,952評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼纸肉，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了喊熟？” 一聲冷哼從身側(cè)響起柏肪，我...
開封第一講書人閱讀 39,852評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎芥牌，沒想到半個月后烦味，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,409評論 1贊 318
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡壁拉，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,483評論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年谬俄，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片扇商。...
茶點故事閱讀 40,615評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡凤瘦，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出案铺，到底是詐尸還是另有隱情，我是刑警寧澤梆靖，帶...
沈念sama閱讀 36,303評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布控汉，位于F島的核電站，受9級特大地震影響返吻，放射性物質(zhì)發(fā)生泄漏姑子。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,979評論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一测僵、第九天我趴在偏房一處隱蔽的房頂上張望街佑。院中可真熱鬧，春花似錦捍靠、人聲如沸沐旨。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,470評論 0贊 24
一樁弒父案榨婆，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽磁携。三九已至，卻和暖如春良风，著一層夾襖步出監(jiān)牢的瞬間谊迄，已是汗流浹背闷供。一陣腳步聲響...
開封第一講書人閱讀 33,571評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留统诺，地道東北人歪脏。一個月前我還...
沈念sama閱讀 49,041評論 3贊 377
代替公主和親
正文我出身青樓，卻偏偏與公主長得像粮呢，于是被迫代替她去往敵國和親婿失。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,630評論 2贊 359

五十二奕枝、Elasticsearch聚合分析--stringfield聚合試驗以及fielddata原理初探

五十二棺榔、Elasticsearch聚合分析--stringfield聚合試驗以及fielddata原理初探

推薦閱讀更多精彩內(nèi)容