ElasticSearch中"distinct","count"和"group by"的實現(xiàn)

最近在業(yè)務(wù)中需要使用ES來進(jìn)行數(shù)據(jù)查詢绰播,在某些場景下需要對數(shù)據(jù)進(jìn)行去重,以及去重后的統(tǒng)計尚困。為了方便大家理解蠢箩,特意從SQL角度,方便大家能夠理解ES查詢語句事甜。

1 - distinct

SELECT DISTINCT(user_id) FROM table WHERE user_id_type = 3;
{
  "query": {
    "term": {
      "user_id_type": 3
    }
  },
  "collapse": {
    "field": "user_id"
  }
}
{
  ...
  "hits": {
    "hits": [
      {
        "_index": "es_qd_mkt_visitor_packet_dev_v1_20180621",
        "_type": "ad_crowd",
        "_source": {
          "user_id": "wx2af8414b502d4ca2_oHtrD0Vxv-_8c678figJNHmtaVQQ",
          "user_id_type": 3
        },
        "fields": {
          "user_id": [
            "wx2af8414b502d4ca2_oHtrD0Vxv-_8c678figJNHmtaVQQ"
          ]
        }
      }
    ]
  }
}

總結(jié):使用collapse字段后谬泌,查詢結(jié)果中[hits]中會出現(xiàn)[fields]字段,其中包含了去重后的user_id

2 - count + distinct

SELECT COUNT(DISTINCT(user_id)) FROM table WHERE user_id_type = 3;
{
  "query": {
    "term": {
      "user_id_type": 3
    }
  },
  "aggs": {
    "count": {
      "cardinality": {
        "field": "user_id"
      }
    }
  }
}
{
  ...
  "hits": {
  ...
  },
  "aggregations": {
    "count": {
      "value": 121
    }
  }
}

總結(jié):aggscardinality的字段代表需要distinct的字段

3 - count + group by

SELECT COUNT(user_id) FROM table GROUP BY user_id_type;
{
  "aggs": {
    "user_type": {
      "terms": {
        "field": "user_id_type"
      }
    }
  }
}
{
  ...
  "hits": {
    ...
  },
  "aggregations": {
    "user_type": {
      ...
      "buckets": [
        {
          "key": 4,
          "doc_count": 1220
        },
        {
          "key": 3,
          "doc_count": 488
        }
      ]
    }
  }
}

總結(jié):aggsterms的字段代表需要gruop by的字段

4 - count + distinct + group by

SELECT COUNT(DISTINCT(user_id)) FROM table GROUP BY user_id_type;
{
  "aggs": {
    "user_type": {
      "terms": {
        "field": "user_id_type"
      },
      "aggs": {
        "count": {
          "cardinality": {
            "field": "user_id"
          }
        }
      }
    }
  }
}
{
  ...
  "hits": {
    ...
  },
  "aggregations": {
    "user_type": {
      ...
      "buckets": [
        {
          "key": 4,
          "doc_count": 1220, //去重前數(shù)據(jù)1220條
          "count": {
            "value": 276 //去重后數(shù)據(jù)276條
          }
        },
        {
          "key": 3,
          "doc_count": 488, //去重前數(shù)據(jù)488條
          "count": {
            "value": 121 //去重后數(shù)據(jù)121條
          }
        }
      ]
    }
  }
}

5 - count + distinct + group by + where

SELECT COUNT(DISTINCT(user_id)) FROM table WHERE user_id_type = 2 GROUP BY user_id;

總結(jié):對于既有group by又有distinct的查詢要求逻谦,需要在aggs中嵌套子aggs

6 - 注意事項

collapse關(guān)鍵字

  1. 折疊功能ES5.3版本之后才發(fā)布的掌实。
  2. 聚合&折疊只能針對keyword類型有效;
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末邦马,一起剝皮案震驚了整個濱河市贱鼻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌滋将,老刑警劉巖邻悬,帶你破解...
    沈念sama閱讀 206,602評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異随闽,居然都是意外死亡父丰,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,442評論 2 382
  • 文/潘曉璐 我一進(jìn)店門掘宪,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛾扇,“玉大人,你說我怎么就攤上這事魏滚《剖祝” “怎么了?”我有些...
    開封第一講書人閱讀 152,878評論 0 344
  • 文/不壞的土叔 我叫張陵栏赴,是天一觀的道長蘑斧。 經(jīng)常有香客問我,道長须眷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,306評論 1 279
  • 正文 為了忘掉前任沟突,我火速辦了婚禮花颗,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘惠拭。我一直安慰自己扩劝,他們只是感情好庸论,可當(dāng)我...
    茶點故事閱讀 64,330評論 5 373
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著棒呛,像睡著了一般聂示。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上簇秒,一...
    開封第一講書人閱讀 49,071評論 1 285
  • 那天鱼喉,我揣著相機與錄音,去河邊找鬼趋观。 笑死扛禽,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的皱坛。 我是一名探鬼主播编曼,決...
    沈念sama閱讀 38,382評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼剩辟!你這毒婦竟也來了掐场?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,006評論 0 259
  • 序言:老撾萬榮一對情侶失蹤贩猎,失蹤者是張志新(化名)和其女友劉穎熊户,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體融欧,經(jīng)...
    沈念sama閱讀 43,512評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡敏弃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,965評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了噪馏。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片麦到。...
    茶點故事閱讀 38,094評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖欠肾,靈堂內(nèi)的尸體忽然破棺而出瓶颠,到底是詐尸還是另有隱情,我是刑警寧澤刺桃,帶...
    沈念sama閱讀 33,732評論 4 323
  • 正文 年R本政府宣布粹淋,位于F島的核電站,受9級特大地震影響瑟慈,放射性物質(zhì)發(fā)生泄漏桃移。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,283評論 3 307
  • 文/蒙蒙 一葛碧、第九天 我趴在偏房一處隱蔽的房頂上張望借杰。 院中可真熱鬧,春花似錦进泼、人聲如沸蔗衡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,286評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽绞惦。三九已至逼纸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間济蝉,已是汗流浹背杰刽。 一陣腳步聲響...
    開封第一講書人閱讀 31,512評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留堆生,地道東北人专缠。 一個月前我還...
    沈念sama閱讀 45,536評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像淑仆,于是被迫代替她去往敵國和親涝婉。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,828評論 2 345

推薦閱讀更多精彩內(nèi)容