Elasticsearch cardinality度量誤差實測

cardinality度量是一個近似算法。它是基于HyperLogLog++(HLL)算法的。HLL 會先對我們的輸入作哈希運(yùn)算改鲫,然后根據(jù)哈希運(yùn)算的結(jié)果中的 bits 做概率估算從而得到基數(shù)肮街。
我們不需要理解技術(shù)細(xì)節(jié)(如果確實感興趣,可以閱讀這篇論文)饮笛,但我們最好應(yīng)該關(guān)注一下這個算法的特性
可配置的精度咨察,用來控制內(nèi)存的使用(更精確 = 更多內(nèi)存)。
小的數(shù)據(jù)集精度是非常高的福青。
我們可以通過配置參數(shù)摄狱,來設(shè)置去重需要的固定內(nèi)存使用量。無論數(shù)千還是數(shù)十億的唯一值无午,內(nèi)存使用量只與你配置的精確度相關(guān)媒役。
要配置精度,我們必須指定precision_threshold參數(shù)的值宪迟。這個閾值定義了在何種基數(shù)水平下我們希望得到一個近乎精確的結(jié)果酣衷。參考以下示例:
precision_threshold接受 0–40,000 之間的數(shù)字,更大的值還是會被當(dāng)作 40,000 來處理次泽。
示例會確保當(dāng)字段唯一值在 100 以內(nèi)時會得到非常準(zhǔn)確的結(jié)果穿仪。盡管算法是無法保證這點(diǎn)的,但如果基數(shù)在閾值以下箕憾,幾乎總是 100% 正確的牡借。高于閾值的基數(shù)會開始節(jié)省內(nèi)存而犧牲準(zhǔn)確度,同時也會對度量結(jié)果帶入誤差袭异。
對于指定的閾值钠龙,HLL 的數(shù)據(jù)結(jié)構(gòu)會大概使用precision_threshold * 8字節(jié)的內(nèi)存,所以就必須在犧牲內(nèi)存和獲得額外的準(zhǔn)確度間做平衡御铃。
在實際應(yīng)用中碴里,100的閾值可以在唯一值為百萬的情況下仍然將誤差維持 5% 以內(nèi)。

上面是官方文檔的描述

實際上上真,我的請求測試咬腋,當(dāng)文檔很多的時候,這個誤差還是很可觀的:
Req

POST /xxx/_search
{
    "size" : 0,
    "aggs" : {
        "distinc_count" : {
            "cardinality" : {
                "field" : "xx.keyword",
                "precision_threshold": 100
            }
        }
    }
}

Resp

{
  "took": 1,
  "timed_out": false,
  "_shards": {
    "total": 2,
    "successful": 2,
    "failed": 0
  },
  "hits": {
    "total": 570470,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "distinc_count": {
      "value": 11158
    }
  }
}

Req

POST /xxx/_search
{
    "size" : 0,
    "aggs" : {
        "distinc_count" : {
            "cardinality" : {
                "field" : "xx.keyword",
                "precision_threshold": 10000
            }
        }
    }
}

Resp

{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 2,
    "successful": 2,
    "failed": 0
  },
  "hits": {
    "total": 570470,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "distinc_count": {
      "value": 10736
    }
  }
}

提高了precision_threshold睡互,得到高的精度估算精度根竿,耗時當(dāng)然也提高了點(diǎn)(因為之前請求過陵像,所以有緩存,這么低的時延寇壳,正常應(yīng)該幾十毫秒)醒颖。精度到10000,就基本沒誤差了壳炎。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末泞歉,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子匿辩,更是在濱河造成了極大的恐慌腰耙,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件铲球,死亡現(xiàn)場離奇詭異挺庞,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)稼病,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進(jìn)店門挠阁,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人溯饵,你說我怎么就攤上這事侵俗。” “怎么了丰刊?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵隘谣,是天一觀的道長。 經(jīng)常有香客問我啄巧,道長寻歧,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任秩仆,我火速辦了婚禮码泛,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘澄耍。我一直安慰自己噪珊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布齐莲。 她就那樣靜靜地躺著痢站,像睡著了一般。 火紅的嫁衣襯著肌膚如雪选酗。 梳的紋絲不亂的頭發(fā)上阵难,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機(jī)與錄音芒填,去河邊找鬼呜叫。 笑死空繁,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的朱庆。 我是一名探鬼主播家厌,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼椎工!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蜀踏,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤维蒙,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后果覆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體颅痊,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年局待,在試婚紗的時候發(fā)現(xiàn)自己被綠了斑响。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡钳榨,死狀恐怖舰罚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情薛耻,我是刑警寧澤营罢,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站饼齿,受9級特大地震影響饲漾,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜缕溉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一考传、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧证鸥,春花似錦僚楞、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至返干,卻和暖如春兴枯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背矩欠。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工财剖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留悠夯,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓躺坟,卻偏偏與公主長得像沦补,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子咪橙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理夕膀,服務(wù)發(fā)現(xiàn),斷路器美侦,智...
    卡卡羅2017閱讀 134,665評論 18 139
  • 機(jī)器學(xué)習(xí) 經(jīng)驗 數(shù)據(jù) 數(shù)據(jù)中產(chǎn)生模型model 的算法 學(xué)習(xí)算法 learning algorithm 數(shù)據(jù)集 d...
    時待吾閱讀 3,981評論 0 3
  • 緩存的基礎(chǔ)知識 1产舞、程序本身具有局部性 時間局部性過去訪問到的數(shù)據(jù),也有可能被兩次訪問 空間局部性一個數(shù)據(jù)被訪問到...
    魏鎮(zhèn)坪閱讀 2,035評論 1 3
  • 國家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn)(Q/GDW)- 面向?qū)ο蟮挠秒娦畔?shù)據(jù)交換協(xié)議 - 報批稿:20170802 前言: 排版 ...
    庭說閱讀 10,988評論 6 13
  • 誰還記得菠剩,當(dāng)年那輪明月易猫,圓了又缺; 誰能忘記具壮,往日那句永別准颓,嘔心瀝血。
    丨不是本人閱讀 94評論 0 1