Elasticsearch Rollover 高效管理時(shí)序數(shù)據(jù)(上)

原文發(fā)表于 2017-04-13個(gè)人博客


大家在使用 Elasticsearch 管理時(shí)序數(shù)據(jù)(比如 日志事件)時(shí)經(jīng)常習(xí)慣于將每一天的數(shù)據(jù)作為一個(gè) Index旬渠。根據(jù)日志事件的時(shí)間戳可以產(chǎn)生最近一天的新索引蛮艰,新Index的定義可以事先使用 index 模板.

這個(gè)是易懂和易于實(shí)現(xiàn)的形式顶考,但隱藏了索引管理的一些復(fù)雜性,比如:

  • 要實(shí)現(xiàn)高的數(shù)據(jù)獲取率霞捡,您希望活躍索引的分片應(yīng)該分布到盡量多的節(jié)點(diǎn)上。
  • 為了搜索優(yōu)化和低的資源消耗,您希望盡可能少的分片吱雏,但不要那么大的碎片,以防變得笨重瘾境。
  • 每一天一個(gè)索引使得很容易過期舊數(shù)據(jù)歧杏,但是一天你需要幾個(gè)分片呢?
  • 每天都是一樣的嗎迷守?還是有可能某一天產(chǎn)生太多分片犬绒,第二天可能又太少?

在這篇博文中兑凿,我將介紹新的Rollover Pattern和支持它的API凯力,這是一種更簡(jiǎn)單,更有效的管理基于時(shí)間的索引的方式急膀。

Rollover Pattern

滾動(dòng)模式的工作原理如下:

  • 有一個(gè)索引別名沮协,它指向活躍索引。
  • 另一個(gè)別名指向活躍和非活躍索引卓嫂,并用于搜索慷暂。
  • 活躍索引可以具有與您的熱點(diǎn)節(jié)點(diǎn)一樣多的分片,以利用所有昂貴硬件的索引資源晨雳。
  • 當(dāng)活躍索引太滿或太舊時(shí)行瑞,它將滾動(dòng) :創(chuàng)建一個(gè)新索引,索引別名從舊索引到原始索引餐禁。
  • 舊的索引被移動(dòng)到一個(gè)冷節(jié)點(diǎn)血久,并且被縮小到一個(gè)分片,這也可以被強(qiáng)制合并和壓縮帮非。

入門

假設(shè)我們有一個(gè)具有10個(gè) 熱節(jié)點(diǎn)和 1個(gè)冷節(jié)點(diǎn)(注:冷熱是通過設(shè)置機(jī)器實(shí)例的屬性區(qū)分的)集群氧吐。 理想情況下,活躍索引(接收所有寫操作的索引)應(yīng)該在每個(gè)熱節(jié)點(diǎn)上都有一個(gè)分片末盔,以便將索引負(fù)載分解成盡可能多的機(jī)器上筑舅。

我們希望每個(gè)主分片的有一個(gè)副本,以確保我們可以容忍某個(gè)節(jié)點(diǎn)的掛掉陨舱,而數(shù)據(jù)不丟翠拣。 這意味著我們的活躍索引應(yīng)該有5個(gè)主分片,共提供10個(gè)分片(每個(gè)熱節(jié)點(diǎn)一個(gè))游盲。 我們還可以使用10個(gè)主分片(共20個(gè)分片误墓,包括副本)蛮粮,每個(gè)節(jié)點(diǎn)上有兩個(gè)分片。

首先谜慌,為活躍索引創(chuàng)建一個(gè)索引模板 :

PUT _template/active-logs
{
  "template": "active-logs-*",
  "settings": {
    "number_of_shards":   5,
    "number_of_replicas": 1,
    "routing.allocation.include.box_type": "hot",
    "routing.allocation.total_shards_per_node": 2
  },
  "aliases": {
    "active-logs":  {},
    "search-logs": {}
  }
}

由此模板創(chuàng)建的索引將分配給帶有 "box_type: hot" 標(biāo)記的節(jié)點(diǎn)然想,并且 total_shards_per_node 設(shè)置將有助于確保分片盡可能擴(kuò)展到盡可能多的hot節(jié)點(diǎn)。 我把它設(shè)置為2而不是1 畦娄,所以如果一個(gè)節(jié)點(diǎn)失敗又沾,我們?nèi)匀豢梢苑峙渌槠?/p>

我們將使用 active-logs 索引別名映射當(dāng)前的活躍索引,并使用 search-logs 別名來搜索所有日志索引熙卡。

以下是我們的非活躍索引將使用的模板:

PUT _template/inactive-logs
{
  "template": "inactive-logs-*",
  "settings": {
    "number_of_shards":   1,
    "number_of_replicas": 0,
    "routing.allocation.include.box_type": "cold",
    "codec": "best_compression"
  }
}

歸檔索引應(yīng)分配給cold節(jié)點(diǎn)杖刷,并應(yīng)使用deflate壓縮來節(jié)省空間。 我會(huì)解釋為什么我稍后將replicas設(shè)置為0 驳癌。

現(xiàn)在我們可以創(chuàng)建第一個(gè)活躍索引:

PUT active-logs-1

名稱中 -1 的模式會(huì)被 rollover API 識(shí)別為計(jì)數(shù)器(能夠進(jìn)行累加)滑燃。

灌入數(shù)據(jù)

當(dāng)我們創(chuàng)建了 active-logs-1 索引時(shí),我們還創(chuàng)建了 active-logs 別名颓鲜。 從此刻開始表窘,我們應(yīng)該僅使用別名進(jìn)行索引,我們輸入的文檔將被發(fā)送到當(dāng)前的活躍索引:

POST active-logs/log/_bulk
{ "create": {}}
{ "text": "Some log message", "@timestamp": "2016-07-01T01:00:00Z" }
{ "create": {}}
{ "text": "Some log message", "@timestamp": "2016-07-02T01:00:00Z" }
{ "create": {}}
{ "text": "Some log message", "@timestamp": "2016-07-03T01:00:00Z" }
{ "create": {}}
{ "text": "Some log message", "@timestamp": "2016-07-04T01:00:00Z" }
{ "create": {}}
{ "text": "Some log message", "@timestamp": "2016-07-05T01:00:00Z" }

Rolling over 索引

在某個(gè)階段甜滨,活躍索引會(huì)變得太大或太老乐严,您將需要用新的空索引替換它。 Rollover API 允許您指定索引可以有多大或有多老衣摩。

多大算太大了昂验?這取決于你所擁有的硬件,你執(zhí)行的搜索類型艾扮,你期待的性能既琴,你愿意等待分片恢復(fù)的時(shí)間等等。在實(shí)踐中泡嘴,你可以嘗試不同的分片大小甫恩,看看什么對(duì)你有用。剛開始時(shí)酌予,選擇一些任意數(shù)字磺箕,如1億或10億。 您可以根據(jù)搜索性能抛虫,數(shù)據(jù)保留期和可用空間來上下調(diào)整此數(shù)字松靡。

單個(gè)分片可以包含的文檔數(shù)量有限制:2,147,483,519。 如果您計(jì)劃將活躍索引收縮到單個(gè)分片莱褒,則您的活躍索引中的文檔必須少于21億。 如果您有更多的文檔涎劈,則可以將索引縮小到多個(gè)分片广凸,只要目標(biāo)數(shù)量的分片是原始的因數(shù)阅茶,例如 6→3 或 6→2。

按時(shí)間多久來滾動(dòng)索引可能很方便谅海,因?yàn)樗试S您按小時(shí)脸哀,天,周等方式存日志扭吁,但是通常根據(jù)索引中的文檔數(shù)量來進(jìn)行 rollover 更為有效撞蜂。 基于尺寸的翻轉(zhuǎn)的一個(gè)好處是,所有的分片都具有大致相同的重量侥袜,這使得它們更容易平衡蝌诡。

Rollover API 將由 cron job 定期調(diào)用,以檢查 max_docs或 max_age 約束是否已被打破(即滿足滾動(dòng)條件)枫吧。 一旦至少有一個(gè)約束被打破浦旱,索引就會(huì)滾動(dòng)。 由于我們僅在上述示例中模擬了5個(gè)文檔九杂,因此我們將指定一個(gè) max_docs 值為 5 颁湖,(為了完整), max_age 為一周:

POST active-logs/_rollover
{
  "conditions": {
    "max_age":   "7d",
    "max_docs":  5
  }
}

該請(qǐng)求告訴Elasticsearch翻轉(zhuǎn)active-logs別名指向的索引例隆,如果該索引至少在七天前創(chuàng)建甥捺,或至少包含5個(gè)文檔。 響應(yīng)如下所示:

{
  "old_index": "active-logs-1",
  "new_index": "active-logs-2",
  "rolled_over": true,
  "dry_run": false,
  "conditions": {
    "[max_docs: 5]": true,
    "[max_age: 7d]": false
  }
}

由于 max_docs: 5 約束被滿足镀层,所以 active-logs-1 索引已經(jīng)被滾動(dòng)到 active-logs-2 索引镰禾。 這意味著根據(jù) active-logs 模板創(chuàng)建了一個(gè)名為 active-logs-2 的新索引,并將 active-logs 別名從 active-logs-1 切換到 active-logs-2 鹿响。

順便說一下羡微,如果要覆蓋索引模板中的任何值,例如 settings或 mappings 惶我,您可以像使用 create index API 一樣將它們傳遞到 _rollover 請(qǐng)求正文妈倔。

為什么不支持 max_size 約束?

鑒于目的是生成均勻大小的分片绸贡,為什么除 max_docs 之外我們不支持 max_size 約束盯蝴? 答案是,碎片大小是不太可靠的方式听怕,因?yàn)檎谶M(jìn)行的合并捧挺,可能會(huì)使分片大小產(chǎn)生明顯的臨時(shí)增長(zhǎng),一旦合并完成又會(huì)消失尿瞭。 5個(gè)主碎片闽烙,每個(gè)在合并到一個(gè) 5GB 分片的過程中,會(huì)臨時(shí)將索引大小提高25GB!相比之下黑竞,文檔數(shù)量則是可預(yù)測(cè)地增長(zhǎng)捕发。


參考翻譯文章:https://www.elastic.co/blog/managing-time-based-indices-efficiently

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市很魂,隨后出現(xiàn)的幾起案子扎酷,更是在濱河造成了極大的恐慌,老刑警劉巖遏匆,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件法挨,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡幅聘,警方通過查閱死者的電腦和手機(jī)凡纳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喊暖,“玉大人惫企,你說我怎么就攤上這事×赀矗” “怎么了狞尔?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)巩掺。 經(jīng)常有香客問我偏序,道長(zhǎng),這世上最難降的妖魔是什么胖替? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任研儒,我火速辦了婚禮,結(jié)果婚禮上独令,老公的妹妹穿的比我還像新娘端朵。我一直安慰自己,他們只是感情好燃箭,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布冲呢。 她就那樣靜靜地躺著,像睡著了一般招狸。 火紅的嫁衣襯著肌膚如雪敬拓。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天裙戏,我揣著相機(jī)與錄音乘凸,去河邊找鬼。 笑死累榜,一個(gè)胖子當(dāng)著我的面吹牛营勤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼葛作,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼醒第!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起进鸠,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎形病,沒想到半個(gè)月后客年,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡漠吻,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年蝎土,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了久橙。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖烙样,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情乃沙,我是刑警寧澤熬甫,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站试读,受9級(jí)特大地震影響杠纵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜钩骇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一比藻、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧倘屹,春花似錦银亲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至哄辣,卻和暖如春请梢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背力穗。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工毅弧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人当窗。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓够坐,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子元咙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容