第四次druid meetup 心得

博客同步

心得這個(gè)東西不記下來真的很快就沒了怜姿,也許琢磨的五點(diǎn)過個(gè)十天半個(gè)月就只剩下兩條了,記記也是算是尊重自己的思考吧矛渴。

1. 索引還是掃描

Druid文檔中宣稱自己是大量參考了Dremel和Powerdrill的架構(gòu),但是其中最重要的一條“掃描而不是索引”這一點(diǎn)在druid的設(shè)計(jì)中又是怎么體現(xiàn)的呢?Powerdrill的論文中詳細(xì)介紹了全局和局部的字典編碼旁钧,然后維度上提到更多的是partition而不是index吸重,在這一點(diǎn)上我一直不太明白,什么情況下用掃描而不是索引歪今,感覺在druid的設(shè)計(jì)上并沒有貫徹下去嚎幸。

2. Kafka Indexing Service

聽完之后讓我對使用Kafka Indexing Service表示懷疑了,解決了一個(gè)問題寄猩,但是同時(shí)也帶來了一些嚴(yán)重問題:

  1. Segment碎片化:比如一天的日志花了14天才完全到達(dá)嫉晶,這個(gè)時(shí)候就會(huì)生成數(shù)百個(gè)shard的小文件,這可并不是什么好事田篇,對效率也不太友好替废;
  2. 與原有Lambda架構(gòu)相沖突:在使用了Kafka Indexing Service基礎(chǔ)上進(jìn)行T+1修正就比較尷尬了,一是由于數(shù)據(jù)時(shí)間到達(dá)時(shí)間不定泊柬,生成追加shard的時(shí)間也不定椎镣,需要反復(fù)進(jìn)行Segment合并來達(dá)到較優(yōu)的效果;二是做修正的數(shù)據(jù)未必與實(shí)時(shí)數(shù)據(jù)一致彬呻,追加Segment的合理性存疑衣陶。
  3. 對Kafka的版本有要求,而我米沒有動(dòng)力將Kafka升到0.9以上闸氮,這個(gè)就是硬傷了剪况。

3. 留存計(jì)算

Druid利用Data Sketch能夠進(jìn)行近似留存計(jì)算,但是效率比較低蒲跨,耗時(shí)也比較長译断。一般來說一個(gè)30天的留存倒三角需要30 * 29 / 2 = 435次sketch intersection操作,如果還涉及到時(shí)間粒度從小到大的sketch union操作或悲,這個(gè)代價(jià)可不小孙咪。分享的同學(xué)中有一位是大量采用了MySQL做Cache,感覺也行巡语,在提供基于druid的一整套方案的時(shí)候翎蹈,這個(gè)也是必不可少的。

4. 通用統(tǒng)計(jì)框架

在內(nèi)部的數(shù)據(jù)工場中男公,大量的Hive任務(wù)都是在做group by a, group by a, b, group by a, b, c荤堪,如果能夠把這部分任務(wù)給省掉了,想必也是功德無量——讓專業(yè)的人做專業(yè)的事枢赔,讓那些做著低級(jí)數(shù)據(jù)統(tǒng)計(jì)的人從中解脫出來澄阳。我們能夠有可能做到的最大的優(yōu)勢就是數(shù)據(jù)工場——各種表定義、字段定義踏拜、字段的類型這樣通通都是知道的碎赢。這樣一個(gè)統(tǒng)計(jì)平臺(tái)可能是這樣的:

  1. 需要用戶對數(shù)據(jù)進(jìn)行一些ETL來保證數(shù)據(jù)是“”的,JsonPath能夠解決的抽取問題不需要做ETL速梗;
  2. 用戶能夠定義維度和指標(biāo)肮塞;
  3. 指標(biāo)之前能夠進(jìn)行運(yùn)算襟齿,比如平均瀏覽時(shí)長;
  4. 提供非精準(zhǔn)的UV計(jì)數(shù)峦嗤,精準(zhǔn)UV計(jì)數(shù)仍然可以提供:需要用Hive對數(shù)據(jù)進(jìn)行聚合的預(yù)處理蕊唐,借助Sketch Hive UDF可以同時(shí)生成Sketch和Distinct Count屋摔,但是Distinct Count不再具有可聚合性烁设,可用的查詢粒度將會(huì)被固定下來(一般來說是天);
  5. 基于4可以提供留存钓试、回訪類信息装黑,比如:昨天注冊的用戶今天購買過XX的用戶有多少;
  6. 查詢條件弓熏、留存的條件多種多樣恋谭,千變?nèi)f化,需要有良好的查詢條件設(shè)計(jì)挽鞠。

5. Benchmark

Druid官方提供了Benchmark的方式和參考數(shù)值疚颊,有必要在集群完成搭建后進(jìn)行相應(yīng)的測試,這樣能夠?qū)盒阅苡幸粋€(gè)較好的評估信认,也便于及時(shí)發(fā)現(xiàn)問題材义。

6. 回饋社區(qū)

有一些改動(dòng)最好還是跟社區(qū)交流一下,交流交流才能知道解決方案是不是太LOW嫁赏。等社區(qū)打上patch固然是很慢其掂,但是可以自己在確認(rèn)patch沒有問題的情況下可以先打到自己的版本上,等社區(qū)版本發(fā)布之后再切過去不遲潦蝇。個(gè)人的力量太渺小款熬,適當(dāng)溝通事半功倍,維護(hù)性也更強(qiáng)攘乒。

7. SSD

從頭條的實(shí)踐來看贤牛,SSD還是比較有效的,畢竟沒法指望數(shù)據(jù)能夠完全加載到內(nèi)存中则酝。之前一直忽略了這一部分殉簸,看來這部分需要在做完benchmark的基礎(chǔ)上進(jìn)行改進(jìn)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末堤魁,一起剝皮案震驚了整個(gè)濱河市喂链,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌妥泉,老刑警劉巖椭微,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異盲链,居然都是意外死亡蝇率,警方通過查閱死者的電腦和手機(jī)迟杂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來本慕,“玉大人排拷,你說我怎么就攤上這事」荆” “怎么了监氢?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長藤违。 經(jīng)常有香客問我浪腐,道長,這世上最難降的妖魔是什么顿乒? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任议街,我火速辦了婚禮,結(jié)果婚禮上璧榄,老公的妹妹穿的比我還像新娘特漩。我一直安慰自己,他們只是感情好骨杂,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布涂身。 她就那樣靜靜地躺著,像睡著了一般腊脱。 火紅的嫁衣襯著肌膚如雪访得。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天陕凹,我揣著相機(jī)與錄音悍抑,去河邊找鬼。 笑死杜耙,一個(gè)胖子當(dāng)著我的面吹牛搜骡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播佑女,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼记靡,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了团驱?” 一聲冷哼從身側(cè)響起摸吠,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎嚎花,沒想到半個(gè)月后寸痢,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡紊选,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年啼止,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了道逗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,424評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡献烦,死狀恐怖滓窍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情巩那,我是刑警寧澤吏夯,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布,位于F島的核電站拢操,受9級(jí)特大地震影響锦亦,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜令境,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望顾瞪。 院中可真熱鬧舔庶,春花似錦、人聲如沸陈醒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钉跷。三九已至弥鹦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間爷辙,已是汗流浹背彬坏。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留膝晾,地道東北人栓始。 一個(gè)月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像血当,于是被迫代替她去往敵國和親幻赚。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容