數(shù)據(jù)SCT定律:存儲,計(jì)算盅视,時間

其實(shí)沒有SCT定律捐名,這個是我根據(jù)分布式CAP定律瞎造的。不過呢闹击,從大數(shù)據(jù)這個行業(yè)來說镶蹋,我們始終都是在存儲,計(jì)算和時間進(jìn)行權(quán)衡赏半,博弈以及突破梅忌。某種程度上來說,當(dāng)擁有其中兩者除破,可能很難兼顧第三者牧氮。

我們?nèi)粘W龅暮芏嗍虑椋鋵?shí)都是在突破這三者中的某一種瑰枫,不過過程可能比較艱辛踱葛,可能為了突破A,反過來又要求突破B光坝。

比如為了加快計(jì)算尸诽,我們會通過構(gòu)建Cube,物化視圖或者中間表(數(shù)倉里的分層)來完成,但這樣對存儲的要求會更高盯另,要能支撐更大的存儲量性含,同時需要支持更新,而且在覆蓋寫的時候鸳惯,讀不受影響商蕴。

再比如叠萍,做數(shù)據(jù)的家常便飯是增量/全量同步數(shù)據(jù),這主要是為了解決數(shù)據(jù)搬遷的問題绪商。早期的數(shù)倉是要求數(shù)據(jù)都匯總到一個分布式存儲上的苛谷,所以必然會遇到增量/全量同步的問題。這個過程中會觸發(fā)時間問題(也就是數(shù)據(jù)可見性的延時)格郁,也會觸發(fā)計(jì)算的額外消耗腹殿,這些計(jì)算來源于同步以及涉及到Kafka,MySQL等各個子系統(tǒng)的消耗。

還有一個問題是例书,計(jì)算上锣尉,雖然SQL現(xiàn)在越來越成為主流,但是SQL依然有很多地方難以滿足需求决采,所以我們依然要用各種API進(jìn)行計(jì)算自沧,我們沒有一個統(tǒng)一的大數(shù)據(jù)應(yīng)用,還是各種應(yīng)用孤立的跑在硬件上(我們會把Yarn,K8s當(dāng)做硬件)织狐,這個時候我們會嘗試使用Spark暂幼,Preso,Impala,Kylin等各種系統(tǒng)解決各自的問題。

我今天回顧了下最近做的工作移迫,這些工作其實(shí)也都是為了解決這三個層面的問題旺嬉。

首先是存儲上,早先的數(shù)倉已經(jīng)不能滿足更新厨埋,事務(wù)邪媳,版本等方面的要求了,同時對AI的支持也力有不逮荡陷,所以現(xiàn)在開始演化為數(shù)據(jù)湖雨效。所以我基于delta開發(fā)了delta-plus,主要是我覺得對方的開發(fā)進(jìn)度太慢,所以事先添加了一些社區(qū)還沒開發(fā)的功能废赞。有了delta-plus,我們完成了三個任務(wù):

  1. 并發(fā)讀寫徽龟。比如寫不影響讀。
  2. 流批共享唉地。流和批可以同時操作一張表据悔。
  3. 更新和刪除。很多系統(tǒng)并不能支持更新耘沼。

有了存儲上的支持极颓,很多其他的事情就會變得簡單。

其次是同步方面的問題群嗤,我們希望解決的是延時上的問題(時間)菠隆,傳統(tǒng)的模式是利用canal等工具讀取binlog到kafka,然后kafka后面接一個計(jì)算系統(tǒng),將數(shù)據(jù)寫入到一個可更新的存儲,比如hbase,系統(tǒng)需要對接hbase來進(jìn)行查詢骇径,或者將hbase定時導(dǎo)出到hive供批使用躯肌。環(huán)節(jié)越長,無論計(jì)算效率既峡,維護(hù)成本就會越高羡榴。針對這個問題碧查,我希望有一個工具运敢,能夠一個環(huán)節(jié)搞定,這個工具直接對接mysql binlog,然后直接將數(shù)據(jù)同步到HDFS上忠售,可以供流和批讀取传惠。這個問題由spark-binlog解決,然后存儲由delta-plus完成稻扬。

第三個是計(jì)算的問題卦方,大數(shù)據(jù)對外提供的一個很重要的功能就是海量數(shù)據(jù)的分析查詢,為了應(yīng)對各種需求泰佳,我們各種武器都上去盼砍,計(jì)算系統(tǒng)繁多而復(fù)雜,時間效率和不一定能達(dá)到訴求逝她。這期間得益于阿里 Relational Cache的啟發(fā)浇坐,了解到物化視圖的概念,所以開發(fā)了sql-booster,他的出發(fā)點(diǎn)是實(shí)現(xiàn)物化視圖的Query改寫,但是現(xiàn)在的目標(biāo)會更大一點(diǎn)黔宛。我們這里簡單的介紹下物化視圖是什么近刘,假設(shè)你有A,B,C三張表,但是用戶經(jīng)常會將這三張表進(jìn)行Join關(guān)聯(lián)查詢臀晃,這個時候按數(shù)倉分層的方式觉渴,就是我再建中間表比如v1,v2。這個時候你需要告訴用戶徽惋,以后如果能用v1,v2盡可能用v1,v2,因?yàn)樗麄儠煨┌噶堋N锘晥D就是,你不需要再告訴用戶去使用v1,v2,用戶依然還是使用A,B,C险绘,但是系統(tǒng)通過改寫SQL,來自動使用v1,v2加速踢京。所以sql-booster本質(zhì)上可以讓你很方便的通過添加中間表的方式來透明加速用戶的查詢。不管你叫他物化視圖隆圆,還是關(guān)系緩存漱挚,都可以。

前面三個渺氧,我們通過三個組件delta-plus,spark-binlog,sql-booster 分別解決了存儲旨涝,同步,查詢加速三個問題。大家當(dāng)然可以獨(dú)立使用白华,現(xiàn)在我們其實(shí)缺一個計(jì)算系統(tǒng)將三者融合起來慨默,讓三者可以以一個方便方式組合起來。我們知道弧腥,在Linux系統(tǒng)厦取,有非常多的工具,比如sed,grep,cat等等管搪,但是粘合他們的是shell虾攻。MLSQL Stack是為了完成這個任務(wù)的,他提供了MLSQL語言更鲁,相當(dāng)于一個大數(shù)據(jù)的語言霎箍,脫胎于SQL。其次澡为,MLSQL可以很好的把這些工具組織起來漂坏。

最后打個廣告(雖然前面已經(jīng)有很多廣告),這些年我開源了很多項(xiàng)目媒至,期待大家能一起用起來顶别,然后讓他們變得越來越好:

  1. delta-plus
    delta with upsert/delete/compaction support, and can work with spark-binlog
    which make multi-table sync more easy.

  2. spark-binlog
    Spark binlog datasource

  3. simple-schema
    A new way to describe spark dataframe schema with text format.

  4. spark-adhoc-kafka
    A Kafka datasource supports consuming Kafka data by specifing
    a time interval / offset / parallelism

  5. spark-submitter-console
    Spark Submitter Console is a tinny but useful web console in which you can

    • Uploading jar
    • Submitting jar to Yarn cluster
    • Monitoring/Manager your applications:
  6. spark-hbase
    A HBase datasource implementation for Spark and MLSQL.
    This library requires Spark 2.3+/2.4+, HBase 1.2+/2.0+ (tested).

  7. sql-booster

This is a library for SQL optimizing/rewriting. Current version (0.1.0) we have already support Materialized View rewrite.

This project is under active development and *** NOT READY FOR PRODUCTION ***

  1. MLSQL Stack

A Platform unifies BigData and AI. A language unifies BigData and AI.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市拒啰,隨后出現(xiàn)的幾起案子驯绎,更是在濱河造成了極大的恐慌,老刑警劉巖图呢,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件条篷,死亡現(xiàn)場離奇詭異,居然都是意外死亡蛤织,警方通過查閱死者的電腦和手機(jī)赴叹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來指蚜,“玉大人乞巧,你說我怎么就攤上這事√Γ” “怎么了绽媒?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長免猾。 經(jīng)常有香客問我是辕,道長,這世上最難降的妖魔是什么猎提? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任获三,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘疙教。我一直安慰自己棺聊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布贞谓。 她就那樣靜靜地躺著限佩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪裸弦。 梳的紋絲不亂的頭發(fā)上祟同,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天,我揣著相機(jī)與錄音烁兰,去河邊找鬼耐亏。 笑死徊都,一個胖子當(dāng)著我的面吹牛沪斟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播暇矫,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼主之,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了李根?” 一聲冷哼從身側(cè)響起槽奕,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎房轿,沒想到半個月后粤攒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡囱持,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年夯接,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片纷妆。...
    茶點(diǎn)故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡盔几,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出掩幢,到底是詐尸還是另有隱情逊拍,我是刑警寧澤,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布际邻,位于F島的核電站芯丧,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏世曾。R本人自食惡果不足惜缨恒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧肿轨,春花似錦寿冕、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至驹暑,卻和暖如春玫恳,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背优俘。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工京办, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人帆焕。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓惭婿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親叶雹。 傳聞我的和親對象是個殘疾皇子财饥,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,647評論 2 354