阿里下一代數(shù)據(jù)庫技術(shù):把數(shù)據(jù)庫裝入容器不再是神話

轉(zhuǎn)載自:https://mp.weixin.qq.com/s/AIZQ5-F5AngdIESNCXngWw

張瑞,阿里集團(tuán)數(shù)據(jù)庫技術(shù)團(tuán)隊(duì)負(fù)責(zé)人,阿里巴巴研究員,Oracle ACE。雙十一數(shù)據(jù)庫技術(shù)總負(fù)責(zé)人腌零,曾兩次擔(dān)任雙十一技術(shù)保障總負(fù)責(zé)人。自2005年加入阿里巴巴以來唆阿,一直主導(dǎo)整個(gè)阿里數(shù)據(jù)庫技術(shù)的不斷革新益涧。

近日,在京舉行的2017中國數(shù)據(jù)庫技術(shù)大會(huì)上驯鳖,來自阿里巴巴集團(tuán)研究員張瑞發(fā)表了題為《面向未來的數(shù)據(jù)庫體系架構(gòu)的思考》的主題演講闲询。主要介紹了阿里數(shù)據(jù)庫技術(shù)團(tuán)隊(duì)正在建設(shè)阿里下一代數(shù)據(jù)庫技術(shù)體系的想法和經(jīng)驗(yàn),希望能夠把阿里的成果臼隔、踩過的坑以及面向未來思考介紹給與會(huì)者嘹裂,為中國數(shù)據(jù)庫技術(shù)的發(fā)展出一份力。


演講全文:

我先介紹一下我自己摔握,我2005年加入阿里一直在做數(shù)據(jù)庫方面的工作寄狼,今天這個(gè)主題是我最近在思考阿里巴巴下一代數(shù)據(jù)庫體系方面的一些想法,在這里分享給大家氨淌,希望能夠拋磚引玉泊愧。大家如果能夠在我今天分享后,結(jié)合自己面對(duì)的實(shí)際場(chǎng)景盛正,得到一些體會(huì)删咱,有點(diǎn)想法的話,我今天分享的目的就達(dá)到了豪筝。

今天我會(huì)講以下幾方面內(nèi)容:首先講一下我們?cè)趦?nèi)核上的一點(diǎn)創(chuàng)新痰滋、數(shù)據(jù)庫怎么實(shí)現(xiàn)彈性調(diào)度、關(guān)于智能化的思考续崖、最后是曾經(jīng)踩過的坑和看到未來的方向敲街。

阿里場(chǎng)景下數(shù)據(jù)庫所面臨的問題


首先說一下,阿里巴巴最早一代使用的數(shù)據(jù)庫技術(shù)是Oracle严望,后面大家也知道一件事情就是去IOE多艇,去IOE過程中我們邁向了使用開源數(shù)據(jù)庫的時(shí)代,這個(gè)時(shí)代今天已經(jīng)過去像吻,這個(gè)過程大概持續(xù)了五六年峻黍,整個(gè)阿里巴巴有一個(gè)大家都知道的開源MYSQL分支--AliSQL,我們?cè)谏厦孀隽舜罅康母倪M(jìn)拨匆,所以我這里列了一下在AliSQL上的一些改進(jìn)姆涩,但今天我實(shí)際上并不想講這個(gè),我想講一下面向未來的下一代數(shù)據(jù)庫技術(shù)惭每、數(shù)據(jù)庫架構(gòu)會(huì)往哪個(gè)方向走骨饿。

我覺得是這樣的,因?yàn)榻裉斓陌⒗锇桶彤吘故且粋€(gè)技術(shù)的公司,所以很多時(shí)候我們會(huì)看比如說Google或者是一些互聯(lián)網(wǎng)的大的公司样刷,他們?cè)诩夹g(shù)上創(chuàng)新點(diǎn)來自于哪里仑扑?來自于問題。就是說今天在座的各位和我是一樣的置鼻,你所面對(duì)場(chǎng)景下的問題是什么镇饮、你看問題深度如何決定了你今天創(chuàng)造的創(chuàng)新有多大怜校。

所以今天我們重新看一下阿里面臨的問題是什么屁桑,相信在座的各位一定也有這樣的想法酬滤,阿里所面臨的問題不一定是你們的問題格嗅,但我想說今天通過阿里面臨的問題,以及我們看到這些問題后所做的事情释移,期待能夠給大家?guī)韰⒖甲婷耄M蠹乙材軌蚩吹阶约核媾R的問題是什么究反,你將如何思考聂喇。


可以看到其實(shí)阿里巴巴的應(yīng)用和Facebook辖源、Google的還是有很大區(qū)別的,我們也找他們做了交流希太,發(fā)現(xiàn)跟他們的業(yè)務(wù)場(chǎng)景真的不一樣克饶,首先我們的主要應(yīng)用是交易型的,這些應(yīng)用會(huì)有些什么要求誊辉,你會(huì)看到有這些點(diǎn)(見圖片)矾湃,下面主要講一下我們的思考。

今天數(shù)據(jù)的高可用和強(qiáng)一致是非常重要的堕澄,數(shù)據(jù)不一致帶來的問題是非常非常巨大的邀跃,大家也用淘寶,也是阿里巴巴一些服務(wù)的用戶蛙紫,數(shù)據(jù)不一致帶來的問題拍屑,每一個(gè)用戶、甚至我的父母都會(huì)關(guān)注這些事情惊来。

第二丽涩,今天存儲(chǔ)成本是非常高的棺滞,所有的數(shù)據(jù)中心已經(jīng)在用SSD裁蚁,但數(shù)據(jù)的存儲(chǔ)成本依然是一個(gè)大型企業(yè)面臨的一個(gè)非常大的問題,這都是實(shí)實(shí)在在錢的問題继准。

另外剛才也提到了枉证,數(shù)據(jù)都是有生命周期的,那么數(shù)據(jù)尤其是交易數(shù)據(jù)是有非常明顯的冷和熱的狀態(tài)移必,大家一定很少看自己一年前在淘寶的購買記錄室谚,但是當(dāng)下的購買記錄會(huì)去看,那系統(tǒng)就需要經(jīng)常會(huì)去讀它、更新它秒赤。

還有一個(gè)特點(diǎn)是今天阿里的業(yè)務(wù)還是相對(duì)簡(jiǎn)單的猪瞬,比如我們要在OLTP性能上做到極致性。還有一個(gè)阿里巴巴特有的點(diǎn)就是雙十一入篮,雙十一本質(zhì)上是什么陈瘦,本質(zhì)上就是制造了一個(gè)技術(shù)上非常大的熱點(diǎn)效應(yīng)。這對(duì)我們提出什么樣的需求呢潮售?需求就是一個(gè)極致彈性的能力痊项,數(shù)據(jù)庫實(shí)際上在這個(gè)方向是非常欠缺的,數(shù)據(jù)庫怎么樣去做到彈性伸縮是非常難的事情酥诽。

最后我想說說DBA鞍泉,今天在座的很多人可能都是DBA,我想說一下阿里在智能化這個(gè)方向上得到的思考是什么樣的肮帐,我們有海量的數(shù)據(jù)咖驮,我們也有很多經(jīng)驗(yàn)很豐富的DBA,但這些DBA怎么樣去完成下一步的轉(zhuǎn)型训枢、怎么樣不成為業(yè)務(wù)的瓶頸游沿?數(shù)據(jù)庫怎么樣做到自診斷、自優(yōu)化肮砾。這是我們看到的問題诀黍,最后我也會(huì)來分享一下我在這方面的思考。

阿里在數(shù)據(jù)庫內(nèi)核方向上的思考

我先講一下我們?cè)跀?shù)據(jù)庫內(nèi)核上的思考仗处。首先我很尊敬做國產(chǎn)數(shù)據(jù)庫的廠商眯勾,凡是在內(nèi)核上改進(jìn)的人都知道,其實(shí)每個(gè)功能都是要一行行代碼寫出來都是非常不容易的婆誓,我想表達(dá)對(duì)國產(chǎn)數(shù)據(jù)庫廠商包括這些技術(shù)人的尊敬吃环。今天我要講的內(nèi)容是我第一次在國內(nèi)的會(huì)議上來講,首先我會(huì)講一下AliSQL X-Cluster洋幻。X-Cluster是在AliSQL上做的一個(gè)三節(jié)點(diǎn)集群郁轻,這是我們?cè)谝肓薖axos一致性協(xié)議,保證MySQL變成一個(gè)集群文留,并且這個(gè)集群具有數(shù)據(jù)強(qiáng)一致好唯、面向異地部署,且能夠容忍網(wǎng)絡(luò)高延遲等一系列特性燥翅。


今天很多數(shù)據(jù)庫都會(huì)和Paxos聯(lián)系在一起骑篙,比如大家都知道的Google的Spanser數(shù)據(jù)庫,但是以前大家沒有特別想過數(shù)據(jù)庫和Paxos會(huì)有什么關(guān)系森书,其實(shí)以前確實(shí)沒有什么關(guān)系的靶端,但是今天的數(shù)據(jù)庫在幾個(gè)地方是需要用到Paxos協(xié)議的谎势,第一個(gè)我們需要用Paxos來選舉,尤其在高可用的場(chǎng)景下需要唯一地選舉出一個(gè)節(jié)點(diǎn)作為主節(jié)點(diǎn)杨名,這就需要用到Paxos脏榆;第二是用Paxos協(xié)議來保證數(shù)據(jù)庫在沒有共享存儲(chǔ)的前提下數(shù)據(jù)的強(qiáng)一致,就是數(shù)據(jù)怎么樣在多個(gè)節(jié)點(diǎn)間保證是強(qiáng)一致台谍,且保證高可用姐霍。

所以說現(xiàn)在的數(shù)據(jù)庫架構(gòu)設(shè)計(jì)上Paxos的應(yīng)用非常廣泛,今天外面很多展商包括Goolge Spanser也都在用Paxos協(xié)議和數(shù)據(jù)庫結(jié)合在一起來做典唇。所以AliSQL的三節(jié)點(diǎn)集群也是一樣镊折,就是利用Paxos協(xié)議變成一個(gè)數(shù)據(jù)強(qiáng)一致的集群。下面我大概解釋一下Paxos協(xié)議在數(shù)據(jù)庫里的作用是什么介衔。


本質(zhì)上來說Paxos也是現(xiàn)在通用的技術(shù)恨胚,大家都是搞數(shù)據(jù)庫的,簡(jiǎn)單來說炎咖,Paxos協(xié)議用在我們數(shù)據(jù)庫里面赃泡,就是一個(gè)事務(wù)組的提交在一個(gè)節(jié)點(diǎn)并落地后,必須在多個(gè)節(jié)點(diǎn)同時(shí)落地乘盼,也就是說原來寫入只需要寫入一個(gè)節(jié)點(diǎn)上升熊,但是現(xiàn)在需要跨網(wǎng)絡(luò)寫到另外一個(gè)節(jié)點(diǎn)上,這個(gè)節(jié)點(diǎn)可能是異地的绸栅,也可能是全球的另外一個(gè)城市级野,中間需要經(jīng)過非常漫長(zhǎng)的網(wǎng)絡(luò)時(shí)延,這時(shí)候需要有一些核心技術(shù)粹胯。

我們的目標(biāo)是什么蓖柔?首先沒有辦法抗拒物理時(shí)延,過去在數(shù)據(jù)庫上的操作只要提交到本地风纠,但現(xiàn)在數(shù)據(jù)庫全球部署况鸣、異地部署,甚至跨網(wǎng)絡(luò)竹观,這個(gè)時(shí)延特性是沒有辦法克服的镐捧,但是在這種情況下我們能做到什么?在時(shí)延增長(zhǎng)情況下盡可能保證吞吐不下降臭增,原來做多少Q(mào)PS懂酱、TPS,這一點(diǎn)是可以保證的速址,只要工程做的好是可以保證的玩焰,但是時(shí)延一定會(huì)提升由驹。

這也是大家經(jīng)常在Goolgle Spanser論文里看到的“我的時(shí)延很高”的描述芍锚,在這種時(shí)延很高的情況下昔园,怎么樣寫一個(gè)好的應(yīng)用來保證可用、高吞吐并炮,這是另外一個(gè)話題默刚。大家很長(zhǎng)一段時(shí)間里已經(jīng)習(xí)慣一個(gè)概念,那就是數(shù)據(jù)庫一定是時(shí)延很低的逃魄,時(shí)延高就會(huì)導(dǎo)致應(yīng)用出問題荤西,實(shí)際上這個(gè)問題要花另外一個(gè)篇幅去講,那就是應(yīng)用程序必須要去適應(yīng)這種時(shí)延高的數(shù)據(jù)庫系統(tǒng)伍俘。當(dāng)然用了Batching和Pipelining技術(shù)邪锌,本質(zhì)上是通用的工程優(yōu)化,讓跨網(wǎng)絡(luò)多復(fù)本同步變的高效癌瘾,但是時(shí)延一定會(huì)增加觅丰。

實(shí)際上大家知道數(shù)據(jù)庫要做三副本或者三節(jié)點(diǎn),本質(zhì)上就是為了實(shí)現(xiàn)數(shù)據(jù)強(qiáng)一致妨退,而且大家都在這個(gè)方向上做努力妇萄,比如Oracle前一段時(shí)間推出的Group replication,也是三節(jié)點(diǎn)技術(shù)咬荷,X-Cluster和它的區(qū)別是冠句,我們一開始的目標(biāo)就是跨城市,最開始設(shè)計(jì)的時(shí)候就認(rèn)為這個(gè)節(jié)點(diǎn)一定要跨非常遠(yuǎn)的距離來部署的幸乒,設(shè)計(jì)之初提出這個(gè)目標(biāo)造成我們?cè)O(shè)計(jì)上懦底、工程實(shí)踐上、包括最終的性能上有比較大的差異罕扎。

這里我們也做了一些X-Cluster和Oracle的Group replication的對(duì)比基茵,同城的環(huán)境下我們要比他們好一些;在異地場(chǎng)景下這個(gè)差異就更大了壳影,因?yàn)槲覀儽緛碓O(shè)計(jì)的時(shí)候就是面向異地的場(chǎng)景拱层。可能大家也知道宴咧,阿里一直在講異地多活的概念根灯,就是IDC之間做異地多活怎么樣能夠做到掺栅,所以最開始我們?cè)O(shè)計(jì)的就是面向異地的場(chǎng)景做的。

這是一個(gè)典型的X-Cluster在異地多活的場(chǎng)景下怎么做的架構(gòu)圖桃笙,這是一個(gè)典型的3城市4份數(shù)據(jù)5份日志架構(gòu),如果要簡(jiǎn)化且考慮數(shù)據(jù)存儲(chǔ)成本的話沙绝,實(shí)際上可以做到3份數(shù)據(jù)5份日志鼠锈,這樣的話就可以保證城市級(jí)星著、機(jī)房機(jī)购笆、包括單機(jī)任何的故障都可以避免,并且是零數(shù)據(jù)丟失的同欠,在今天我們可以這么做横缔,且能保證數(shù)據(jù)是零丟失茎刚、強(qiáng)一致的。在任何一個(gè)點(diǎn)上的數(shù)據(jù)至少會(huì)被寫到另一個(gè)城市的數(shù)據(jù)中心的數(shù)據(jù)庫里面捌斧,這是我們X-Cluster設(shè)計(jì)之初的目標(biāo)捞蚂,這也是一個(gè)典型的異地多活的架構(gòu)跷究。


再講一個(gè)小的俊马,但是非常實(shí)用的創(chuàng)新點(diǎn),可能大家都比較感興趣解寝,這就是X-KV聋伦。這里還要說一下界睁,我們所有的下一代技術(shù)組件都是以X開頭的翻斟。這個(gè)X-KV是基于原來MYSQL的Memcached plugin做的改進(jìn),做到非常高的性能嘹履,大家可能都了解MySQL的Memcached plugin植捎,可以通過Memcached plugin的接口直接訪問InnoDB buffer 里的數(shù)據(jù)阳柔,讀的性能可以做到非常高舌剂,這對(duì)于大家來說,或者對(duì)于所謂的架構(gòu)師荐绝,或者設(shè)計(jì)的過程中意義在什么地方呢低滩?

那就是很多場(chǎng)景下不需要緩存了岩喷,因?yàn)閿?shù)據(jù)庫+緩存結(jié)構(gòu)基本上是所有業(yè)務(wù)通用的場(chǎng)景纱意,但是緩存的問題在于緩存和數(shù)據(jù)庫里的數(shù)據(jù)永遠(yuǎn)是不一致的偷霉,需要一個(gè)同步或者失效機(jī)制來做這個(gè)事情。使用X-KV后讀的問題基本上就能解決掉叙身。這是因?yàn)橐环輸?shù)據(jù)只要通過這個(gè)接口訪問就基本上做到和原來訪問緩存差不多的能力曲梗,或者說在大部分情況下其實(shí)就不需要緩存了妓忍。


第二是說它降低了應(yīng)用的響應(yīng)時(shí)間世剖,原來用SQL訪問的話響應(yīng)時(shí)間會(huì)比較高旁瘫,我們?cè)谶@上面做了一些改進(jìn)琼蚯,本來Memcached plugin插件有一些支持?jǐn)?shù)據(jù)的類型限制遭庶,包括對(duì)一些索引類型支持不太好峦睡,所以我們做了改進(jìn)权埠,這個(gè)大家都可以用的攘蔽,如果用這個(gè)方式的話基本上很多緩存系統(tǒng)是不需要的满俗。

第三個(gè)事情我想講一下怎么樣解決冷熱數(shù)據(jù)分離的,我們天然地利用了MySQL的框架五芝,這里就直接拿了MySQL的大圖來展示与柑,大家可以看到MySQL本質(zhì)上來說就是上面有個(gè)Client蓄坏,中間有個(gè)Server涡戳,底下有個(gè)存儲(chǔ)層渔彰,在存儲(chǔ)層里面可以有各種各樣的引擎,所以通過不同的引擎可以實(shí)現(xiàn)不同的特性宝惰。大家今天最常用的就是InnoDB引擎尼夺,每個(gè)存儲(chǔ)引擎的特性本質(zhì)上是由其結(jié)構(gòu)造成的。比如InnoDB采用B+ Tree的結(jié)構(gòu)寝衫,它帶來的特性就是相對(duì)來說讀和寫都比較均衡慰毅,因?yàn)榘l(fā)展了這么多年確實(shí)是比較成熟的汹胃。


比如我們現(xiàn)在選擇RocksDB统台,這是因?yàn)槲覀兒虵acebook在RocksDB上有一些合作啡邑,就是把它引入到MySQL上面谤逼,它本質(zhì)的結(jié)構(gòu)是LSM Tree流部,這個(gè)結(jié)構(gòu)就帶來的好處包括寫入比較友好枝冀、壓縮的特性好等耘子。把它引入進(jìn)來對(duì)我們的改革還不僅僅是引入了一個(gè)結(jié)構(gòu)谷誓,而是今天我們用這兩種引擎解決我們今天數(shù)據(jù)分離的問題捍歪。我們也跟Facebook有過一些交流,RocksDB今天并沒有那么穩(wěn)定庐镐、那么好必逆,但是作為InnoDB存儲(chǔ)引擎的補(bǔ)充的話末患,是非常有效的。

尤其在穩(wěn)定數(shù)據(jù)庫的背景下嚷炉,用戶今天怎么樣才能對(duì)自己的數(shù)據(jù)的冷熱沒有太多的感覺申屹,因?yàn)榇蠹铱赡芤仓阑┘ィ銈円郧耙灿幸恍?shù)據(jù)的分離胞枕,但是對(duì)應(yīng)用方來說腐泻,需要把數(shù)據(jù)從某個(gè)存儲(chǔ)倒到某個(gè)存儲(chǔ)里派桩,然后再刪掉铆惑;或者動(dòng)不動(dòng)DBA去找業(yè)務(wù)開發(fā)方說你的存儲(chǔ)空間不夠了,占用很多空間丑蛤,能不能刪一些數(shù)據(jù)或者把這些數(shù)據(jù)導(dǎo)入到成本更低的存儲(chǔ)引擎里盏阶。我們經(jīng)常這么干名斟,這里說的直白一點(diǎn)魄眉,我相信大家都這么干過坑律。

但是用這種雙引擎結(jié)構(gòu)的話,RocksDB壓縮率高的特性也物,特別是OLTP行存儲(chǔ)的場(chǎng)景下滑蚯,能夠給我們帶來比較大的收益抵栈。所以我們可以把這兩個(gè)引擎在MySQL特性下面把它結(jié)合起來古劲,并且可以利用到比較廉價(jià)的架構(gòu)产艾,尤其是LSM Tree這種架構(gòu)胰舆,他對(duì)廉價(jià)的存儲(chǔ)介質(zhì)是比較友好的缚窿,因?yàn)樗膶懚际琼樞驅(qū)懙难姘狻_@就是我們今天在數(shù)據(jù)庫內(nèi)核上面的一些思考吨悍。

數(shù)據(jù)庫為什么要實(shí)現(xiàn)彈性調(diào)度

第二部分育瓜,我想說一下數(shù)據(jù)庫彈性調(diào)度這個(gè)事躏仇,大家都知道阿里雙十一焰手,雙十一對(duì)我們來說最大的挑戰(zhàn)就是應(yīng)用程序可能已經(jīng)很容易去做彈性調(diào)度书妻,包括上云、彈性擴(kuò)容和縮容见间,但是數(shù)據(jù)庫確實(shí)比較難米诉,我們也在這上面也探索了一段時(shí)間荒辕,今天會(huì)把我們的思考分享給大家抵窒。


我之前聽好多人說數(shù)據(jù)庫容器化是個(gè)偽命題李皇,為什么要做容器化掉房,為什么要把數(shù)據(jù)庫放到容器里呢卓囚?第二也有一些新技術(shù)哪亿,比如剛才的分享嘉賓也提到的,把存儲(chǔ)放在遠(yuǎn)端通過網(wǎng)絡(luò)訪問是可能的讨阻。但是我們從正向來思考钝吮,先別想數(shù)據(jù)庫彈性調(diào)度可能不可能奇瘦,數(shù)據(jù)庫如果要實(shí)現(xiàn)彈性調(diào)度链患,它的前提是什么麻捻?

我們先去想數(shù)據(jù)庫要像應(yīng)用一樣非常簡(jiǎn)單的彈性調(diào)度贸毕,那么數(shù)據(jù)庫要做到什么明棍?我覺得有兩大前提是必須要做的:1摊腋、它必須要放到一個(gè)容器里兴蒸;2、計(jì)算和存儲(chǔ)必須分離蕾殴。因?yàn)槿绻?jì)算和存儲(chǔ)本質(zhì)上不分離的話钓觉,數(shù)據(jù)庫基本上沒有辦法彈性調(diào)度荡灾。大家知道計(jì)算資源是很容易被移動(dòng)的卧晓,但是存儲(chǔ)資源基本上很難在短時(shí)間內(nèi)移動(dòng)它,所以做彈性是非常非常困難的赦政。所以這是兩大基礎(chǔ)條件恢着。

在我們的場(chǎng)景下如果你也碰到這種問題的話掰派,那就不是偽命題靡羡,我覺得這個(gè)東西合不合理略步,更多時(shí)候不是技術(shù)有沒有正確性趟薄,而是在你的場(chǎng)景下是否需要它杭煎,所以今天我們就做了兩件事情,第一是把它放到容器里面玫鸟,我們目前物理機(jī)屎飘,VM和Docker都在支持钦购,有一層會(huì)把容器的復(fù)雜性屏蔽掉押桃,數(shù)據(jù)庫一定要放到容器里唱凯。應(yīng)用程序放到容器里很多時(shí)候是為了部署磕昼,但是我們把數(shù)據(jù)庫放容器里就是為了做調(diào)度票从,因?yàn)閿?shù)據(jù)庫本身沒有特別多的發(fā)布峰鄙,不需要像應(yīng)用一樣做頻繁發(fā)布吟榴。做了容器化之后吩翻,數(shù)據(jù)庫在一個(gè)物理機(jī)上可以和其他的容器做混部仿野。

我們做DBA的都有一些傳統(tǒng)的觀點(diǎn)脚作,比如數(shù)據(jù)庫服務(wù)器上肯定不能跑應(yīng)用球涛,數(shù)據(jù)庫肯定是不能用容器的亿扁。不知道在座的各位从祝,每當(dāng)有人或者你的老板問你這個(gè)問題的時(shí)候牍陌,你是不是從來都是馬上回絕他說“數(shù)據(jù)庫肯定不能這么做”毒涧,但是今天你也許可以告訴你的老板可以試一試契讲。

存儲(chǔ)計(jì)算分離捡偏,最早做數(shù)據(jù)庫的時(shí)候霹琼,存儲(chǔ)和計(jì)算其實(shí)就是分離的枣申,用一個(gè)Oracle的數(shù)據(jù)庫,用一個(gè)SAN網(wǎng)絡(luò)看杭,底下接一個(gè)存儲(chǔ)忠藤,存儲(chǔ)和計(jì)算本身就是分離的,中間用SAN網(wǎng)絡(luò)連起來楼雹。然后演進(jìn)到用Local的盤模孩,用SSD盤尖阔,用PC做服務(wù)器。介却,那未來重新要回到存儲(chǔ)和計(jì)算分離的結(jié)構(gòu)下,今天的網(wǎng)絡(luò)技術(shù)的發(fā)展块茁,不說專有網(wǎng)絡(luò)齿坷,就說通用的25G網(wǎng)絡(luò),還有RDMA和SPDK等新技術(shù)的使用数焊,讓我們具備了存儲(chǔ)計(jì)算分離的能力永淌,讓數(shù)據(jù)庫存儲(chǔ)計(jì)算分離的條件已經(jīng)具備。

今天在數(shù)據(jù)庫上已經(jīng)看到大量?jī)?yōu)化的特性可以減少IO佩耳,可以把離散的IO變成順序的IO遂蛀,可以對(duì)下層的存儲(chǔ)做的很友好。從存儲(chǔ)成本上來說干厚,共享存儲(chǔ)會(huì)極大的降低成本李滴,是因?yàn)榇鎯?chǔ)碎片會(huì)被極大地壓縮,因?yàn)樵瓉砻總€(gè)機(jī)器上都空閑30%蛮瞄、50%的空間所坯,其他的機(jī)器是很難利用到的,當(dāng)你今天把這些碎片變成一個(gè)Pool的時(shí)候是有很大收益的裕坊。

還有數(shù)據(jù)庫未來如果采用存儲(chǔ)和計(jì)算分離的話包竹,就會(huì)打破目前主流的數(shù)據(jù)庫一主一備的架構(gòu),這個(gè)架構(gòu)至少有一半的計(jì)算資源是被完全浪費(fèi)的籍凝,不管你的備庫是否用來做報(bào)表或者其他的應(yīng)用周瞎,但是基本是浪費(fèi)的。如果可以做到共享存儲(chǔ)饵蒂,那這將是一個(gè)巨大的收益声诸。這是我們?cè)谡{(diào)度上的思考,明天分會(huì)場(chǎng)上也會(huì)有一個(gè)阿里同學(xué)就這個(gè)主題給大家做容器和存儲(chǔ)資源上的細(xì)節(jié)介紹退盯,我今天只講了一個(gè)大概彼乌。

DBA未來的工作內(nèi)容是什么?

最后講一下DBA的事情渊迁,剛才也在說慰照,我這里說從自動(dòng)化走向智能化,我們內(nèi)部講從自助化走向智能化琉朽,不知道大家是不是受到一個(gè)困擾毒租,業(yè)務(wù)發(fā)展的速度遠(yuǎn)遠(yuǎn)大于DBA人數(shù)的增長(zhǎng),如果你沒有后面的這些我可以不講了箱叁,但是如果你有墅垮,你可以聽一下我們?cè)谶@方面的思考惕医,我們也碰到同樣的問題,DBA要怎么樣的發(fā)展算色,自動(dòng)化的下一步應(yīng)該做什么抬伺,很多人說DBA是不是會(huì)被淘汰掉,至少我們想清楚了這些問題之后灾梦,阿里的DBA不糾結(jié)這個(gè)事情峡钓,所以我今天跟大家分享一下這個(gè)思考。

首先我們今天做了一個(gè)事情斥废,我們放棄了原來的思路椒楣,原來的思路是什么呢?最早的時(shí)候我們每個(gè)上線的SQL都需要DBA看一下牡肉;第二個(gè)階段捧灰,我們做了一個(gè)系統(tǒng),在每個(gè)SQL上線之前系統(tǒng)都要預(yù)估一下它的性能好不好统锤,如果好才上線毛俏。所有我們今天覺得最大的變化和思考是什么?所有基于單條語句的優(yōu)化都是沒有特別多意義的饲窿,因?yàn)橹挥谢诖蟮臄?shù)據(jù)和計(jì)算煌寇,才有可能變成一個(gè)智能化的東西,否則都是基于規(guī)則的逾雄。

基于規(guī)則的系統(tǒng)是很難有特別長(zhǎng)久的生命力阀溶,因?yàn)橛杏肋h(yuǎn)寫不完的規(guī)則。我們也曾經(jīng)做過這樣的嘗試鸦泳,一些SQL進(jìn)來的時(shí)候银锻,系統(tǒng)要對(duì)它進(jìn)行一些判斷,最后發(fā)現(xiàn)永遠(yuǎn)寫不完的規(guī)則做鹰。所以后來我們就找到了另外一個(gè)方向击纬,我相信今天在座的所有人,你所在的公司不論大小都都有一個(gè)監(jiān)控系統(tǒng)钾麸,我們就從這個(gè)監(jiān)控系統(tǒng)出發(fā)更振,怎么樣把一個(gè)監(jiān)控系統(tǒng)變成一個(gè)智能的優(yōu)化引擎,我們?cè)谶@里也不說是大腦饭尝,就說是引擎好了肯腕。這個(gè)引擎會(huì)做什么?


首先來說钥平,我們已經(jīng)放棄掉基于單條SQL的優(yōu)化乎芳,因?yàn)闆]有意義,DBA也沒有審閱單條SQL帖池,系統(tǒng)去看單條SQL的意義也不大奈惑。今天我們的第一個(gè)場(chǎng)景是說大量的數(shù)據(jù),大量的數(shù)據(jù)是什么睡汹?我們就從我們的監(jiān)控系統(tǒng)出發(fā)肴甸,提出了第一個(gè)目標(biāo),把每一條運(yùn)行的SQL采集下來囚巴,不是采樣原在,是每一條。在規(guī)模比較大的系統(tǒng)來說對(duì)存儲(chǔ)來說是個(gè)巨大的壓力彤叉,因?yàn)檫@樣會(huì)產(chǎn)生大量的副產(chǎn)品庶柿。

就像Facebook在做監(jiān)控產(chǎn)品時(shí)產(chǎn)生的時(shí)序數(shù)據(jù)庫一樣,今天我們產(chǎn)生的副產(chǎn)品也是在時(shí)序數(shù)據(jù)庫方面帶來壓力秽浇,這個(gè)具體的我今天先不展開浮庐。我們采集每一條SQL的運(yùn)行情況,因?yàn)槲覀冊(cè)趦?nèi)核里做了改進(jìn)柬焕,可以把每條SQL的來源审残、路徑、以及它在數(shù)據(jù)庫里所有的信息全部采集下來斑举。把監(jiān)控指標(biāo)壓到秒級(jí)搅轿,所有監(jiān)控項(xiàng)的指標(biāo)必須最小達(dá)到秒級(jí),這是我們現(xiàn)有的技術(shù)能夠做到的富玷。

另外璧坟,我們把應(yīng)用端日志和數(shù)據(jù)庫結(jié)合在一起。原來做數(shù)據(jù)庫的時(shí)候赎懦,應(yīng)用方吼一嗓子說“數(shù)據(jù)庫有沒有問題啊”DBA說沒有問題雀鹃。但是從應(yīng)用那端看,其實(shí)看到數(shù)據(jù)庫有很多問題铲敛,包括應(yīng)用報(bào)錯(cuò)褐澎,包括響應(yīng)時(shí)間,把應(yīng)用端報(bào)錯(cuò)也要和數(shù)據(jù)庫結(jié)合在一起伐蒋,尤其是應(yīng)用里面報(bào)數(shù)據(jù)庫的錯(cuò)誤工三,以及這一整條鏈路。

響應(yīng)時(shí)間先鱼,只有應(yīng)用端的響應(yīng)時(shí)間才是真正意義上可以衡量一個(gè)數(shù)據(jù)庫是不是好的指標(biāo)俭正,而不是數(shù)據(jù)庫本身怎么樣,什么Load低啊焙畔,CPU利用率多少掸读。當(dāng)把這些數(shù)據(jù)全部采集下來之后,這些大量的時(shí)序數(shù)據(jù)我們叫做副產(chǎn)品,這對(duì)我們整個(gè)鏈路產(chǎn)生了一個(gè)巨大的壓力儿惫。我們做整個(gè)監(jiān)控系統(tǒng)平臺(tái)的同學(xué)覺得日子要活不下去了澡罚,因?yàn)樵瓉淼拇鎯?chǔ)系統(tǒng)支撐不了、分析系統(tǒng)支撐不了肾请、原來的平臺(tái)計(jì)算不出來留搔。所以先從這個(gè)目標(biāo)考慮,基于鏈路做了巨大的改進(jìn)铛铁,包括怎么樣實(shí)現(xiàn)廉價(jià)存儲(chǔ)隔显、怎么樣實(shí)時(shí)分析,這是存儲(chǔ)和計(jì)算的要求饵逐。

我們今天這個(gè)目標(biāo)是在阿里內(nèi)部明確提的括眠,我們希望兩到三年內(nèi)希望大部分把DBA的工作替換掉,我不知道兩到三年能不能做到倍权,我希望能做到掷豺。其實(shí)今天DBA是這樣的,DBA的工作本質(zhì)上分為兩類账锹,第一類就是運(yùn)維萌业,但運(yùn)維本質(zhì)上來說是比較好解決的,不管是用云奸柬,小公司用云全搞定生年,大公司基本上都有一些自動(dòng)化運(yùn)維的系統(tǒng)。

但是最難解決的就是剛才我說的診斷和優(yōu)化廓奕。我也了解過很多公司抱婉,比如說Google、facebook桌粉,我說你們?yōu)槭裁礇]有DBA呢蒸绩?他們說我們沒有DBA,沒有像國內(nèi)這種特別傳統(tǒng)的針對(duì)診斷和性能優(yōu)化的DBA铃肯,這種職責(zé)很少患亿。所以這個(gè)東西希望能夠做到。

最后我們有了數(shù)據(jù)押逼、有了計(jì)算步藕,我們覺得未來的方向可能就是現(xiàn)在比較火的機(jī)器學(xué)習(xí),這個(gè)主題明天也有一個(gè)阿里同學(xué)會(huì)來分享挑格,機(jī)器學(xué)習(xí)這里我就不多講了咙冗,因?yàn)槲矣X得我們也在入門,所以沒有什么值得講的漂彤,但是我們覺得這個(gè)設(shè)計(jì)挺有戲的雾消,你只要積累足夠的數(shù)據(jù)和計(jì)算的話這個(gè)事情還是挺有戲的灾搏。

我們對(duì)數(shù)據(jù)庫未來的其他思考

最后一頁P(yáng)PT我用大白話講一下我對(duì)整個(gè)數(shù)據(jù)庫體系的一些理解。


今天在一個(gè)公司里邊沒有一個(gè)存儲(chǔ)或者是數(shù)據(jù)庫可以解決所有問題立润,今天越來越多的趨勢(shì)看到狂窑,數(shù)據(jù)存儲(chǔ)的多樣性是必然會(huì)存在的,因?yàn)樾写嬗行写娴膬?yōu)勢(shì)范删、列存有列存的優(yōu)勢(shì)蕾域、做計(jì)算有計(jì)算的優(yōu)勢(shì)、做分析有做分析的優(yōu)勢(shì)到旦、做OLTP有OLTP的優(yōu)勢(shì),不要指望巨缘,或者很難指望一個(gè)系統(tǒng)干所有的事情很添忘,這個(gè)話我說了可能不太好,但是確實(shí)比較難若锁,但是我們看到的一點(diǎn)是什么搁骑?就是每個(gè)技術(shù)或產(chǎn)品在生產(chǎn)中干一件事情可以干到最好,你就用它做的最好的那件事解你的問題就好了又固。

這就回到之前的問題仲器,我們也走過一些彎路,數(shù)據(jù)存儲(chǔ)類型越來越多仰冠,今天用這個(gè)明天用那個(gè)乏冀,怎么辦?我們的運(yùn)維沒法搞定洋只,這個(gè)支持很痛苦辆沦。

所以今天我們建議建立兩個(gè)平臺(tái):1、建立一個(gè)支撐的平臺(tái)识虚,這個(gè)支撐的平臺(tái)盡可能把下層存儲(chǔ)的復(fù)雜性屏蔽掉肢扯,對(duì)上層提供統(tǒng)一的接口和服務(wù);2担锤、建立一個(gè)服務(wù)的平臺(tái)蔚晨,明確面向研發(fā)的平臺(tái),研發(fā)人員可以直接通過這個(gè)平臺(tái)來用數(shù)據(jù)庫的服務(wù)肛循。我看到很多公司把運(yùn)維平臺(tái)和DBA開發(fā)的平臺(tái)混在一起铭腕,但阿里的思路是,支撐平臺(tái)和服務(wù)平臺(tái)是兩個(gè)分層的平臺(tái)育拨,支撐平臺(tái)在下面谨履,上層服務(wù)平臺(tái)為所有的開發(fā)人員服務(wù),開發(fā)人員上了這個(gè)平臺(tái)就能看到我用了什么數(shù)據(jù)庫熬丧,性能怎么樣笋粟,在上面可以做什么事情怀挠,這樣就可以大量節(jié)省DBA的人力。

我們內(nèi)部有句開玩笑的話叫“不節(jié)省人力的平臺(tái)害捕、不節(jié)省成本的技術(shù)都是耍流氓”绿淋,這句話怎么講?就是說我們的自動(dòng)化系統(tǒng)尝盼,尤其是大公司越建越多吞滞,最后的結(jié)果就是人沒有能力了,我不知道大家有沒有這個(gè)問題盾沫,這就是我最后講的一點(diǎn)裁赠,自動(dòng)化系統(tǒng)的悖論。每個(gè)公司每個(gè)人今天你們?cè)谧鲎詣?dòng)化系統(tǒng)的過程中有沒有發(fā)生一件事情赴精?反正在阿里是發(fā)生了佩捞,就是人的能力弱化了。

這個(gè)自動(dòng)化系統(tǒng)的悖論是我們無意中看到的蕾哟,在講飛機(jī)的自動(dòng)駕駛的時(shí)候一忱,因?yàn)樽詣?dòng)駕駛做的足夠好,當(dāng)出現(xiàn)緊急問題的時(shí)候谭确,飛機(jī)駕駛員反而沒有足夠的能力去處理緊急的情況帘营,這就是自動(dòng)化系統(tǒng)的悖論。

可以對(duì)比看一下逐哈,我們今天做了很多自動(dòng)化系統(tǒng)芬迄,結(jié)果人只會(huì)點(diǎn)系統(tǒng),系統(tǒng)一卡殼就完蛋鞠眉,很多次生故障都是出現(xiàn)在系統(tǒng)卡殼薯鼠,卡殼人搞不定,怎么辦械蹋?這是今天要去想的問題出皇,在這個(gè)過程中今天所有帶團(tuán)隊(duì)的或者今天在這個(gè)體系的人都要思考的問題,我們也在直面這個(gè)問題哗戈,讓人的能力和系統(tǒng)的能力能夠結(jié)合在一起郊艘,這是另外一個(gè)話題,我今天不能給出答案唯咬,但是要特別重視這些問題纱注。

不要相信那些已經(jīng)過期的神話,數(shù)據(jù)庫存儲(chǔ)和計(jì)算是可以分離的胆胰,數(shù)據(jù)庫也是可以放在容器里的狞贱,但你真的要去看一下,原來那些神話或者是那個(gè)背后它的問題到底是什么蜀涨,其實(shí)現(xiàn)在可能都已經(jīng)有解法了瞎嬉,所以在座的各位蝎毡,當(dāng)你的老板、CTO或者什么人來問你“能不能做到這樣氧枣?”我希望你能告訴他“我能沐兵!”

我們內(nèi)部有一句話原來我們的DBA哪里看過一篇文章蟆肆,說DBA的概念是什么谨读?我印象特別深,有一個(gè)開發(fā)的同學(xué)在底下的回復(fù)是說“DBA就是一群永遠(yuǎn)在說不的人”就是不能這樣不能那樣钻趋,我們今天我覺得未來我們變成一群永遠(yuǎn)可以說“yes”烧董,說“可以”的人毁靶,謝謝!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末解藻,一起剝皮案震驚了整個(gè)濱河市老充,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌螟左,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件觅够,死亡現(xiàn)場(chǎng)離奇詭異胶背,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)喘先,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門钳吟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人窘拯,你說我怎么就攤上這事红且。” “怎么了涤姊?”我有些...
    開封第一講書人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵暇番,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我思喊,道長(zhǎng)壁酬,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任恨课,我火速辦了婚禮舆乔,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘剂公。我一直安慰自己希俩,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開白布纲辽。 她就那樣靜靜地躺著颜武,像睡著了一般璃搜。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盒刚,一...
    開封第一講書人閱讀 49,031評(píng)論 1 285
  • 那天腺劣,我揣著相機(jī)與錄音,去河邊找鬼因块。 笑死橘原,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的涡上。 我是一名探鬼主播趾断,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼吩愧!你這毒婦竟也來了芋酌?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤雁佳,失蹤者是張志新(化名)和其女友劉穎脐帝,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體糖权,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡堵腹,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了星澳。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片疚顷。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖禁偎,靈堂內(nèi)的尸體忽然破棺而出腿堤,到底是詐尸還是另有隱情,我是刑警寧澤如暖,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布笆檀,位于F島的核電站,受9級(jí)特大地震影響装处,放射性物質(zhì)發(fā)生泄漏误债。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一妄迁、第九天 我趴在偏房一處隱蔽的房頂上張望寝蹈。 院中可真熱鬧,春花似錦登淘、人聲如沸箫老。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽耍鬓。三九已至阔籽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間牲蜀,已是汗流浹背笆制。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留涣达,地道東北人在辆。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像度苔,于是被迫代替她去往敵國和親匆篓。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容