真正硬核分布式數(shù)據(jù)庫:開發(fā)分布式SQL數(shù)據(jù)庫的6種技術(shù)挑戰(zhàn)

讓我們開始探討從最簡(jiǎn)單到最具挑戰(zhàn)性的問題：

一磕蛇、架構(gòu)：亞馬遜Aurora還是谷歌Spanner？

我們?cè)缙谧龀龅囊粋€(gè)決定是找到一個(gè)我們可以用作YugaByte DB架構(gòu)靈感的數(shù)據(jù)庫堰乔。我們密切關(guān)注兩個(gè)系統(tǒng)，Amazon Aurora和Google Spanner脐恩。

Amazon Aurora是一個(gè)提供高可用性的SQL數(shù)據(jù)庫镐侯。它具有與流行的RDBMS數(shù)據(jù)庫（如MySQL和PostgreSQL）的兼容性，使其易于入門并可運(yùn)行各種應(yīng)用程序被盈。Amazon Aurora也是AWS歷史上發(fā)展最快的服務(wù)之一析孽。

Amazon Aurora服務(wù)與MySQL和PostgreSQL兼容，是AWS歷史上發(fā)展最快的服務(wù)只怎。

Amazon Aurora具有可擴(kuò)展的數(shù)據(jù)存儲(chǔ)層袜瞬，但查詢層不是這樣。以下是我們發(fā)現(xiàn)的Amazon Aurora的一些關(guān)鍵可擴(kuò)展性限制：

寫入不是水平可伸縮的身堡。擴(kuò)展寫入吞吐量的唯一方法是垂直擴(kuò)展處理所有寫入的節(jié)點(diǎn)（稱為主節(jié)點(diǎn)）邓尤。這種擴(kuò)展方案只是到目前為止，因此數(shù)據(jù)庫能處理多少寫入IOPS存在固有的限制贴谎。
寫入不是全局一致的汞扎。許多現(xiàn)代的云原生應(yīng)用程序本質(zhì)上是全局性的，需要跨多個(gè)區(qū)域部署底層數(shù)據(jù)庫擅这。但是澈魄，Aurora僅支持多主機(jī)部署，在發(fā)生沖突時(shí)最后一個(gè)寫入程序（具有最高時(shí)間戳）獲勝仲翎。這可能導(dǎo)致不一致痹扇。
通過使用犧牲一致性的從屬副本以獲得讀取的伸縮擴(kuò)展铛漓。為了擴(kuò)展讀取，應(yīng)用程序需要連接到從屬節(jié)點(diǎn)才能實(shí)現(xiàn)讀取鲫构。當(dāng)使用這些從屬節(jié)點(diǎn)實(shí)現(xiàn)讀取時(shí)浓恶，應(yīng)用程序需要面對(duì)降級(jí)的一致性語義，以及一個(gè)單獨(dú)的連接端點(diǎn)结笨。這使得應(yīng)用程序架構(gòu)非常復(fù)雜包晰。

另外，Google Spanner是一個(gè)可水平擴(kuò)展的SQL數(shù)據(jù)庫炕吸，專為大規(guī)姆ズ叮可擴(kuò)展和地理分布式應(yīng)用程序而構(gòu)建。

Cloud Spanner是唯一為云構(gòu)建的企業(yè)級(jí)赫模、全局分布且高度一致的數(shù)據(jù)庫服務(wù)塞耕，專門用于將關(guān)系數(shù)據(jù)庫結(jié)構(gòu)的優(yōu)勢(shì)與非關(guān)系水平擴(kuò)展相結(jié)合。

這意味著Spanner可以無縫擴(kuò)展讀寫嘴瓤，支持需要全局一致性的地理分布式應(yīng)用程序扫外，并在不犧牲正確性的情況下從多個(gè)節(jié)點(diǎn)執(zhí)行讀取。

但是廓脆，它放棄了RDBMS數(shù)據(jù)庫提供給開發(fā)人員期望的許多熟悉功能集筛谚。例如，Google Spanner文檔中突出顯示了不支持外鍵約束或觸發(fā)器的事實(shí)停忿。

我們決定采用混合方法驾讲。

YugaByte DB的核心存儲(chǔ)架構(gòu)受到Google Spanner的啟發(fā)，該架構(gòu)專為水平可擴(kuò)展性和地理分布式應(yīng)用程序而構(gòu)建席赂。
YugaByte DB保留了與Amazon Aurora類似的PostgreSQL兼容查詢層吮铭，它可以支持豐富的功能集，并支持最廣泛的用例颅停。

二谓晌、 SQL協(xié)議：PostgreSQL還是MySQL？

我們想要對(duì)廣泛采用的SQL方言進(jìn)行標(biāo)準(zhǔn)化癞揉。我們還希望它是開源的纸肉，并且在數(shù)據(jù)庫周圍擁有成熟的生態(tài)系統(tǒng)。權(quán)衡的自然選擇是PostgreSQL和MySQL喊熟？

我們之所以選擇PostgreSQL（而不是MySQL）柏肪，原因如下：

PostgreSQL有一個(gè)更寬松的許可證，更符合YugaByte DB的開源精神芥牌。
與任何其他SQL數(shù)據(jù)庫相比烦味，PostgreSQL在過去幾年中的流行度一直在飆升，這絕對(duì)沒有受到影響壁拉！

在目前排在DB-Engines排名網(wǎng)站前10位的五個(gè)SQL數(shù)據(jù)庫中谬俄，自2014年以來岩遗，只有PostgreSQL的受歡迎程度越來越高，而其他數(shù)據(jù)庫則趨于平穩(wěn)或正在失去理智凤瘦。

此外，對(duì)于許多應(yīng)用程序案铺，PostgreSQL是Oracle的絕佳替代品蔬芥。組織正在被PostgreSQL所吸引，因?yàn)樗情_源的控汉，供應(yīng)商中立（MySQL由Oracle擁有）笔诵，擁有一個(gè)參與的開發(fā)者社區(qū)，一個(gè)繁榮的供應(yīng)商生態(tài)系統(tǒng)姑子，一個(gè)強(qiáng)大的功能集乎婿，以及一個(gè)成熟的代碼庫，一直在戰(zhàn)斗 - 經(jīng)過20多年的嚴(yán)格使用而堅(jiān)固街佑。

三谢翎、分布式事務(wù)：Google Spanner或Percolator？

關(guān)于我們應(yīng)該如何設(shè)計(jì)分布式事務(wù)沐旨，我們查看了Google Spanner和Percolator森逮。

總而言之，Google Percolator提供高吞吐量但使用單個(gè)時(shí)間戳磁携。這種方法本質(zhì)上是不可擴(kuò)展的褒侧，僅適用于單個(gè)數(shù)據(jù)中心，面向?qū)崟r(shí)分析（稱為HTAP）的應(yīng)用程序谊迄，而不是OLTP應(yīng)用程序闷供。另一方面，Google Spanner的分散時(shí)間跟蹤方法對(duì)于地理分布式OLTP和單數(shù)據(jù)中心HTAP應(yīng)用程序來說都是一個(gè)很好的解決方案统诺。

Google Spanner是在Google Percolator之后構(gòu)建的歪脏，用于替換廣告后端中手動(dòng)分片的MySQL部署，以實(shí)現(xiàn)水平可擴(kuò)展性和地理分布式用例粮呢。但是唾糯，考慮到其真正的分布式特性以及對(duì)時(shí)鐘偏移跟蹤的需求，Google Spanner的構(gòu)建難度要高一個(gè)數(shù)量級(jí)鬼贱。

有關(guān)此主題的更多詳細(xì)信息移怯，您可以詳細(xì)了解Percolator與Spanner的權(quán)衡。

我們決定采用Google Spanner方法这难，因?yàn)樗梢灾С?/strong>：

更好的水平可擴(kuò)展性

高度可用且性能更佳的多區(qū)域部署舟误。

我們堅(jiān)信，大多數(shù)現(xiàn)代云應(yīng)用都需要上述兩種功能姻乓。實(shí)際上嵌溢，GDPR和總共提供100個(gè)地區(qū)的公共云等合規(guī)性要求已經(jīng)使這成為現(xiàn)實(shí)眯牧。

四、Raft是否適用于地理分布式工作負(fù)載赖草？

Raft和Paxos是眾所周知的分布式共識(shí)算法学少，并且已被正式證明是安全的，Spanner使用Paxos秧骑，但是版确，我們選擇了Raft，因?yàn)?/strong>：

對(duì)于開發(fā)人員和運(yùn)營(yíng)團(tuán)隊(duì)Raft比Paxos更容易理解乎折。

它提供動(dòng)態(tài)更改成員資格的能力绒疗，這是至關(guān)重要的（例如：在不影響性能的情況下更改機(jī)器類型）。（banq注：Raft與Paxos主要區(qū)別在于Raft候選人可以是任何一個(gè)服務(wù)器節(jié)點(diǎn)骂澄，不需要專門指定候選人吓蘑，否則這些候選人全部宕機(jī)怎么辦？如同一些TCC分布式事務(wù)中存在事務(wù)協(xié)調(diào)器一樣有單點(diǎn)風(fēng)險(xiǎn)）

然而坟冲，為了確蹦ハ猓可線性化的讀取，Raft要求接收讀取查詢的每個(gè)領(lǐng)導(dǎo)者在實(shí)際提供讀取查詢之前首先將心跳消息傳播到Raft組中的大多數(shù)節(jié)點(diǎn)健提。在某些情況下棋嘲，這可能會(huì)嚴(yán)重降低讀取性能。這種情況的一個(gè)示例是地理分布式部署矩桂，其中往返會(huì)顯著增加延遲沸移，并且在諸如臨時(shí)網(wǎng)絡(luò)分區(qū)之類的事件的情況下增加失敗查詢的數(shù)量。

為了避免Raft高延遲侄榴，我們實(shí)施了領(lǐng)導(dǎo)者的租賃機(jī)制雹锣，這將允許我們無需往返實(shí)現(xiàn)領(lǐng)導(dǎo)者服務(wù)，同時(shí)保留了Raft的線性化特性癞蚕。此外蕊爵，我們使用單調(diào)時(shí)鐘而不是實(shí)時(shí)時(shí)鐘，以容忍時(shí)鐘偏差桦山。

五攒射、我們可以構(gòu)建軟件定義的原子鐘嗎？

作為分布式數(shù)據(jù)庫恒水，YugaByte DB支持跨多個(gè)節(jié)點(diǎn)的多鍵ACID事務(wù)（快照和可序列化隔離級(jí)別）会放，即使存在故障也是如此。這需要一個(gè)可以跨節(jié)點(diǎn)同步時(shí)間的時(shí)鐘钉凌。

Google Spanner使用TrueTime咧最，這是一個(gè)具有嚴(yán)格錯(cuò)誤界限的高可用性全局同步時(shí)鐘的示例。但是，許多部署中都沒有此類時(shí)鐘矢沿。

物理時(shí)鐘（或掛鐘）不能在節(jié)點(diǎn)之間完美同步滥搭。因此，他們無法跨節(jié)點(diǎn)排序事件（建立因果關(guān)系）捣鲸。除非存在中央時(shí)間戳權(quán)限瑟匆，否則諸如Lamport時(shí)鐘和向量時(shí)鐘之類的邏輯時(shí)鐘不會(huì)跟蹤物理時(shí)間，這成為可擴(kuò)展性瓶頸栽惶。

我們的方案: 混合邏輯時(shí)鐘（HLC）通過將使用NTP粗略同步的物理時(shí)鐘與跟蹤因果關(guān)系的Lamport時(shí)鐘相結(jié)合來解決該問題愁溜。

YugaByte DB使用HLC作為高可用性群集寬時(shí)鐘，具有用戶指定的最大時(shí)鐘偏差上限值媒役。HLC值在Raft組中用作關(guān)聯(lián)更新的方式，也用作MVCC讀取點(diǎn)宪迟。結(jié)果是符合ACID的分布式數(shù)據(jù)庫酣衷，如Jepsen測(cè)試所示。

六次泽、重寫或重用PostgreSQL查詢層穿仪？???????

最后但同樣重要的是，我們需要決定是否重寫或重用PostgreSQL查詢層意荤。

我們的初步?jīng)Q定

YugaByte數(shù)據(jù)庫查詢層在設(shè)計(jì)時(shí)考慮了可擴(kuò)展性啊片。通過在C ++中重寫API服務(wù)器，已經(jīng)在這個(gè)查詢層框架中構(gòu)建了兩個(gè)API（YCQL和YEDIS）玖像，首先重寫PostgreSQL API似乎更容易和自然紫谷。

我們的最終決定

在我們意識(shí)到這不是一條理想的道路之前，我們沿著這條路走了大約5個(gè)月捐寥。與PostgreSQL成熟笤昨，完整的數(shù)據(jù)庫相比，其他API要簡(jiǎn)單得多握恳。然后我們重新完成整個(gè)工作瞒窒，回到繪圖板并重新開始重新使用PostgreSQL的查詢層代碼。雖然這在開始時(shí)很痛苦乡洼，但回顧起來它是一個(gè)更好的策略崇裁。

這種方法也有其自身的挑戰(zhàn)。我們的計(jì)劃是首先將PostgreSQL系統(tǒng)表移動(dòng)到DocDB（YugaByte DB的存儲(chǔ)層）束昵，最初支持一些數(shù)據(jù)類型和一些簡(jiǎn)單查詢拔稳，并隨著時(shí)間的推移添加更多數(shù)據(jù)類型和查詢支持。

不幸的是锹雏，這個(gè)計(jì)劃并沒有完全解決壳炎。要從psql執(zhí)行看似簡(jiǎn)單的最終用戶命令，實(shí)際上需要支持大量SQL功能。例如匿辩，\d用于列出所有表的命令在內(nèi)部執(zhí)行以下查詢：

c.relname as "Name", CASE c.relkind WHEN 'r' THEN 'table' WHEN 'v' THEN 'view' WHEN 'm' THEN 'materialized view' WHEN 'i' THEN 'index' WHEN 'S' THEN 'sequence' WHEN 's' THEN 'special' WHEN 'f' THEN 'foreign table' END as "Type", pg_catalog.pg_get_userbyid(c.relowner) as "Owner" FROM pg_catalog.pg_class c LEFT JOIN pg_catalog.pg_namespace n ON n.oid = c.relnamespace WHERE c.relkind IN ('r','') AND n.nspname <> 'pg_catalog' AND n.nspname <> 'information_schema' AND n.nspname !~ '^pg_toast' AND pg_catalog.pg_table_is_visible(c.oid) ORDER BY 1,2;

滿足上述查詢需要支持以下功能：

WHERE支持操作符腰耙，例如IN，不等于铲球，正則表達(dá)式匹配等挺庞。

CASE 條款

加入，特別是 LEFT JOIN

ORDER BY

內(nèi)建等 pg_table_is_visible()

顯然稼病，這代表了各種各樣的SQL功能选侨，因此我們必須在創(chuàng)建單個(gè)用戶表之前使所有這些功能都可用！我們?cè)贕oogle Spanner架構(gòu)上發(fā)布分布式PostgreSQL - 查詢層突出顯示了查詢層的詳細(xì)工作方式然走。

結(jié)論

即使對(duì)于專家用戶來說援制，不得不在市場(chǎng)上可用的許多數(shù)據(jù)庫之間進(jìn)行選擇，一開始看起來似乎勢(shì)不可擋芍瑞。這是因?yàn)闉榻o定類型的應(yīng)用程序選擇數(shù)據(jù)庫取決于這些數(shù)據(jù)庫在其體系結(jié)構(gòu)中所做的權(quán)衡晨仑。

通過YugaByte DB，我們以一種新穎的方式組合了一組非常實(shí)用的架構(gòu)決策拆檬，以創(chuàng)建一個(gè)獨(dú)特的開源分布式SQL數(shù)據(jù)庫洪己。PostgreSQL強(qiáng)大的SQL功能現(xiàn)在可供您使用，零數(shù)據(jù)丟失竟贯，水平寫入可擴(kuò)展性答捕，低讀取延遲以及在公共云或Kubernetes中本機(jī)運(yùn)行的能力。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末屑那，一起剝皮案震驚了整個(gè)濱河市拱镐，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌持际，老刑警劉巖痢站，帶你破解...
沈念sama閱讀 217,185評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異选酗，居然都是意外死亡阵难，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,652評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門芒填，熙熙樓的掌柜王于貴愁眉苦臉地迎上來呜叫，“玉大人，你說我怎么就攤上這事殿衰≈烨欤” “怎么了？”我有些...
開封第一講書人閱讀 163,524評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵闷祥，是天一觀的道長(zhǎng)娱颊。經(jīng)常有香客問我傲诵，道長(zhǎng)，這世上最難降的妖魔是什么箱硕？我笑而不...
開封第一講書人閱讀 58,339評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任拴竹，我火速辦了婚禮，結(jié)果婚禮上剧罩，老公的妹妹穿的比我還像新娘栓拜。我一直安慰自己，他們只是感情好惠昔，可當(dāng)我...
茶點(diǎn)故事閱讀 67,387評(píng)論 6贊 391
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布幕与。她就那樣靜靜地躺著，像睡著了一般镇防。火紅的嫁衣襯著肌膚如雪啦鸣。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,287評(píng)論 1贊 301
城市分裂傳說
那天来氧，我揣著相機(jī)與錄音诫给，去河邊找鬼。笑死饲漾，一個(gè)胖子當(dāng)著我的面吹牛蝙搔，可吹牛的內(nèi)容都是我干的缕溉。我是一名探鬼主播考传，決...
沈念sama閱讀 40,130評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼证鸥！你這毒婦竟也來了僚楞？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,985評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤枉层，失蹤者是張志新（化名）和其女友劉穎泉褐，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鸟蜡，經(jīng)...
沈念sama閱讀 45,420評(píng)論 1贊 313
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡膜赃，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,617評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了揉忘。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片跳座。...
茶點(diǎn)故事閱讀 39,779評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖泣矛，靈堂內(nèi)的尸體忽然破棺而出疲眷，到底是詐尸還是另有隱情，我是刑警寧澤您朽，帶...
沈念sama閱讀 35,477評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布狂丝，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏几颜。R本人自食惡果不足惜倍试，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,088評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望菠剩。院中可真熱鬧易猫，春花似錦、人聲如沸具壮。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,716評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽棺妓。三九已至攘已，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間怜跑，已是汗流浹背样勃。一陣腳步聲響...
開封第一講書人閱讀 32,857評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國(guó)打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留性芬，地道東北人峡眶。一個(gè)月前我還...
沈念sama閱讀 47,876評(píng)論 2贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像植锉，于是被迫代替她去往敵國(guó)和親辫樱。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,700評(píng)論 2贊 354

真正硬核分布式數(shù)據(jù)庫:開發(fā)分布式SQL數(shù)據(jù)庫的6種技術(shù)挑戰(zhàn)

一磕蛇、架構(gòu)：亞馬遜Aurora還是谷歌Spanner？

二谓晌、 SQL協(xié)議：PostgreSQL還是MySQL？

三谢翎、分布式事務(wù)：Google Spanner或Percolator？

四、Raft是否適用于地理分布式工作負(fù)載赖草？

五攒射、我們可以構(gòu)建軟件定義的原子鐘嗎？

六次泽、重寫或重用PostgreSQL查詢層穿仪？???????

結(jié)論

推薦閱讀更多精彩內(nèi)容