背景
2016年Q3季度初绸狐,在美團(tuán)外賣上單2.0項(xiàng)目上線后谣妻,商家和商品數(shù)量急速增長(zhǎng)兽叮,預(yù)估商品庫(kù)的容量和寫峰值QPS會(huì)很快遇到巨大壓力芬骄。隨之而來(lái)也會(huì)影響線上服務(wù)的查詢性能猾愿、DB(數(shù)據(jù)庫(kù),以下統(tǒng)一稱DB)主從延遲账阻、表變更困難等一系列問題蒂秘。
要解決上面所說(shuō)的問題,通常有兩種方案淘太。第一種方案是直接對(duì)現(xiàn)有的商品庫(kù)進(jìn)行垂直拆分姻僧,可以緩解目前寫峰值QPS過(guò)大、DB主從延遲的問題蒲牧。第二種方案是對(duì)現(xiàn)有的商品庫(kù)大表進(jìn)行分庫(kù)分表撇贺,從根本上解決現(xiàn)有問題。方案一實(shí)施起來(lái)周期較短冰抢,但只能解決一時(shí)之痛松嘶,由此可見,分庫(kù)分表是必然的挎扰。
在確定分庫(kù)分表的方案之后翠订,我們調(diào)研了外賣訂單、結(jié)算以及主站等業(yè)務(wù)的分庫(kù)分表實(shí)現(xiàn)方案遵倦,也調(diào)研了業(yè)界很多分庫(kù)分表中間件尽超。在綜合考慮性能、穩(wěn)定性及實(shí)現(xiàn)成本的前提下梧躺,最終決定自主研發(fā)客戶端分庫(kù)分表中間件MTDDL來(lái)支撐外賣商品分庫(kù)分表項(xiàng)目似谁,這也就是MTDDL的由來(lái)。
當(dāng)然燥狰,在MTDDL的設(shè)計(jì)研發(fā)過(guò)程中棘脐,我們充分考慮了MTDDL的通用性、可擴(kuò)展性龙致、功能的全面性和接入的便利性蛀缝。到目前為止一共開發(fā)了四期,實(shí)現(xiàn)了MySQL動(dòng)態(tài)數(shù)據(jù)源目代、讀寫分離屈梁、分布式唯一主鍵生成器、分庫(kù)分表榛了、連接池及SQL監(jiān)控在讶、動(dòng)態(tài)化配置等一系列功能,支持分庫(kù)分表算法霜大、分布式唯一主鍵生成算法的高可擴(kuò)展性构哺,而且支持全注解的方式接入,業(yè)務(wù)方不需要引入任何配置文件。
下面就部分業(yè)界方案及MTDDL的設(shè)計(jì)目標(biāo)詳細(xì)展開下曙强,然后從源碼的角度來(lái)剖析下MTDDL的整個(gè)邏輯架構(gòu)和具體實(shí)現(xiàn)残拐。
業(yè)界調(diào)研
設(shè)計(jì)目標(biāo)
MTDDL(Meituan Distributed Data Layer),美團(tuán)點(diǎn)評(píng)分布式數(shù)據(jù)訪問層中間件碟嘴,旨在為全公司提供一個(gè)通用數(shù)據(jù)訪問層服務(wù)溪食,支持MySQL動(dòng)態(tài)數(shù)據(jù)源、讀寫分離娜扇、分布式唯一主鍵生成器错沃、分庫(kù)分表、動(dòng)態(tài)化配置等功能雀瓢,并且支持從客戶端角度對(duì)數(shù)據(jù)源的各方面(比如連接池枢析、SQL等)進(jìn)行監(jiān)控,后續(xù)考慮支持NoSQL致燥、Cache等多種數(shù)據(jù)源登疗。
功能特性
1.動(dòng)態(tài)數(shù)據(jù)源
2.讀寫分離
3.分布式唯一主鍵生成器
4.分庫(kù)分表
5.連接池及SQL監(jiān)控
6.動(dòng)態(tài)化配置
邏輯架構(gòu)
下圖是一次完整的DAO層insert方法調(diào)用時(shí)序圖排截,簡(jiǎn)單闡述了MTDDL的整個(gè)邏輯架構(gòu)嫌蚤。其中包含了分布式唯一主鍵的獲取、動(dòng)態(tài)數(shù)據(jù)源的路由以及SQL埋點(diǎn)監(jiān)控等過(guò)程:
具體實(shí)現(xiàn)
動(dòng)態(tài)數(shù)據(jù)源及讀寫分離
在Spring JDBC AbstractRoutingDataSource的基礎(chǔ)上擴(kuò)展出MultipleDataSource動(dòng)態(tài)數(shù)據(jù)源類断傲,通過(guò)動(dòng)態(tài)數(shù)據(jù)源注解及AOP實(shí)現(xiàn)脱吱。
動(dòng)態(tài)數(shù)據(jù)源
MultipleDataSource動(dòng)態(tài)數(shù)據(jù)源類,繼承于Spring JDBC AbstractRoutingDataSource抽象類认罩,實(shí)現(xiàn)了determineCurrentLookupKey方法箱蝠,通過(guò)setDataSourceKey方法來(lái)動(dòng)態(tài)調(diào)整dataSourceKey,進(jìn)而達(dá)到動(dòng)態(tài)調(diào)整數(shù)據(jù)源的功能垦垂。其類圖如下:
動(dòng)態(tài)數(shù)據(jù)源AOP
ShardMultipleDataSourceAspect動(dòng)態(tài)數(shù)據(jù)源切面類宦搬,針對(duì)DAO方法進(jìn)行功能增強(qiáng),通過(guò)掃描DataSource動(dòng)態(tài)數(shù)據(jù)源注解來(lái)獲取相應(yīng)的dataSourceKey劫拗,從而指定具體的數(shù)據(jù)源间校。具體流程圖如下:
配置和使用方式舉例
分布式唯一主鍵生成器
眾所周知,分庫(kù)分表首先要解決的就是分布式唯一主鍵的問題页慷,業(yè)界也有很多相關(guān)方案:
綜上憔足,方案3的缺點(diǎn)可以通過(guò)一些手段避免,但其他方案的缺點(diǎn)不好處理酒繁,所以選擇第3種方案滓彰。目前該方案已由美團(tuán)點(diǎn)評(píng)技術(shù)工程部實(shí)現(xiàn)——分布式ID生成系統(tǒng)Leaf,MTDDL集成了此功能州袒。
分布式ID生成系統(tǒng)Leaf
美團(tuán)點(diǎn)評(píng)分布式ID生成系統(tǒng)Leaf揭绑,其實(shí)是一種基于DB的Ticket服務(wù),通過(guò)一張通用的Ticket表來(lái)實(shí)現(xiàn)分布式ID的持久化郎哭,執(zhí)行update更新語(yǔ)句來(lái)獲取一批Ticket他匪,這些獲取到的Ticket會(huì)在內(nèi)存中進(jìn)行分配弓叛,分配完之后再?gòu)腄B獲取下一批Ticket。整體架構(gòu)圖如下:
每個(gè)業(yè)務(wù)tag對(duì)應(yīng)一條DB記錄诚纸,DB MaxID字段記錄當(dāng)前該Tag已分配出去的最大ID值撰筷。
IDGenerator服務(wù)啟動(dòng)之初向DB申請(qǐng)一個(gè)號(hào)段,傳入號(hào)段長(zhǎng)度如 genStep = 10000畦徘,DB事務(wù)置 MaxID = MaxID + genStep毕籽,DB設(shè)置成功代表號(hào)段分配成功。每次IDGenerator號(hào)段分配都通過(guò)原子加的方式井辆,待分配完畢后重新申請(qǐng)新號(hào)段关筒。
唯一主鍵生成算法擴(kuò)展
MTDDL不僅集成了Leaf算法,還支持唯一主鍵算法的擴(kuò)展杯缺,通過(guò)新增唯一主鍵生成策略類實(shí)現(xiàn)IDGenStrategy接口即可蒸播。IDGenStrategy接口包含兩個(gè)方法:getIDGenType用來(lái)指定唯一主鍵生成策略,getId用來(lái)實(shí)現(xiàn)具體的唯一主鍵生成算法萍肆。其類圖如下:
分庫(kù)分表
在動(dòng)態(tài)數(shù)據(jù)源AOP的基礎(chǔ)上擴(kuò)展出分庫(kù)分表AOP袍榆,通過(guò)分庫(kù)分表ShardHandle類實(shí)現(xiàn)分庫(kù)分表數(shù)據(jù)源路由及分表計(jì)算。ShardHandle關(guān)聯(lián)了分庫(kù)分表上下文ShardContext類塘揣,而ShardContext封裝了所有的分庫(kù)分表算法包雀。其類圖如下:
分庫(kù)分表流程圖如下:
分庫(kù)分表取模算法
分庫(kù)分表目前默認(rèn)使用的是取模算法,分表算法為 (#shard_key % (group_shard_num * table_shard_num))亲铡,分庫(kù)算法為 (#shard_key % (group_shard_num * table_shard_num)) / table_shard_num才写,其中g(shù)roup_shard_num為分庫(kù)個(gè)數(shù),table_shard_num為每個(gè)庫(kù)的分表個(gè)數(shù)奖蔓。
例如把一張大表分成100張小表然后散到2個(gè)庫(kù)赞草,則0-49落在第一個(gè)庫(kù)、50-99落在第二個(gè)庫(kù)吆鹤。核心實(shí)現(xiàn)如下:
分庫(kù)分表算法擴(kuò)展
MTDDL不僅支持分庫(kù)分表取模算法厨疙,還支持分庫(kù)分表算法的擴(kuò)展,通過(guò)新增分庫(kù)分表策略類實(shí)現(xiàn)ShardStrategy接口即可檀头。ShardStrategy接口包含兩個(gè)方法:getShardType用來(lái)指定分庫(kù)分表策略轰异,handle用來(lái)實(shí)現(xiàn)具體的數(shù)據(jù)源及分表計(jì)算邏輯。其類圖如下:
全注解方式接入
為了盡可能地方便業(yè)務(wù)方接入暑始,MTDDL采用全注解方式使用分庫(kù)分表功能搭独,通過(guò)ShardInfo、ShardOn廊镜、IDGen三個(gè)注解實(shí)現(xiàn)牙肝。
ShardInfo注解用來(lái)指定具體的分庫(kù)分表配置:包括分表名前綴tableName、分表數(shù)量tableShardNum、分庫(kù)數(shù)量dbShardNum配椭、分庫(kù)分表策略shardType虫溜、唯一鍵生成策略idGenType、唯一鍵業(yè)務(wù)方標(biāo)識(shí)idGenKey股缸;ShardOn注解用來(lái)指定分庫(kù)分表字段衡楞;IDGen注解用來(lái)指定唯一鍵字段。具體類圖如下:
配置和使用方式舉例
連接池及SQL監(jiān)控
DB連接池使用不合理容易引發(fā)很多問題敦姻,如連接池最大連接數(shù)設(shè)置過(guò)小導(dǎo)致線程獲取不到連接瘾境、獲取連接等待時(shí)間設(shè)置過(guò)大導(dǎo)致很多線程掛起、空閑連接回收器運(yùn)行周期過(guò)長(zhǎng)導(dǎo)致空閑連接回收不及時(shí)等等镰惦,如果缺乏有效準(zhǔn)確的監(jiān)控迷守,會(huì)造成無(wú)法快速定位問題以及追溯歷史。
再者旺入,如果缺乏SQL執(zhí)行情況相關(guān)監(jiān)控兑凿,會(huì)很難及時(shí)發(fā)現(xiàn)DB慢查詢等潛在風(fēng)險(xiǎn),而慢查詢往往就是DB服務(wù)端性能惡化乃至宕機(jī)的根源(關(guān)于慢查詢茵瘾,推薦閱讀《MySQL索引原理及慢查詢優(yōu)化》一文)礼华。MTDDL從1.0.2版本開始正式引入連接池及SQL監(jiān)控等相關(guān)功能。
連接池監(jiān)控
實(shí)現(xiàn)方案
結(jié)合Spring完美適配c3p0龄捡、dbcp1卓嫂、dbcp2、mtthrift等多種方案聘殖,自動(dòng)發(fā)現(xiàn)新加入到Spring容器中的數(shù)據(jù)源進(jìn)行監(jiān)控,通過(guò)美團(tuán)點(diǎn)評(píng)統(tǒng)一監(jiān)控組件JMonitor上報(bào)監(jiān)控?cái)?shù)據(jù)行瑞。整體架構(gòu)圖如下:
連接數(shù)量監(jiān)控
監(jiān)控連接池active奸腺、idle、total連接數(shù)量血久,Counter格式:(連接池類型.數(shù)據(jù)源.active/idle/total_connection)突照,效果圖如下:
獲取連接時(shí)間監(jiān)控
監(jiān)控獲取空閑連接時(shí)間,Counter格式:(ds.getConnection.數(shù)據(jù)源.time)氧吐,效果圖如下:
SQL監(jiān)控
實(shí)現(xiàn)方案
采用Spring AOP技術(shù)對(duì)所有DAO方法進(jìn)行功能增強(qiáng)處理讹蘑,通過(guò)美團(tuán)點(diǎn)評(píng)分布式會(huì)話跟蹤組件MTrace進(jìn)行SQL調(diào)用數(shù)據(jù)埋點(diǎn)及上報(bào),進(jìn)而實(shí)現(xiàn)從客戶端角度對(duì)SQL執(zhí)行耗時(shí)筑舅、QPS座慰、調(diào)用量、超時(shí)率翠拣、失敗率等指標(biāo)進(jìn)行監(jiān)控版仔。整體架構(gòu)圖如下:
實(shí)現(xiàn)效果
登錄美團(tuán)點(diǎn)評(píng)的服務(wù)治理平臺(tái)OCTO選擇服務(wù)查看去向分析,效果圖如下:
動(dòng)態(tài)化配置
為了滿足業(yè)務(wù)方一些動(dòng)態(tài)化需求,如解決線上DB緊急事故需動(dòng)態(tài)調(diào)整數(shù)據(jù)源或者分庫(kù)分表相關(guān)配置蛮粮,要求無(wú)需重啟在線修改立即生效益缎,MTDDL從1.0.3版本開始正式引入動(dòng)態(tài)化配置相關(guān)功能。
實(shí)現(xiàn)方案
在Spring容器啟動(dòng)的時(shí)候自動(dòng)注冊(cè)數(shù)據(jù)源及分庫(kù)分表相關(guān)配置到美團(tuán)點(diǎn)評(píng)的統(tǒng)一配置中心MCC然想,在MCC配置管理頁(yè)面可以進(jìn)行動(dòng)態(tài)調(diào)整莺奔,MCC客戶端在感知到變更事件后會(huì)刷新本地配置,如果是數(shù)據(jù)源配置變更會(huì)根據(jù)新的配置構(gòu)造出一個(gè)新數(shù)據(jù)源來(lái)替換老數(shù)據(jù)源变泄,最后再將老的數(shù)據(jù)源優(yōu)雅關(guān)閉掉弊仪。具體流程圖如下:
動(dòng)態(tài)化數(shù)據(jù)源
目前支持dbcp、dbcp2杖刷、c3p0等數(shù)據(jù)源励饵,效果圖如下:
分庫(kù)分表動(dòng)態(tài)化
支持動(dòng)態(tài)化配置分庫(kù)分表數(shù)量、分庫(kù)分表策略滑燃、唯一鍵生成策略役听、唯一鍵業(yè)務(wù)方標(biāo)識(shí)等,效果圖如下:
版本迭代
MTDDL到目前為止總共開發(fā)了四期表窘,后續(xù)考慮逐步開源典予,具體版本迭代如下:
美團(tuán)點(diǎn)評(píng)技術(shù)博客原文鏈接:http://tech.meituan.com/mtddl.html