此文接億及流量第一篇
1、active-standby高可用架構(gòu)
為了解決計算平臺單點故障問題,我們對數(shù)據(jù)計算平臺進(jìn)行active-standby拆分,主備互備機制確保計算平臺的高可用堕澄。基于zookeeper保存計算狀態(tài)霉咨,主備系統(tǒng)基于zookeeper來進(jìn)行自動切換蛙紫。
2、master-slave主從分布式計算架構(gòu)
為了解決單臺機器計算負(fù)載壓力過高的問題途戒,我們將任務(wù)調(diào)度和任務(wù)計算職責(zé)分離坑傅。計算平臺拆分為master和slave節(jié)點,master節(jié)點負(fù)責(zé)調(diào)度喷斋,slave節(jié)點負(fù)責(zé)計算唁毒。同時對master節(jié)點,為了避免單點故障星爪,我們使用了active-standby模式浆西。master節(jié)點主要包括容錯機制/重試與恢復(fù)、數(shù)據(jù)分片管理器顽腾、數(shù)據(jù)計算調(diào)度器功能近零。
3、彈性計算資源調(diào)度機制
為了解決slave節(jié)點間計算負(fù)載不均衡問題崔泵,我們建立了彈性計算資源調(diào)度機制秒赤。我們在計算任務(wù)調(diào)度器中加入metrics統(tǒng)計、任務(wù)耗時評估憎瘸、機器資源監(jiān)控機制入篮,保證了線上slave節(jié)點計算資源的均衡利用,避免了單臺機器計算負(fù)載過高幌甘,計算任務(wù)排隊時間過長等問題潮售。
4、分布式系統(tǒng)高容錯機制
系統(tǒng)重構(gòu)為分布式構(gòu)架之后锅风,會帶來一系列的問題酥诽,因此需要開發(fā)一整套的容錯機制對節(jié)點狀態(tài)和計算狀態(tài)進(jìn)行監(jiān)控和容錯控制。分布式系統(tǒng)高容錯機制主要分為slave監(jiān)控和任務(wù)監(jiān)控兩部分皱埠。