? ? ? ?由于最近線上故障頻出篡帕,公司決定對(duì)現(xiàn)有各個(gè)核心系統(tǒng)做故障演練耗拓,來(lái)加強(qiáng)核心系統(tǒng)的健壯性和可用性。我們演練的場(chǎng)景很簡(jiǎn)單彰檬,模擬單機(jī)房掛掉伸刃,所有的服務(wù)仍然可用谎砾。CI 作為各個(gè)業(yè)務(wù)系統(tǒng)所以依賴的核心組件,它的可用性是一定要嚴(yán)格保證的捧颅。 CI 中的 jenkins master 當(dāng)然也是我們組演練的重中之重景图。而在這之前 jenkins master 都是單點(diǎn)運(yùn)行的碉哑,可能運(yùn)氣比較好挚币,還沒(méi)有出過(guò)事故 ......
? ? ? ?為了落實(shí)公司的故障演練計(jì)劃,我們針對(duì)當(dāng)前系統(tǒng)的 jenkins master 做了 active/passive 模式的 HA 方案扣典,
? ? ? 具體如下:
? ? ? 討論方案前妆毕,讓我們先來(lái)回顧下 jenkins 的存儲(chǔ)模型,? jenkins 使用的是本地文件存儲(chǔ),所有數(shù)據(jù)都存儲(chǔ)在環(huán)境變量?JENKINS_HOME?對(duì)應(yīng)的目錄贮尖。
? ? ? ? jenkins 啟動(dòng)時(shí)會(huì)把本地文件中的數(shù)據(jù)加載到內(nèi)存笛粘,在這之后配置的變更都是先寫內(nèi)存,然后異步寫磁盤湿硝。也就是說(shuō)一旦Jenkins啟動(dòng)薪前,就再也不會(huì)嘗試從磁盤重新加載了。假設(shè)我們從磁盤中讀取了10個(gè)任務(wù)关斜,如果有從Jenkins UI頁(yè)面或者API提交修改任務(wù)的請(qǐng)求序六,那么Jenkins會(huì)去讀內(nèi)存中的任務(wù)配置信息,然后修改內(nèi)存數(shù)據(jù)蚤吹,再異步刷新到磁盤上。
? ? ? ? 也就是說(shuō) jenkins master 是有狀態(tài)的随抠,它依賴本地文件裁着。本地文件是可以放到共享存儲(chǔ)來(lái)解決,但是內(nèi)存中的狀態(tài)數(shù)據(jù)是拆不出來(lái)的拱她《郏看了一些其他公司的 jenkins master HA 方案, 有使用 pacemaker 和 gearman 等秉沼,但是這些架構(gòu)本身也比較復(fù)雜桶雀,它們自身也要保證HA,復(fù)雜度增加了很多唬复,因此我們也沒(méi)有考慮這些架構(gòu)矗积。
? ? ? ? 為了解決上面的問(wèn)題,我們?cè)跇I(yè)務(wù)端做了下改變敞咧,所有的 job 有個(gè)統(tǒng)一的模版棘捣,如果請(qǐng)求發(fā)現(xiàn) job 不存在,那我們就用模版新建一個(gè) job, 然后觸發(fā)運(yùn)行休建。業(yè)務(wù)只關(guān)系構(gòu)建結(jié)果乍恐,在哪個(gè)節(jié)點(diǎn)上構(gòu)建评疗,通過(guò)哪個(gè) master 分配,其實(shí)都是沒(méi)有影響的茵烈。這也間接的解了 jenkins 中 job 的同步問(wèn)題百匆,同時(shí)也讓使得上面的 active/passive 架構(gòu)有意義。
? ? ? ?總結(jié)一下呜投,jenkins 的 HA 是有很多解法的加匈,重要的是結(jié)合自己的場(chǎng)景。期望 jenkins 社區(qū)可用為用戶解決 HA 這個(gè)大問(wèn)題宙彪,讓 jenkins 更易用, 更強(qiáng)大矩动。