技術(shù)保障團(tuán)隊(duì)——踐行SRE
SRE(Site Reliability Engineer)骏啰,Google從創(chuàng)業(yè)之初就有這個(gè)職位并逐步沉淀出一套SRE理念,近兩年國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)也紛紛引入残邀。
SRE團(tuán)隊(duì)對(duì)云產(chǎn)品穩(wěn)定性最終責(zé)任,運(yùn)用全棧技術(shù)能力柑蛇,從技術(shù)規(guī)范-監(jiān)控體系-風(fēng)險(xiǎn)管理-自動(dòng)化工具多角度入手芥挣,持續(xù)提升產(chǎn)品的穩(wěn)定性及性能。
那么耻台,雅座是否需要SRE空免?答案是肯定的
我們走過12年的歷程,從最早的會(huì)員1.0->2.0->3.0盆耽,到雅座智能1.0->雅座收銀2.0蹋砚。產(chǎn)品越來越強(qiáng)大、并覆蓋餐廳運(yùn)營(yíng)全周期的同時(shí)摄杂,餐廳對(duì)產(chǎn)品穩(wěn)定性的要求也越來越高坝咐。最開始,故障影響的只是報(bào)表析恢,后來故障影響客戶會(huì)員積分交易墨坚,到現(xiàn)在,一個(gè)小小的故障都會(huì)影響客戶點(diǎn)餐映挂、后廚打印框杜、外賣接單,直接導(dǎo)致餐廳徹底癱瘓袖肥。很難想象出哪家互聯(lián)網(wǎng)企業(yè)咪辱,會(huì)比我們更需要SRE。
技術(shù)保障部成立
7月椎组,運(yùn)維團(tuán)隊(duì)被重新命名為【技術(shù)保障部】油狂,這是對(duì)團(tuán)隊(duì)的重新定位,對(duì)未來團(tuán)隊(duì)價(jià)值的展望寸癌。
使命:
打造產(chǎn)品穩(wěn)定性的強(qiáng)力保障體系专筷,確保穩(wěn)定性成為公司產(chǎn)品的核心競(jìng)爭(zhēng)力之一。
職責(zé):
1蒸苇、運(yùn)維及自動(dòng)化磷蛹;
2、建立穩(wěn)定性/性能相關(guān)的技術(shù)保障體系:風(fēng)險(xiǎn)管理-技術(shù)規(guī)范-監(jiān)控-自動(dòng)化工具溪烤;
3味咳、數(shù)據(jù)安全保障庇勃;
18年的目標(biāo):
1、初步建立公司層面的SRE保障體系槽驶,并切實(shí)有效责嚷,使收銀2.0新產(chǎn)品線事故數(shù)比1.0下降80%。
2掂铐、運(yùn)維自動(dòng)化能力建設(shè)罕拂,運(yùn)維及自動(dòng)化團(tuán)隊(duì)控制在8人以下,高效管理5000臺(tái)服務(wù)器全陨、支撐5W家門店爆班。
3、在無(wú)錫培養(yǎng)一支團(tuán)隊(duì)辱姨,能夠獨(dú)立承擔(dān)運(yùn)維自動(dòng)化柿菩、SRE大部分工作。
6-7月我們的成果
技術(shù)規(guī)范
《需求評(píng)審規(guī)范1.0》炮叶、《代碼報(bào)錯(cuò)及執(zhí)行超時(shí)規(guī)范1.0》碗旅、《上線流程規(guī)范1.0》渡处,不但規(guī)范成型镜悉,還跟進(jìn)了監(jiān)控、統(tǒng)計(jì)日?qǐng)?bào)等技術(shù)手段医瘫,確保規(guī)范能夠真正落地侣肄。
我們的職責(zé)是讓這些規(guī)范在未來持續(xù)完善、補(bǔ)充和持續(xù)落地醇份,相信能夠成為技術(shù)團(tuán)隊(duì)的一筆寶貴財(cái)富稼锅。
風(fēng)險(xiǎn)管理
1、每周一次的風(fēng)險(xiǎn)梳理僚纷、排期矩距、升級(jí)流程,持續(xù)運(yùn)作怖竭。
2锥债、重點(diǎn)推進(jìn)解決了【大白鯊依賴小雅CRM】、【Api層授權(quán)補(bǔ)充】痊臭、【運(yùn)維操作規(guī)范執(zhí)行難】幾個(gè)重點(diǎn)風(fēng)險(xiǎn)哮肚。
灰度環(huán)境2.0
1、業(yè)務(wù)團(tuán)隊(duì)可任選商戶广匙,10分鐘內(nèi)完成生產(chǎn)<->灰度的流量切換允趟,用真實(shí)客戶流量試點(diǎn)新版本代碼。
2鸦致、高度仿真生產(chǎn)環(huán)境潮剪,共享一套網(wǎng)關(guān)涣楷、數(shù)據(jù)庫(kù)、緩存鲁纠、MQ总棵、配置文件,并有效隔離改含。
3情龄、從代碼框架、代碼規(guī)范捍壤、網(wǎng)關(guān)二次開發(fā)等多維度入手骤视,全面支持收銀2.0從點(diǎn)餐-下單-POS出單-支付-BOH的整個(gè)營(yíng)業(yè)場(chǎng)景,涉及60多個(gè)應(yīng)用程序鹃觉,研發(fā)只需極少量代碼改動(dòng)专酗。
4、原定8.17日上線盗扇,因業(yè)務(wù)要求提前到8.1祷肯,調(diào)集資源,客服各種技術(shù)難題/疑難BUG疗隶,如期上線并完成試點(diǎn)佑笋。
5、大部分工作由無(wú)錫團(tuán)隊(duì)承擔(dān)斑鼻,不論是代碼框架編寫蒋纬、Nginx二次開發(fā)、外部資源協(xié)調(diào)坚弱。
運(yùn)維平臺(tái)
一鍵完成App遷移蜀备、簡(jiǎn)單擴(kuò)容。
研發(fā)人員可自助完成緩存荒叶、MQ消息的查詢碾阁。
配置中心正式上線,具備推廣條件些楣。
未來
下半年還有5個(gè)月脂凶,性能提升、代碼規(guī)范推進(jìn)戈毒、監(jiān)控系統(tǒng)深入艰猬、灰度環(huán)境2.1、服務(wù)器集群管理埋市、一鍵擴(kuò)容等等冠桃,都給我們帶來全新的挑戰(zhàn)。
SRE團(tuán)隊(duì)的每一位伙伴道宅,不論你過去擅長(zhǎng)編碼食听、數(shù)據(jù)庫(kù)胸蛛、網(wǎng)絡(luò)、運(yùn)維樱报,需要我們一起加油葬项!