Wcp生產(chǎn)事故報告_2019年4月4日
一逊彭、生產(chǎn)事故問題:
1,4月4日早上吭练,用戶陸續(xù)反饋xx服務(wù)诫龙、xx,接收消息有丟失鲫咽,或延遲签赃。
2谷异,4月4日中午,游戲平臺反饋锦聊,xx服務(wù)號邀請卡游戲判斷新用戶失敗歹嘹。
二、事故原因分析:
微信中控于4月3日23:00后執(zhí)行版本迭代更新孔庭,更新內(nèi)容為:
1尺上, 個性化菜單,通用菜單圆到,全員群發(fā)(屏蔽)怎抛,一元紅包。本次更新內(nèi)容不影響之前的系統(tǒng)穩(wěn)定性芽淡。對其他業(yè)務(wù)不具備耦合性马绝。所以排除掉是迭代更新的內(nèi)容導(dǎo)致生產(chǎn)故障。
2挣菲, Kafka切換服務(wù)器
3富稻, Es 搜索引擎切換服務(wù)器
4, 修改getUser的邏輯白胀,增加在緩存和數(shù)據(jù)庫拿不到去微信拿一次數(shù)據(jù)并緩存(該項未有在發(fā)版清單里)
關(guān)于消息部分丟失或延遲椭赋,經(jīng)排查發(fā)現(xiàn)因以下原因造成
1, 多節(jié)點某些節(jié)點有問題或杠。225-228上面啟動了未授權(quán)端口的mp-provider dubbo服務(wù)哪怔,導(dǎo)致部分消息發(fā)送失敗。
解決措施:
切換kafka為原來的kafka
停掉225-228上面mp-provider廷痘,修改jenkins分發(fā)代碼配置蔓涧,刪除225-228服務(wù)器上多余腳本和目錄。
關(guān)于判斷新用戶失敗笋额,經(jīng)排查發(fā)現(xiàn)因以下原因造成
1, 獲取用戶信息接口新增需求篷扩,導(dǎo)致事件通知模塊判斷是否新用戶邏輯沖突兄猩,所有用戶都會是老用戶。
解決措施:回滾getUser的代碼
三鉴未、事故總結(jié):
1枢冤, 生產(chǎn)實施文檔重點關(guān)注事項標紅提醒,并在評審時強調(diào)說明铜秆。
2淹真, 實際發(fā)版內(nèi)容與發(fā)版清單須保持一致,充分評估發(fā)版內(nèi)容的影響面连茧,避免未經(jīng)評審內(nèi)容私自部署到生產(chǎn)環(huán)境核蘸。
3巍糯, 游戲開始前整體過程再試跑一次,提前發(fā)現(xiàn)問題解決客扎。