云計(jì)算和人工智能的發(fā)展不僅改變了普通人日常生活的方式碳却,同時(shí)也改變了運(yùn)維人員的工作模式。智能化運(yùn)維就是用機(jī)器來(lái)代替人,在最少的人為干預(yù)下保證業(yè)務(wù)7*24小時(shí)的高效穩(wěn)定運(yùn)行。2015年被稱為是中國(guó)互聯(lián)網(wǎng)智能化運(yùn)維發(fā)展的元年掂恕,多家IT大廠相繼提出這一思路,并做了一些極具價(jià)值的嘗試弛槐。
2017年10月19日-21日在北京新云南皇冠假日酒店召開(kāi)的第九屆系統(tǒng)架構(gòu)師大會(huì)就洞察到了這一變化竹海,開(kāi)設(shè)了“智能化運(yùn)維&DevOps”的技術(shù)專場(chǎng),邀請(qǐng)了多家知名企業(yè)的技術(shù)大咖來(lái)和大家分享交流他們的心得丐黄。
“DevOps”是最近幾年炒得比較火的話題之一,但你真的了解什么是DevOps嗎?中國(guó)SaltStack用戶組發(fā)起人趙舜東表示:DevOps絕不是簡(jiǎn)單的運(yùn)維開(kāi)發(fā)孔飒,也不僅僅是自動(dòng)化灌闺,更不是讓開(kāi)發(fā)自己做運(yùn)維,DevOps強(qiáng)調(diào)的是研發(fā)坏瞄、技術(shù)運(yùn)營(yíng)桂对、質(zhì)量部門在軟件生命周期和服務(wù)生命周期的協(xié)作,從而來(lái)構(gòu)建一條IT服務(wù)供應(yīng)鏈鸠匀,同時(shí)也是價(jià)值交付鏈蕉斜。我們經(jīng)常提到的敏捷研發(fā),精益管理,持續(xù)交付宅此,技術(shù)運(yùn)營(yíng)都是DevOps的知識(shí)體系机错。
大數(shù)據(jù)驅(qū)動(dòng)的阿里巴巴國(guó)際化基礎(chǔ)架構(gòu)
對(duì)于現(xiàn)代人來(lái)說(shuō),“雙十一”不再只是一個(gè)普通的日子父腕,也不再只有“光棍節(jié)”這層含義弱匪,阿里賦予了“雙十一”更廣為人知的含義——全民購(gòu)物狂歡節(jié)。那在國(guó)內(nèi)購(gòu)物用淘寶璧亮,在國(guó)外購(gòu)物用什么呢?其實(shí)淘寶也有海外版本——AliExpress萧诫。
AliExpress在全球排名52,如果要在購(gòu)物App中按下載數(shù)量來(lái)排名的話枝嘶,其iOS應(yīng)用程序在96個(gè)國(guó)家排在Top 5帘饶,Android應(yīng)用程序在56個(gè)國(guó)家排在Top 5。本次大會(huì)AliExpress技術(shù)部架構(gòu)團(tuán)隊(duì)及商家平臺(tái)團(tuán)隊(duì)負(fù)責(zé)人李彥超(驗(yàn)鈔)和我們分享了他們的國(guó)際化基礎(chǔ)架構(gòu)群扶。
由于AliExpress面向的是全球化的業(yè)務(wù)所以其天然的就必須面對(duì)長(zhǎng)距離訪問(wèn)帶來(lái)延遲問(wèn)題及刻,其次AliExpress單日的全球交易量能夠達(dá)到2000次/秒,并且這個(gè)數(shù)字還在逐年遞增;第三穷当,AliExpress業(yè)務(wù)沒(méi)有低谷提茁,提供7*24服務(wù),故障會(huì)發(fā)生在任何時(shí)間馁菜。
阿里在全球部署了多個(gè)IDC茴扁,在淘寶的基礎(chǔ)上做到了用戶干預(yù),對(duì)于用戶的訪問(wèn)采取最近原則汪疮,在符合政策和合規(guī)性的條件下默認(rèn)性能優(yōu)先;所有IDC向一個(gè)IDC做復(fù)制峭火,同時(shí)基于合規(guī)性做流量路由表,并在所有可能的地方插入路由表智嚷,保證全局變更卖丸。
基于Kubernetes的持續(xù)集成平臺(tái)建設(shè)
相信各位技術(shù)人前兩天的朋友圈都被“Docker宣布支持Kubernetes”的消息刷屏了,這從側(cè)面證明了Kubernetes正在逐步強(qiáng)大盏道,獲得了全球的廣泛認(rèn)可稍浆。在“智能化運(yùn)維&DevOps”技術(shù)專場(chǎng),為勝科技技術(shù)總監(jiān)郭宏澤為我們帶來(lái)了“基于Kubernetes的持續(xù)集成平臺(tái)建設(shè)”的主題演講猜嘱。
創(chuàng)業(yè)公司往往運(yùn)維需求變化快衅枫,資源相對(duì)有限,所以IT基礎(chǔ)設(shè)施建設(shè)要以速度為中心朗伶,實(shí)現(xiàn)快速響應(yīng)弦撩、降低成本、穩(wěn)定安全的運(yùn)維要求论皆。而以DevOps為指導(dǎo)思想益楼,建設(shè)一套基于容器的持續(xù)集成發(fā)布平臺(tái)就是這些創(chuàng)業(yè)公司的首選猾漫。
在Kubernetes的使用上郭宏澤也有一些自己的心得,首先Kubernetes每三個(gè)月就會(huì)發(fā)布一個(gè)版本感凤,所以大家不要盲目追求最新版本;其次悯周,K8s每個(gè)版本將會(huì)發(fā)布三種功能:Aplpha功能,預(yù)覽功能俊扭,不穩(wěn)定;Beta功能队橙,測(cè)試中的功能,不保證穩(wěn)定;正式功能萨惑,已經(jīng)經(jīng)過(guò)測(cè)試的穩(wěn)定功能捐康,不保證無(wú)BUG;第三,盡可能減少對(duì)功能的使用庸蔼,保持簡(jiǎn)單;最后解总,不要輕易升級(jí)生產(chǎn)系統(tǒng)。
百度AIOps實(shí)踐:?jiǎn)螜C(jī)房故障自愈
AIOps是Gartner在2016年提出的概念,其預(yù)測(cè)到2020年AIOps的采用率將會(huì)達(dá)到50%姐仅。目前國(guó)內(nèi)的IT大廠都有在嘗試AIOps花枫,今天百度監(jiān)控平臺(tái)技術(shù)負(fù)責(zé)人哈晶晶就為我們分享了百度在AIOps上的實(shí)踐—單機(jī)房故障自愈。
百度運(yùn)維平臺(tái)經(jīng)歷了基礎(chǔ)運(yùn)維平臺(tái)掏膏、開(kāi)放運(yùn)維平臺(tái)和智能化運(yùn)維平臺(tái)的演變劳翰。近年來(lái),我們看到了多起業(yè)界單機(jī)房故障事件馒疹,不僅造成了PV佳簸、流水損失,商業(yè)賠付颖变,影響用戶體驗(yàn)生均,而且還會(huì)給競(jìng)品以機(jī)會(huì),造成研發(fā)成果浪費(fèi)腥刹、用戶信任度下降等嚴(yán)重后果马胧。
百度基于AIOps故障自愈的解決思路為:書同文:運(yùn)維知識(shí)庫(kù),一致運(yùn)維“語(yǔ)言”;車同軌:運(yùn)維開(kāi)發(fā)框架衔峰,一致運(yùn)維“方法”;行同倫:運(yùn)維策略庫(kù)佩脊,一致運(yùn)維“模式”。目前垫卤,單機(jī)房故障自愈已覆蓋百度80%的核心業(yè)務(wù)威彰,止損效率較人工提升60%以上,業(yè)務(wù)L4故障葫男,服務(wù)層能夠在2min內(nèi)完成單機(jī)房故障止損。
美團(tuán)外賣自動(dòng)化業(yè)務(wù)運(yùn)維系統(tǒng)建設(shè)
對(duì)于現(xiàn)代人來(lái)說(shuō)崔列,外賣絕對(duì)是不可或缺的一部分梢褐,90后專欄作家李宮俊曾說(shuō)過(guò)“生我者父母旺遮,養(yǎng)我者外賣∮龋”雖然天天點(diǎn)外賣耿眉,但是你清楚外賣背后的技術(shù)支撐嗎?本次專場(chǎng)美團(tuán)外賣業(yè)務(wù)架構(gòu)負(fù)責(zé)人劉宏偉就和我們分享了他們的自動(dòng)化業(yè)務(wù)運(yùn)維系統(tǒng)的建設(shè)。
劉宏偉表示:外賣業(yè)務(wù)后臺(tái)服務(wù)交互復(fù)雜鱼响,從用戶下單à商家接單à騎手接單à發(fā)配送à用戶收到熱乎乎的外賣鸣剪,我們需要在20多分鐘之內(nèi)完成這一系列流程。而在這背后丈积,整個(gè)產(chǎn)品線上還會(huì)涉及很多數(shù)據(jù)分析筐骇,統(tǒng)計(jì),結(jié)算江滨,合同等各個(gè)端的交互铛纬,一致性要求高,并發(fā)高唬滑。
如何將運(yùn)維人員從繁重的工作中解放出來(lái)告唆,應(yīng)用自動(dòng)化措施提升業(yè)務(wù)效率,劉宏偉認(rèn)為可以從以下方面著手:
? 前期當(dāng)用戶接收到診斷報(bào)警后晶密,直接引導(dǎo)用戶進(jìn)入該報(bào)警可能會(huì)影響的業(yè)務(wù)大盤擒悬,查看業(yè)務(wù)圖表,如果影響到業(yè)務(wù)直接進(jìn)入該業(yè)務(wù)圖表對(duì)應(yīng)的核心鏈路定位最終的問(wèn)題根本原因稻艰,從而判斷是否要觸發(fā)該核心鏈路上對(duì)應(yīng)的服務(wù)保護(hù)開(kāi)關(guān)或預(yù)案懂牧,以達(dá)到快速解決問(wèn)題的目的。
? 用戶也可以直接通過(guò)診斷報(bào)警進(jìn)入對(duì)應(yīng)的核心鏈路连锯,查看最終的引起異常的根本原因归苍,引導(dǎo)用戶判斷是否需要觸發(fā)相應(yīng)的服務(wù)保護(hù)預(yù)案。
? 發(fā)現(xiàn)問(wèn)題à診斷問(wèn)題à解決問(wèn)題 這個(gè)過(guò)程每一步都需要不斷的提升準(zhǔn)確度运怖,通過(guò)全鏈路壓測(cè)不斷的驗(yàn)證這一流程的準(zhǔn)確度拼弃,當(dāng)某些場(chǎng)景準(zhǔn)確度非常高的時(shí)候,可以變?yōu)樽詣?dòng)化方案摇展。
? 當(dāng)整個(gè)方案可以自動(dòng)化進(jìn)行下去之后吻氧, 對(duì)于用戶來(lái)說(shuō)的使用場(chǎng)景就變成了:收到異常報(bào)警à收到業(yè)務(wù)服務(wù)恢復(fù)通知。
技術(shù)前沿發(fā)展:系統(tǒng)自動(dòng)化調(diào)優(yōu)
上面幾位嘉賓和我們分享的都是智能化運(yùn)維的現(xiàn)在咏连,那么智能化運(yùn)維的未來(lái)應(yīng)該是什么呢?優(yōu)調(diào)科技技術(shù)總監(jiān)朱妤晴給出了答案——《技術(shù)前沿緊張:系統(tǒng)自動(dòng)化調(diào)優(yōu)》盯孙。
為了適應(yīng)不同應(yīng)用需求,系統(tǒng)在開(kāi)發(fā)時(shí)就暴露了大量與部署祟滴、應(yīng)用場(chǎng)景相關(guān)的參數(shù)振惰,這些參數(shù)與系統(tǒng)性能緊密相關(guān),在調(diào)優(yōu)時(shí)需要對(duì)系統(tǒng)和應(yīng)用有資深經(jīng)驗(yàn)的技術(shù)人員來(lái)進(jìn)行垄懂。而系統(tǒng)自動(dòng)化調(diào)優(yōu)就是指將這一過(guò)程自動(dòng)化骑晶。
系統(tǒng)調(diào)優(yōu)目前面臨的難題是:為了適應(yīng)更多的部署環(huán)境和應(yīng)用場(chǎng)景痛垛,系統(tǒng)參數(shù)個(gè)數(shù)越來(lái)越多;為了滿足不同的應(yīng)用負(fù)載需求,涉及的系統(tǒng)越來(lái)越多;參數(shù)設(shè)置與系統(tǒng)桶蛔、應(yīng)用緊密相關(guān)匙头,性能曲線復(fù)雜多變。
而系統(tǒng)自動(dòng)化調(diào)優(yōu)好處多多:僅調(diào)整系統(tǒng)參數(shù)值仔雷,即可使性能最大提升11倍;節(jié)省人力開(kāi)銷;減少硬件開(kāi)銷;更公平地測(cè)試和比較系統(tǒng)性能;確定系統(tǒng)瓶頸蹂析。目前,系統(tǒng)自動(dòng)化調(diào)優(yōu)的前沿研究成果有兩個(gè)碟婆,一個(gè)是卡耐基梅隆大學(xué)數(shù)據(jù)庫(kù)團(tuán)隊(duì)研發(fā)的OtterTune电抚,另一個(gè)是由中科院計(jì)算所先進(jìn)計(jì)算機(jī)系統(tǒng)研究中心研發(fā)的BestConfig。