昨日今日頭條宕機(jī)與網(wǎng)站可靠性

1月6號(hào)阻肿,像往常一樣,在工作的間隙沮尿,我打開(kāi)手機(jī)上的今日頭條丛塌。點(diǎn)開(kāi)了其中一個(gè)新聞,發(fā)現(xiàn)進(jìn)去后頁(yè)面提示網(wǎng)絡(luò)不給力畜疾,請(qǐng)稍后重試赴邻。前兩天我的4G網(wǎng)絡(luò)上不去,折騰了半天正要打聯(lián)通客服咒罵啡捶,在IVR語(yǔ)音提示時(shí)才發(fā)現(xiàn)已經(jīng)欠費(fèi)了姥敛。但現(xiàn)在話費(fèi)可是本月剛充的啊,何況現(xiàn)在連的是公司的WIFI瞎暑,難道公司網(wǎng)絡(luò)有問(wèn)題彤敛?這時(shí)通知中心彈出了其他應(yīng)用的提醒,貌似其他應(yīng)用是正常的了赌。那么就是被頭條的提示的忽悠了臊泌,任何錯(cuò)誤提示給用戶的都是你的網(wǎng)絡(luò)不給力。

果不其然揍拆,稍后其他的新聞看到頭條的服務(wù)掛了許久的消息。

SRE - Site Reliability Engineering, Google提出的一個(gè)概念茶凳,綜合了Google多年運(yùn)維大規(guī)模服務(wù)器集群的經(jīng)驗(yàn)演變出的一個(gè)職位嫂拴。其目的就是為了最大限度的保障Google服務(wù)的可靠性,其演進(jìn)方向是從運(yùn)維工程師向開(kāi)發(fā)工程師邊界的擴(kuò)展贮喧,要求運(yùn)維工程師以軟件工程的思路解決大規(guī)模運(yùn)維的問(wèn)題筒狠,用工具而不是人力來(lái)解決不斷擴(kuò)大的服務(wù)器集群對(duì)管理的需求。

如何保障網(wǎng)站可靠性箱沦,通常是在運(yùn)維辩恼,基礎(chǔ)架構(gòu),系統(tǒng)管理員的范疇。關(guān)注業(yè)務(wù)開(kāi)發(fā)的軟件工程師不關(guān)心這個(gè)灶伊,他們要忙著應(yīng)付PD的最后期限疆前,讓飛速發(fā)展的平臺(tái)支撐上層的業(yè)務(wù)需求。

在云計(jì)算基礎(chǔ)設(shè)施還沒(méi)成型時(shí)聘萨,互聯(lián)網(wǎng)公司都會(huì)有個(gè)運(yùn)維團(tuán)隊(duì)負(fù)責(zé)搞各種各樣跟系統(tǒng)有關(guān)的活竹椒。在企業(yè)發(fā)展的不同階段,這只團(tuán)隊(duì)可能會(huì)忙著提采購(gòu)需求給財(cái)務(wù)米辐;評(píng)估系統(tǒng)容量胸完,要多少I(mǎi)OPS的SSD硬盤(pán), 多大的內(nèi)存才能滿足應(yīng)用需求翘贮;寫(xiě)各種各樣的發(fā)布腳本赊窥,將開(kāi)發(fā)提供的war包(如果是java應(yīng)用)批量分發(fā)服務(wù)器的目錄上并啟動(dòng)tomcat;搭LVS為機(jī)房入口提供熱備的負(fù)載均衡設(shè)施狸页;用keeplived提供VIP去單點(diǎn)锨能,為后端服務(wù)提供故障遷移能力;跑到機(jī)房去為機(jī)器上架肴捉,布設(shè)機(jī)架網(wǎng)線腹侣,甚至配合容災(zāi)演練去拔網(wǎng)線測(cè)試;還要制定線上應(yīng)用的發(fā)布規(guī)范齿穗,保證成千上萬(wàn)的應(yīng)用能按照統(tǒng)一的規(guī)范發(fā)布傲隶,秉著約定優(yōu)于配置的原則,讓整個(gè)公司的人可以不加思索的找到應(yīng)用的啟動(dòng)腳本窃页,log目錄跺株;新機(jī)器上線需要初始化系統(tǒng),隨著虛擬化大潮物理機(jī)都要切分成虛擬機(jī)才交付給開(kāi)發(fā)部門(mén)脖卖;出了個(gè)緊急安全漏洞得給系統(tǒng)或應(yīng)用打補(bǔ)镀故 ;線上生產(chǎn)機(jī)的權(quán)限要管好畦木,別被黑客提權(quán)出了簍子袖扛;往往可能還要客串一把網(wǎng)絡(luò)工程師粗排一下千奇百怪的運(yùn)營(yíng)商到IDC網(wǎng)絡(luò)丟包,緩慢問(wèn)題十籍。

以上還不是最累的蛆封,運(yùn)維團(tuán)隊(duì)還要為線上故障排查負(fù)責(zé),軟件工程師半夜只會(huì)收到自己應(yīng)用的報(bào)警勾栗,運(yùn)維團(tuán)隊(duì)是要接受自己管理全部應(yīng)用的報(bào)警的惨篱,出了問(wèn)題往往開(kāi)發(fā)和運(yùn)維都要一起排查,一個(gè)高速發(fā)展的公司都會(huì)經(jīng)歷那么一段故障頻發(fā)的苦逼日子围俘,運(yùn)維成天到晚在忙著救火砸讳。

由于運(yùn)維與開(kāi)發(fā)部門(mén)不在一個(gè)部門(mén)琢融,且各自關(guān)注的目標(biāo)不同,伴隨著長(zhǎng)期的沖突和博弈簿寂。開(kāi)發(fā)只關(guān)心功能上線漾抬,運(yùn)維部門(mén)關(guān)心應(yīng)用穩(wěn)定運(yùn)行。從前陶耍,開(kāi)發(fā)可以快樂(lè)的自己登錄到線上機(jī)器上發(fā)布代碼奋蔚,scp個(gè)本地的war包過(guò)去,就跑起來(lái)了烈钞;自從xxx日出了故障導(dǎo)致網(wǎng)站宕機(jī)1小時(shí)泊碑,錯(cuò)過(guò)了促銷(xiāo)的黃金時(shí)間后,發(fā)布就被套上了流程的管控毯欣,層層審批馒过,就是為了減少發(fā)布的次數(shù),因?yàn)槔碚撋习l(fā)的越多酗钞,越容易出問(wèn)題腹忽,一個(gè)一年只發(fā)布一次的系統(tǒng),基本沒(méi)什么可能出問(wèn)題砚作。

Devops理念是伴著云計(jì)算理念出來(lái)的窘奏,在amazon的云計(jì)算成熟后,以上說(shuō)的傳統(tǒng)運(yùn)維已經(jīng)可以通過(guò)買(mǎi)云服務(wù)實(shí)現(xiàn)了葫录,不用自己采購(gòu)機(jī)器着裹,買(mǎi)個(gè)EC2,數(shù)據(jù)庫(kù)服務(wù)也可以直接買(mǎi)RDS米同,對(duì)象存儲(chǔ)用S3, Load Balancing也可以買(mǎi)骇扇。開(kāi)發(fā)人員自助在上面操作一下,部署上自己的應(yīng)用就可以提供服務(wù)了面粮,買(mǎi)個(gè)域名將DNS直接A記錄指向服務(wù)器就行了少孝。可以說(shuō)是中小公司的福音熬苍,互聯(lián)網(wǎng)創(chuàng)業(yè)不用考慮太多的服務(wù)器問(wèn)題了稍走,把有限的人力投入到至關(guān)重要的業(yè)務(wù)功能開(kāi)發(fā)商,其他的服務(wù)器運(yùn)維工作交給專(zhuān)業(yè)的云計(jì)算公司來(lái)做柴底。

網(wǎng)絡(luò)視頻租賃商N(yùn)etflix就是個(gè)知名的例子钱磅,其服務(wù)都運(yùn)行在AWS上。由于其多年跑在云上的分布式經(jīng)驗(yàn)似枕,還在github上開(kāi)源了不少分布式處理的組件,回饋了社區(qū)年柠。其遷移的路程也算長(zhǎng)的凿歼,從2008年到2015年褪迟,7年,完成了全部應(yīng)用到AWS的遷移答憔。他們認(rèn)為AWS提供了更可靠的服務(wù)味赃。

有遷入也有遷出的,著名的網(wǎng)絡(luò)存儲(chǔ)提供商Dropbox由于嫌AWS太貴虐拓,將自家服務(wù)重新移到了自家機(jī)房運(yùn)維心俗。

很有意思不是嗎?

那么
想體驗(yàn)自己的服務(wù)被上億人使用的感覺(jué)嗎蓉驹?
想?yún)⑴c每年雙11的技術(shù)狂歡嗎城榛?
想了解一線大廠的分布式技術(shù)如何抗住海量流量嗎?

阿里集團(tuán)客戶體驗(yàn)事業(yè)群旨在建立更高的客戶服務(wù)標(biāo)準(zhǔn)态兴,讓客戶在阿里享受到最“爽”的服務(wù)狠持,讓“客戶第一”成為阿里的百年口碑。

CRM產(chǎn)品技術(shù)部作為支撐全網(wǎng)服務(wù)的產(chǎn)品技術(shù)團(tuán)隊(duì)瞻润,希望通過(guò)我們的產(chǎn)品喘垂、數(shù)據(jù)、技術(shù)去提升阿里集團(tuán)服務(wù)幾億客戶的能力绍撞,提升全網(wǎng)客戶體驗(yàn)正勒。這里是最能聽(tīng)到“炮火”的地方,可以通過(guò)我們的努力傻铣,最直接的看到產(chǎn)品的改善章贞。

在這里可以接觸第一手的大數(shù)據(jù)。

這是一個(gè)以用戶為中心的多角色無(wú)邊界團(tuán)隊(duì)矾柜,一個(gè)有夢(mèng)想的歡樂(lè)團(tuán)隊(duì)阱驾,一個(gè)能近距離感受用戶溫度的團(tuán)隊(duì)。無(wú)論你是何種角色怪蔑,只要站在用戶的角度思考問(wèn)題里覆,你的意見(jiàn)都有機(jī)會(huì)被采納實(shí)施,去產(chǎn)品中落地缆瓣。

關(guān)于用戶體驗(yàn)的經(jīng)驗(yàn)和妙想會(huì)得到重視喧枷,可以站在集團(tuán)層面,推動(dòng)與解決難以落地的用戶問(wèn)題弓坞。

如果你來(lái)到我們團(tuán)隊(duì)隧甚,那么你的職責(zé)可能包括但不限于:

  1. 負(fù)責(zé)Alibaba客戶服務(wù)相關(guān)的產(chǎn)品研發(fā)
  2. 深入發(fā)掘和分析業(yè)務(wù)需求,撰寫(xiě)技術(shù)方案和系統(tǒng)設(shè)計(jì)
  3. 核心代碼編寫(xiě)渡冻、指導(dǎo)和培訓(xùn)工程師戚扳、不斷進(jìn)行系統(tǒng)優(yōu)化
  4. 參與或領(lǐng)導(dǎo)跨團(tuán)隊(duì)的研發(fā)項(xiàng)目

崗位要求:

  1. JAVA基礎(chǔ)扎實(shí),理解io族吻、多線程帽借、集合等基礎(chǔ)框架珠增,對(duì)JVM原理有一定的了解;
  2. 3年及以上使用JAVA開(kāi)發(fā)的經(jīng)驗(yàn)砍艾,對(duì)于你用過(guò)的開(kāi)源框架蒂教,能了解到它的原理和機(jī)制;對(duì)Spring,ibatis,struts等開(kāi)源框架熟悉脆荷;
  3. 熟悉分布式系統(tǒng)的設(shè)計(jì)和應(yīng)用凝垛,熟悉分布式、緩存蜓谋、消息等機(jī)制梦皮;能對(duì)分布式常用技術(shù)進(jìn)行合理應(yīng)用,解決問(wèn)題孤澎;
  4. 掌握多線程及高性能的設(shè)計(jì)與編碼及性能調(diào)優(yōu)届氢;有高并發(fā)應(yīng)用開(kāi)發(fā)經(jīng)驗(yàn);
  5. 掌握Linux 操作系統(tǒng)和大型數(shù)據(jù)庫(kù)(Oracle覆旭、MySql)退子;對(duì)sql優(yōu)化有豐富的經(jīng)驗(yàn);
  6. 學(xué)習(xí)能力強(qiáng)型将,適應(yīng)能力好寂祥;具備耐心/細(xì)心的品質(zhì);
  7. 喜歡去看及嘗試最新的技術(shù)七兜,追求編寫(xiě)優(yōu)雅的代碼丸凭,從技術(shù)趨勢(shì)和思路上能影響技術(shù)團(tuán)隊(duì)

簡(jiǎn)歷盡情發(fā)送到kunrong.zkr@alibaba-inc.com

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市腕铸,隨后出現(xiàn)的幾起案子惜犀,更是在濱河造成了極大的恐慌,老刑警劉巖狠裹,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件虽界,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡涛菠,警方通過(guò)查閱死者的電腦和手機(jī)莉御,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)俗冻,“玉大人礁叔,你說(shuō)我怎么就攤上這事∑。” “怎么了琅关?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)讥蔽。 經(jīng)常有香客問(wèn)我涣易,道長(zhǎng)人乓,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任都毒,我火速辦了婚禮,結(jié)果婚禮上碰缔,老公的妹妹穿的比我還像新娘账劲。我一直安慰自己,他們只是感情好金抡,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布瀑焦。 她就那樣靜靜地躺著,像睡著了一般梗肝。 火紅的嫁衣襯著肌膚如雪榛瓮。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1 297
  • 那天巫击,我揣著相機(jī)與錄音禀晓,去河邊找鬼。 笑死坝锰,一個(gè)胖子當(dāng)著我的面吹牛粹懒,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播顷级,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼凫乖,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了弓颈?” 一聲冷哼從身側(cè)響起帽芽,我...
    開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎翔冀,沒(méi)想到半個(gè)月后导街,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡橘蜜,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年菊匿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片计福。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡跌捆,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出象颖,到底是詐尸還是另有隱情佩厚,我是刑警寧澤,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布说订,位于F島的核電站抄瓦,受9級(jí)特大地震影響潮瓶,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜钙姊,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一毯辅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧煞额,春花似錦思恐、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至婚温,卻和暖如春描焰,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背栅螟。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工荆秦, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人嵌巷。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓萄凤,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親搪哪。 傳聞我的和親對(duì)象是個(gè)殘疾皇子靡努,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容