B站運(yùn)維團(tuán)隊(duì)成長(zhǎng)的血淚史

胡凱尚胞,bilibili運(yùn)維負(fù)責(zé)人,曾經(jīng)就職于金山軟件掏呼、金山網(wǎng)絡(luò)坏快、獵豹移動(dòng),負(fù)責(zé)運(yùn)維相關(guān)工作憎夷。Bilibili是國(guó)內(nèi)最大的年輕人潮流文化娛樂(lè)社區(qū)莽鸿,銀河系知名彈幕視頻分享UGC平臺(tái)。

95后二次元新人類的追捧拾给,讓以視頻彈幕祥得、UP主聞名于世的bilibili(以下簡(jiǎn)稱B站)愈發(fā)火爆兔沃,無(wú)數(shù)年輕人通過(guò)電腦、手機(jī)啃沪、電視等終端設(shè)備在B站上追番粘拾、看彈幕,特別是新番上線時(shí)的訪問(wèn)壓力是非常大的创千,這就給B站的IT運(yùn)維團(tuán)隊(duì)帶來(lái)了巨大壓力缰雇。胡凱在去年加入B站剛剛成立的運(yùn)維部,人少事多追驴,遇到了很多坑械哟。

本文根據(jù)作者在“監(jiān)控與性能分享群”中的分享內(nèi)容整理。

B站運(yùn)維痛點(diǎn)主要有3個(gè):人手不足殿雪、故障多暇咆、運(yùn)維系統(tǒng)跟不上,針對(duì)這三個(gè)痛點(diǎn)丙曙,B站采用了三種方式進(jìn)行破冰爸业。


1、解放勞動(dòng)力

目前B站的CDN主要是自建的亏镰,TB級(jí)帶寬扯旷,視頻存儲(chǔ)也已達(dá)到N個(gè)PB,運(yùn)維壓力非常大索抓。招人確實(shí)可以解決問(wèn)題钧忽,但在上海這座魔都招聘合適的運(yùn)維人員非一朝一夕能夠完成的,人手不足怎么辦逼肯?那就想辦法把勞動(dòng)力從繁雜的日常運(yùn)維工作中釋放出來(lái)耸黑。

由于之前沒(méi)有專門的運(yùn)維部門,IT系統(tǒng)的權(quán)限都在開(kāi)發(fā)手上篮幢,出問(wèn)題了以后運(yùn)維總得跟在開(kāi)發(fā)后面查原因大刊,效率低不說(shuō),溝通往往容易出現(xiàn)問(wèn)題洲拇。

所以我們第1步做的就是:用Ansible + Jenkins搞定自動(dòng)發(fā)布奈揍。Ansible是相對(duì)簡(jiǎn)單的批量管理工具,支持模板管理等高級(jí)功能赋续。搞定了自動(dòng)發(fā)布,開(kāi)發(fā)的服務(wù)器需求已經(jīng)明顯下降另患,只要把代碼提交到 Git主干纽乱,就會(huì)自動(dòng)觸發(fā)發(fā)布。


Git使用的是 GitLab昆箕,同時(shí)為了安全我們做了一層LDAP代理鸦列,效果相當(dāng)于“將軍令”租冠,操作機(jī)、Git和Jenkins用 OpenLDAP 做統(tǒng)一認(rèn)證薯嗤,后續(xù)用到的Redmine顽爹、Grafana、Zabbix 等都接入了OpenLDAP認(rèn)證骆姐,每個(gè)人都有個(gè)動(dòng)態(tài)口令镜粤,每次驗(yàn)證都需要用到。

2玻褪、一棒子監(jiān)控告警系統(tǒng)

由于原始的監(jiān)控不滿足快速增長(zhǎng)的業(yè)務(wù)肉渴,我們部署了開(kāi)源監(jiān)控系統(tǒng) Zabbix,雖然運(yùn)維同事能夠很好的使用Zabbix带射,但其他部門同事總覺(jué)得易用性不高同规、而且很多定制化監(jiān)控實(shí)現(xiàn)起來(lái)很麻煩。


然后窟社,我們開(kāi)始折騰監(jiān)控系統(tǒng)——“一棒子監(jiān)控”券勺,為什么這么說(shuō)呢,因?yàn)橐驯O(jiān)控細(xì)化灿里,不是一兩天的事情关炼。而B(niǎo)站的幾乎所有請(qǐng)求都要經(jīng)過(guò)CDN,入口在手上钠四,出問(wèn)題想知道還難嗎盗扒?于是,我們?cè)谌肟谔幾隽吮O(jiān)控缀去,所有 5xx 的錯(cuò)誤都打到ELK侣灶,那么無(wú)論是什么業(yè)務(wù)出問(wèn)題了都會(huì)及時(shí)告警,讓相關(guān)人員來(lái)處理缕碎,后續(xù)再細(xì)化褥影。

另外,要把精力投入到最重要的事情上咏雌。我們可以花很長(zhǎng)的時(shí)間去搞好Zabbix凡怎、Open-Falcon,但結(jié)果可能是 從80分 到 90分這種并不顯著的效果赊抖,而很多監(jiān)控并不是 Zabbix统倒、Open-Falcon擅長(zhǎng)的,不如打個(gè)差異戰(zhàn)氛雪。

上圖中有個(gè) StatsD推薦給大家房匆,StatsD可以非常靈活的嵌入到代碼里進(jìn)行監(jiān)控(Shell都可以),因?yàn)槭褂肬DP協(xié)議,所以服務(wù)端性能和故障不會(huì)影響到調(diào)用的程序浴鸿,可以實(shí)現(xiàn)業(yè)務(wù)級(jí)的 QPS井氢、響應(yīng)時(shí)間等統(tǒng)計(jì)類監(jiān)控。

其中一個(gè)報(bào)警最終的效果如下:


B站是自建CDN的岳链,在國(guó)內(nèi)有覆蓋全國(guó)的好幾百個(gè)CDN節(jié)點(diǎn)花竞,CDN的監(jiān)控一直是個(gè)難點(diǎn),當(dāng)某1個(gè)鏈路出現(xiàn)問(wèn)題掸哑,用傳統(tǒng)的Zabbix约急、Open-Falcon監(jiān)控很難發(fā)現(xiàn)問(wèn)題。雖然我們自研了Http-monitor監(jiān)控举户,可用于網(wǎng)站的可用性監(jiān)控告警烤宙,但考慮到獨(dú)立資源和數(shù)據(jù)可靠性,還有用戶端網(wǎng)絡(luò)質(zhì)量的檢測(cè)俭嘁,還是同時(shí)使用了第三方監(jiān)控寶的服務(wù)躺枕。監(jiān)控寶使用簡(jiǎn)單惠况,功能實(shí)用策治,監(jiān)控點(diǎn)多,分布式監(jiān)控可以及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)上出現(xiàn)的問(wèn)題授瘦,提供的快照功能可以快速定位問(wèn)題和查看詳細(xì)信息近她。而且監(jiān)控寶屬于第三方獨(dú)立的叉瘩,還能出具網(wǎng)站的SLA證書(shū),作為B站內(nèi)部工作考核的依據(jù)粘捎。



3薇缅、開(kāi)源系統(tǒng)的愛(ài)與恨


B站技術(shù)氛圍濃厚,愛(ài)開(kāi)源攒磨、愛(ài)新技術(shù)泳桦,所以使用了大量的開(kāi)源組件,包括SheepDog(丟過(guò)數(shù)據(jù))和GlusterFS(卡成翔)娩缰,其中最大的坑是 SD卡 + Ceph存儲(chǔ)灸撰。Ceph本身的設(shè)計(jì)非常好,但是姿勢(shì)不對(duì)也會(huì)死很慘拼坎。比如B站的某套服務(wù)器集群用 SD卡來(lái)跑系統(tǒng)浮毯,結(jié)果 SD卡跪了導(dǎo)致系統(tǒng)也跪了,所有虛擬機(jī)的磁盤io都卡頓甚至死機(jī)泰鸡,經(jīng)過(guò)不斷調(diào)優(yōu)終于還是穩(wěn)定了债蓝。Ceph給我最大的安慰是:它沒(méi)有丟數(shù)據(jù),沒(méi)有丟盛龄!

此外惦蚊,Redis3.0器虾、Codis讯嫂、Twemproxy等開(kāi)源系統(tǒng)都在B站得到了使用蹦锋,最后我們自研了 BiliTW(已開(kāi)源),主要原因是 Codis現(xiàn)在沒(méi)更新了欧芽,Twemproxy的性能比較差莉掂,特別是后端Redis多的情況下(而且它和Redis一樣、只吃單核)千扔。BiliTW最大的改進(jìn)是支持多核憎妙,增加了一些易于運(yùn)維的功能。

最后總結(jié)一下B站運(yùn)維團(tuán)隊(duì)的成長(zhǎng)過(guò)程:

由于人手不足曲楚,所以事情得挑著做厘唾;由于故障多,得先抓入口龙誊、抓大的抚垃;由于運(yùn)維系統(tǒng)跟不上,得先拿開(kāi)源的頂著趟大;由于用了大量開(kāi)源系統(tǒng)鹤树,所以踩了很多坑。


問(wèn):請(qǐng)問(wèn)動(dòng)態(tài)口令是怎么做的逊朽,自己開(kāi)發(fā)還是開(kāi)源auth罕伯?

答:用的是谷歌動(dòng)態(tài)口令,開(kāi)源的Google身份驗(yàn)證器叽讳。

問(wèn):Ceph部署到線上需要什么特別的處理嗎追他?都遇到什么問(wèn)題了?

答:Ceph要注意版本岛蚤,一定要用穩(wěn)定版邑狸,要用大廠用過(guò)的版本。另外 Ceph非常耗資源灭美,B站全部用的SSD推溃,Ceph的內(nèi)部交換是獨(dú)立的萬(wàn)兆網(wǎng)絡(luò)。Ceph遇到最大的問(wèn)題就是感覺(jué)Ceph成了分布式單點(diǎn)存儲(chǔ)届腐,都是幾個(gè)節(jié)點(diǎn)铁坎、幾個(gè)副本,大的kvm塊存儲(chǔ)集群有64節(jié)點(diǎn)的集群犁苏,數(shù)據(jù)3副本硬萍,解決起來(lái)很復(fù)雜,需要有愛(ài)研究围详,能看懂代碼的人朴乖。

問(wèn):B站運(yùn)維團(tuán)隊(duì)多少人祖屏?

答:去年是從0開(kāi)始,目前20多人买羞,包含應(yīng)用袁勺、研發(fā)、安全畜普、信息等期丰。

問(wèn):GlusterFS這個(gè)存儲(chǔ)用起來(lái)卡嗎?

答:GlusterFS 我認(rèn)為只適合做大文件的冷存儲(chǔ)吃挑。

問(wèn):為什么不用Docker而用kvm

答:我們也用Docker钝荡,Docker一直有關(guān)注,但實(shí)際用的人不多舶衬,能用起來(lái)的都是投了很多資源進(jìn)去的大公司埠通。在 Docker 1.9.0 開(kāi)始,我們把核心SLB跑在Docker上了逛犹,用Host方式端辱。今年下半年,我們的一個(gè)大目標(biāo)就是Docker接入其它線上業(yè)務(wù)圾浅。目前使用的Mesos Macvlan方式已經(jīng)在踩水過(guò)程中掠手。

問(wèn):Hadoop 相關(guān)的運(yùn)維需要做嗎

答:大數(shù)據(jù)也做,暫無(wú)專職人員狸捕。技術(shù)研究這塊由于缺少專人喷鸽,我都是給每個(gè)應(yīng)用運(yùn)維分任務(wù)。大數(shù)據(jù)就分給了一個(gè)應(yīng)用運(yùn)維在搞灸拍,和開(kāi)發(fā)一起學(xué)習(xí)做祝。

問(wèn):你們服務(wù)器網(wǎng)卡做綁定了嗎?

答:我們?nèi)孔隽穗p網(wǎng)卡的綁定鸡岗,萬(wàn)兆bond0混槐。

問(wèn):故障多,這種麻煩如何快速解決轩性?

答:這個(gè)很難声登,一方面需要了解業(yè)務(wù),二方面需要有數(shù)據(jù)和手段揣苏。剛開(kāi)始我們查問(wèn)題非常慢悯嗓,后來(lái)逐步改進(jìn),比如完善監(jiān)控卸察,加故障錨點(diǎn)脯厨,故障總結(jié)。最近在做?Drapper 鏈接追蹤坑质,好多公司也都有做合武,實(shí)際上就是在請(qǐng)求的鏈接各個(gè)環(huán)節(jié)加標(biāo)記临梗,然后選擇性做實(shí)時(shí)分析。Drapper最終實(shí)現(xiàn)的效果就像瀏覽器的審查元素一樣稼跳,哪里慢一下就看到了盟庞。

問(wèn):mode0模式的話總帶寬還是一個(gè)網(wǎng)卡的吧?我在測(cè)試mode=4岂贩,結(jié)合交換機(jī)的動(dòng)態(tài)聚合茫经,遇到的問(wèn)題是服務(wù)器相互傳輸?shù)脑挘瑤捠且粋€(gè)網(wǎng)卡的速度萎津。

答:Mode 0 最好在交換機(jī)上做下配置,帶寬是跑2張網(wǎng)卡的抹镊,既能冗余锉屈,也能上量。我們自建CDN帶寬很高垮耳,單臺(tái)機(jī)器帶寬就按20G準(zhǔn)備颈渊。在獵豹用的是Mode4,也挺好的终佛,Mode6不需要特殊配置俊嗽,但有一個(gè)方向不均衡。之前測(cè)試Mode4效果最好铃彰,但公司最后用了Mode6绍豁,因?yàn)橐拙S護(hù)。

關(guān)于帶寬的問(wèn)題牙捉,必須2個(gè)客戶端向一個(gè)服務(wù)端同時(shí)傳輸才能達(dá)到雙網(wǎng)卡帶寬竹揍,以前測(cè)試mode0的時(shí)候遇到過(guò)跑不滿的現(xiàn)象,后來(lái)就用了mode6邪铲。不過(guò)是好多年前的事情了芬位,當(dāng)時(shí)應(yīng)該是CentOS5或6,現(xiàn)在B站用的是?Debian 8带到,Mode 0 并沒(méi)有發(fā)現(xiàn)問(wèn)題昧碉。

問(wèn):你們的Redis集群3.0穩(wěn)定嗎?

答:Redis 3.0 挺穩(wěn)定的揽惹,它的 Java客戶端會(huì)好些被饿,其它語(yǔ)言可能得自己開(kāi)發(fā)。這邊語(yǔ)言很多永丝,有些業(yè)務(wù)還是用 Proxy的方式在跑锹漱。我們正在開(kāi)發(fā)一個(gè)Cache管理系統(tǒng),最終會(huì)兼容各種方式慕嚷,未來(lái)會(huì)開(kāi)源哥牍。

問(wèn):BiliTW是https://github.com/anewhuahua/bilitw嗎毕泌?

答:不是,這個(gè)是前同事做的嗅辣,是基于Twemproxy 改的多進(jìn)程版本撼泛。未來(lái)會(huì)重構(gòu)一個(gè)新的,放在https://github.com/bilibili下面澡谭。

問(wèn):B站的云用的多嗎愿题?

答:內(nèi)部相當(dāng)于是私有云了,游戲業(yè)務(wù)用公有云多些蛙奖。

歡迎大家投搞:lily.qi@cloudwise.com

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末潘酗,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子雁仲,更是在濱河造成了極大的恐慌仔夺,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,820評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件攒砖,死亡現(xiàn)場(chǎng)離奇詭異缸兔,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)吹艇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門惰蜜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人受神,你說(shuō)我怎么就攤上這事抛猖。” “怎么了路克?”我有些...
    開(kāi)封第一講書(shū)人閱讀 168,324評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵樟结,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我精算,道長(zhǎng)瓢宦,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,714評(píng)論 1 297
  • 正文 為了忘掉前任灰羽,我火速辦了婚禮驮履,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘廉嚼。我一直安慰自己玫镐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布怠噪。 她就那樣靜靜地躺著恐似,像睡著了一般。 火紅的嫁衣襯著肌膚如雪傍念。 梳的紋絲不亂的頭發(fā)上矫夷,一...
    開(kāi)封第一講書(shū)人閱讀 52,328評(píng)論 1 310
  • 那天葛闷,我揣著相機(jī)與錄音,去河邊找鬼双藕。 笑死淑趾,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的忧陪。 我是一名探鬼主播扣泊,決...
    沈念sama閱讀 40,897評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼嘶摊!你這毒婦竟也來(lái)了延蟹?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,804評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤更卒,失蹤者是張志新(化名)和其女友劉穎等孵,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體蹂空,經(jīng)...
    沈念sama閱讀 46,345評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評(píng)論 3 340
  • 正文 我和宋清朗相戀三年果录,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了上枕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡弱恒,死狀恐怖辨萍,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情返弹,我是刑警寧澤锈玉,帶...
    沈念sama閱讀 36,238評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站义起,受9級(jí)特大地震影響拉背,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜默终,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評(píng)論 3 334
  • 文/蒙蒙 一椅棺、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧齐蔽,春花似錦两疚、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,417評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至谈况,卻和暖如春勺美,著一層夾襖步出監(jiān)牢的瞬間递胧,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,528評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工励烦, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留谓着,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,983評(píng)論 3 376
  • 正文 我出身青樓坛掠,卻偏偏與公主長(zhǎng)得像赊锚,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子屉栓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容

  • Zabbix簡(jiǎn)介 Zabbix官方網(wǎng)站Zabbix中文文檔 本文系統(tǒng)環(huán)境是CentOS7x86_64, Zabbi...
    Zhang21閱讀 8,016評(píng)論 0 37
  • 本篇文章內(nèi)容來(lái)自第10期魅族開(kāi)放日餓了么高級(jí)運(yùn)維經(jīng)理徐巍的現(xiàn)場(chǎng)分享舷蒲。 編輯:Cynthia 大家好,首先友多,先簡(jiǎn)單介...
    Cynthia成閱讀 534評(píng)論 0 3
  • 2017-2-17 晴 從小到大牲平,我就有一個(gè)優(yōu)勢(shì)——很容易獲得他人的信任,并且不分男女老幼域滥,他們都很喜歡找我傾訴纵柿,...
    實(shí)干作品閱讀 535評(píng)論 0 0
  • 有幸參加1月6日至8日的包子鋪工作型ppt培訓(xùn),收獲頗豐启绰。細(xì)節(jié)自不必講昂儒,包翔老師以“道法術(shù)器”四個(gè)層面,談工作型p...
    日午花影正閱讀 243評(píng)論 0 0