昨天測試了一天,某證券公司也主要是用的這款小米開源產(chǎn)品璃岳,所以要了解一下的洁墙。
一.Open-Falcon 介紹
監(jiān)控系統(tǒng)是整個運維環(huán)節(jié)剿配,乃至整個產(chǎn)品生命周期中最重要的一環(huán),事前及時預警發(fā)現(xiàn)故障咽斧,事后提供翔實的數(shù)據(jù)用于追查定位問題堪置。監(jiān)控系統(tǒng)作為一個成熟的運維產(chǎn)品,業(yè)界有很多開源的實現(xiàn)可供選擇张惹。當公司剛剛起步舀锨,業(yè)務規(guī)模較小,運維團隊也剛剛建立的初期宛逗,選擇一款開源的監(jiān)控系統(tǒng)坎匿,是一個省時省力,效率最高的方案。之后替蔬,隨著業(yè)務規(guī)模的持續(xù)快速增長告私,監(jiān)控的對象也越來越多,越來越復雜承桥,監(jiān)控系統(tǒng)的使用對象也從最初少數(shù)的幾個SRE驻粟,擴大為更多的DEVS,SRE凶异。這時候蜀撑,監(jiān)控系統(tǒng)的容量和用戶的“使用效率”成了最為突出的問題。
監(jiān)控系統(tǒng)業(yè)界有很多杰出的開源監(jiān)控系統(tǒng)剩彬。我們在早期屯掖,一直在用zabbix,不過隨著業(yè)務的快速發(fā)展襟衰,以及互聯(lián)網(wǎng)公司特有的一些需求贴铜,現(xiàn)有的開源的監(jiān)控系統(tǒng)在性能、擴展性瀑晒、和用戶的使用效率方面绍坝,已經(jīng)無法支撐了。因此苔悦,我們在過去的一年里轩褐,從互聯(lián)網(wǎng)公司的一些需求出發(fā),從各位SRE玖详、SA把介、DEVS的使用經(jīng)驗和反饋出發(fā),結(jié)合業(yè)界的一些大的互聯(lián)網(wǎng)公司做監(jiān)控蟋座,用監(jiān)控的一些思考出發(fā)拗踢,設計開發(fā)了小米的監(jiān)控系統(tǒng):open-falcon。
二.Open-Falcon 特點
1>.強大靈活的數(shù)據(jù)采集:
自動發(fā)現(xiàn)向臀,支持falcon-agent巢墅、snmp、支持用戶主動push券膀、用戶自定義插件支持君纫、opentsdb data model like(timestamp、endpoint芹彬、metric蓄髓、key-value tags)
2>.水平擴展能力:
支持每個周期上億次的數(shù)據(jù)采集、告警判定舒帮、歷史數(shù)據(jù)存儲和查詢
3>.高效率的告警策略管理:
高效的portal会喝、支持策略模板陡叠、模板繼承和覆蓋、多種告警方式好乐、支持callback調(diào)用
4>.人性化的告警設置:
最大告警次數(shù)匾竿、告警級別、告警恢復通知蔚万、告警暫停岭妖、不同時段不同閾值、支持維護周期
5>.高效率的graph組件:
單機支撐200萬metric的上報反璃、歸檔昵慌、存儲(周期為1分鐘)
6>.高效的歷史數(shù)據(jù)query組件:
采用rrdtool的數(shù)據(jù)歸檔策略,秒級返回上百個metric一年的歷史數(shù)據(jù)
7>.dashboard:
多維度的數(shù)據(jù)展示淮蜈,用戶自定義Screen
8>.高可用:
整個系統(tǒng)無核心單點斋攀,易運維,易部署梧田,可水平擴展
9>.開發(fā)語言:
整個系統(tǒng)的后端淳蔼,全部golang編寫,portal和dashboard使用python編寫裁眯。