接上一章暴匠,在安裝部署結(jié)束后配置本機(jī)的hosts文件,采用域名進(jìn)行訪問?
C:\Windows\System32\drivers\etc\hosts?
192.168.0.241 paas.bk.com?
192.168.0.242 cmdb.bk.com?
192.168.0.243 job.bk.com?
(192.168.0.241為nginx的ip地址希太,Paas入口訪問如下:http://paas.bk.com:80)
默認(rèn)名密碼在藍(lán)鯨服務(wù)器 data/install/globals.env
注:部署后更改平臺(tái)用戶名密碼需登錄平臺(tái),在用戶管理中修改(部署前可再globals.env文件中修改)
節(jié)點(diǎn)管理
目的:進(jìn)行直連或者代理的Agent部署酝蜒,實(shí)現(xiàn)管控機(jī)器誊辉。
通過“桌面-節(jié)點(diǎn)管理”進(jìn)行操作
初次登錄需配置Nginx Server
Agent分兩種管理方式:
1、直連區(qū)域(Agent和藍(lán)鯨平臺(tái)在同一網(wǎng)段或IP可達(dá)亡脑,雙向網(wǎng)絡(luò)通訊正常)堕澄;
2、云區(qū)域管理(非直連方式远豺,需要通過Agent Proxy進(jìn)行代理訪問奈偏,通常適合非網(wǎng)絡(luò)直達(dá)環(huán)境,該部署模式僅需要Proxy可以和藍(lán)鯨平臺(tái)互通)躯护。
相關(guān)模式區(qū)別及資料通過“mini手冊(cè)”查看惊来,如在受控網(wǎng)絡(luò),重點(diǎn)關(guān)注通訊協(xié)議及端口棺滞。
測(cè)試環(huán)境采用直連方式裁蚁,分別部署一臺(tái)Centos7和一臺(tái)windows 2008(采用免Cygwin方式)
配置平臺(tái)-CMDB
通過“桌面-配置平臺(tái)”進(jìn)行操作
目的:通過配置平臺(tái)建立組織和業(yè)務(wù)矢渊,配置業(yè)務(wù)模型,進(jìn)行IT資產(chǎn)和配置的標(biāo)準(zhǔn)管理枉证。
藍(lán)鯨平臺(tái)的CMDB更關(guān)注和圍繞APP應(yīng)用和業(yè)務(wù)矮男,及所涉及的IT資源標(biāo)準(zhǔn)化管理,所以不建議初期就對(duì)桌面終端室谚、網(wǎng)絡(luò)設(shè)備等都納管毡鉴。
在“主機(jī)”下,可以看到已經(jīng)安裝Agent的管控主機(jī)列表
1秒赤、建立組織架構(gòu)和業(yè)務(wù)
2猪瞬、建立業(yè)務(wù)拓?fù)?/p>
在“主機(jī)管理”--“業(yè)務(wù)拓?fù)洹毕逻x擇剛才建立的業(yè)務(wù)名稱“測(cè)試環(huán)境”
在業(yè)務(wù)拓?fù)湎陆ⅰ凹骸保菔经h(huán)境命名:測(cè)試池01
重新分配主機(jī)到指定業(yè)務(wù):1)勾選目標(biāo)機(jī)器—轉(zhuǎn)移—空閑機(jī)—資源池入篮,2)然后主機(jī)資源會(huì)出現(xiàn)在“主機(jī)管理”--"主機(jī)資源池"下陈瘦,3)在“主機(jī)資源池”下選擇分配到“測(cè)試環(huán)境”--分配至“空閑資源”下。
以上操作便于理解業(yè)務(wù)規(guī)劃和業(yè)務(wù)分類潮售,便于后期對(duì)同業(yè)務(wù)類型下的主機(jī)資源進(jìn)行批量操作痊项。
3、后臺(tái)配置
模型管理?
支持分組管理酥诽,分組類型分為“系統(tǒng)內(nèi)置”和“用戶自定義”
用戶自定義分組:可以點(diǎn)擊側(cè)邊的新增按鈕進(jìn)行新增 (分組中文名和圖標(biāo)可更改)鞍泉,如下圖:“存儲(chǔ)”為自定義分組
新的自定義分組,或自帶分組盆均,可以在模型中通過點(diǎn)擊“新增”增加模型及字段塞弊。
目前內(nèi)置的模型有業(yè)務(wù)、集群泪姨、模塊游沿、主機(jī)、進(jìn)程肮砾、云區(qū)域诀黍。如果內(nèi)置模型不能夠滿足,可以通過自定義新增仗处、編輯模型(業(yè)務(wù)拓?fù)浣Y(jié)構(gòu)最多為六層)
其他操作可停用/啟用/刪除模型操作眯勾。
附:配置平臺(tái)常見問題?
1) 當(dāng)藍(lán)鯨業(yè)務(wù)沒有任何集群,主機(jī)配置也沒有藍(lán)鯨服務(wù)器IP等信息時(shí)婆誓,為初始化CMDB沒做或者是異常吃环,登錄中控機(jī)?
source /data/install/utils.fc
./bkcec initdata cmdb
2) 當(dāng)訪問其他應(yīng)用出現(xiàn)“您當(dāng)前沒有可操作權(quán)限”報(bào)錯(cuò),因?yàn)樵谂渲闷脚_(tái)—>組織架構(gòu)—>業(yè)務(wù)—>運(yùn)維人員加上該用戶即可洋幻。
作業(yè)平臺(tái)
通過“桌面-作業(yè)平臺(tái)”進(jìn)行操作
目的:批量選擇業(yè)務(wù)和管控主機(jī)郁轻,批量快速執(zhí)行腳本。
在運(yùn)維工作中有大量工作需手動(dòng)編寫腳本、本地腳本的上傳好唯、修改和版本控制竭沫,大量的腳本來源和編寫人員會(huì)導(dǎo)致腳本混亂不可控,通過藍(lán)鯨可以有效把常用可用的腳本放在公共校本庫(kù)當(dāng)中骑篙,也可以分配作業(yè)權(quán)限蜕提,有不同的人員維護(hù)業(yè)務(wù)范圍內(nèi)主機(jī)資源的批量腳本自動(dòng)化執(zhí)行。
目前支持的腳本類型有:Shell靶端、BAT谎势、Perl、Python躲查、PowerShell
1它浅、快速腳本執(zhí)行
執(zhí)行結(jié)果返回碼為零正常,非零一般是腳本錯(cuò)誤镣煮,可以檢查腳本。?
右邊輸出日志最大為1M鄙麦。
2典唇、快速分發(fā)文件
可選添加本地文件和添加服務(wù)器文件(安裝了Agent的服務(wù)器)?
執(zhí)行結(jié)果:
3、新建作業(yè)及傳參
4胯府、定時(shí)自動(dòng)作業(yè)
5介衔、公共腳本
管理員權(quán)限可以建立公共腳本庫(kù),對(duì)通用和常用的腳本規(guī)范和分享給業(yè)務(wù)管理員使用
日志檢索
通過桌面選擇“日志檢索”
當(dāng)前社區(qū)版4.1.16及之前版本支持采集Linux文件?
日志檢索是增量查詢骂因,有新增數(shù)據(jù)才會(huì)采集上報(bào)?
①選擇模塊(機(jī)器分配到XX業(yè)務(wù)XX模塊下)?
②選擇采集日志的過期天數(shù)?
③輸入采集日志的完全路徑?
④排查類型:填入排查類型的文件格式就不采集此類文件
初次登錄需要配置“新建采集項(xiàng)”
可搜索日志文件的關(guān)鍵字
結(jié)果展示
1)日志是按行匹配的炎咖,匹配到的關(guān)鍵字會(huì)高亮
2)可以自定義顯示的列,日志內(nèi)容是必顯示項(xiàng)
藍(lán)鯨監(jiān)控
在桌面開啟“藍(lán)鯨監(jiān)控”功能寒波。
藍(lán)鯨監(jiān)控是一款針對(duì)主機(jī)/容器和互聯(lián)網(wǎng)應(yīng)用進(jìn)行監(jiān)控的產(chǎn)品乘盼,監(jiān)控服務(wù)可用于收集主機(jī)/容器資源(系統(tǒng)性能、組件服務(wù)俄烁、數(shù)據(jù)庫(kù)绸栅、日志等)的監(jiān)控指標(biāo),探測(cè)互聯(lián)網(wǎng)應(yīng)用服務(wù)的可用性页屠,并對(duì)指標(biāo)進(jìn)行告警和自動(dòng)執(zhí)行處理粹胯。
產(chǎn)品架構(gòu)
依托藍(lán)鯨管控平臺(tái)實(shí)現(xiàn)對(duì)主機(jī)、容器辰企、中間件风纠、網(wǎng)絡(luò)設(shè)備等數(shù)據(jù)源的數(shù)據(jù)采集能力,通過藍(lán)鯨數(shù)據(jù)平臺(tái)實(shí)現(xiàn)數(shù)據(jù)清洗牢贸、計(jì)算竹观、存儲(chǔ),藍(lán)鯨監(jiān)控實(shí)現(xiàn)告警檢測(cè)十减、收斂栈幸、通知以及聯(lián)動(dòng)藍(lán)鯨體系內(nèi)的平臺(tái)(如藍(lán)鯨作業(yè)平臺(tái))或周邊系統(tǒng)(如故障自愈)完成故障處理的閉環(huán).
采集器:除了自研的采集器外愤估,有基于beats的基礎(chǔ)性能采集器、組件監(jiān)控采集器速址,此外組件采集器支持Prometheus Exporter及自助導(dǎo)入玩焰、datadog開源的100+款組件。
主機(jī)監(jiān)控
支持以主機(jī)為單元的基礎(chǔ)性能指標(biāo)查看芍锚、告警策略配置昔园、告警記錄等功能。指標(biāo)支持CPU并炮、內(nèi)存默刚、磁盤、網(wǎng)絡(luò)逃魄、進(jìn)程荤西、系統(tǒng)、事件(corefile伍俘、主機(jī)重啟等)等7類共30~40項(xiàng)指標(biāo)邪锌。
指標(biāo)定義
https://docs.bk.tencent.com/product_white_paper/bk_monitor/Host_monitor_desc.html
進(jìn)程資源
采集?應(yīng)用程序?所占用系統(tǒng)資源,主要用于開發(fā)監(jiān)測(cè)單個(gè)程序占用的資源癌瘾。
適用于?Linux?和?Windows
監(jiān)控指標(biāo)
https://docs.bk.tencent.com/product_white_paper/bk_monitor/Process_Resource_Monitor.html
組件觅丰、中間件監(jiān)控
監(jiān)控常見開源組件及商業(yè)中間件的性能指標(biāo),比如Nginx的每分鐘客戶端請(qǐng)求數(shù)(req_per_min)妨退、等待中的連接數(shù)(waiting)等妇萄,或Oracle的并發(fā)等待時(shí)間( CONCURRENCY_WAIT_TIME)等。?
圖1. 組件監(jiān)控
圖2. Nginx關(guān)鍵性能指標(biāo)監(jiān)控
圖3. Oracle關(guān)鍵性能指標(biāo)監(jiān)控
藍(lán)鯨監(jiān)控除內(nèi)置組件性能指標(biāo)的采集能力咬荷,同時(shí)兼容Prometheus Exporter的導(dǎo)入及開發(fā)能力冠句,全面覆蓋組件的采集能力。
服務(wù)撥測(cè)
服務(wù)撥測(cè)是探測(cè)服務(wù)(應(yīng)用)可用性的監(jiān)控方式萍丐,通過撥測(cè)節(jié)點(diǎn)對(duì)目標(biāo)服務(wù)進(jìn)行周期性探測(cè)轩端,主要通過可用性和響應(yīng)時(shí)間來度量。
圖1. 服務(wù)撥測(cè)
圖2. 服務(wù)撥測(cè)可用率視圖
圖3. 服務(wù)撥測(cè)響應(yīng)時(shí)間視圖
通過模擬用戶的登陸方式逝变,實(shí)現(xiàn)從被動(dòng)投訴到主動(dòng)發(fā)現(xiàn)的運(yùn)維方式轉(zhuǎn)變基茵。
當(dāng)前支持的撥測(cè)協(xié)議有HTTP(包含HTTPS,GET和POST方法)壳影、TCP拱层、UDP。
自定義監(jiān)控
當(dāng)你需要對(duì)業(yè)務(wù)指標(biāo)或藍(lán)鯨監(jiān)控未內(nèi)置的監(jiān)控對(duì)象做監(jiān)控時(shí)宴咧,通過自定義監(jiān)控可實(shí)現(xiàn)你的監(jiān)控需求根灯。
自定義監(jiān)控需要結(jié)合“采集中心”,自定義采集項(xiàng)及采集指標(biāo)。
監(jiān)控配置
該頁(yè)面下主要對(duì)監(jiān)控閾值進(jìn)行設(shè)定或者調(diào)整烙肺,包括告警屏蔽策略纳猪。
采集中心
一些需自定義的業(yè)務(wù)特性監(jiān)控?cái)?shù)據(jù),可使用腳本采集桃笙、日志采集氏堤,以及組件的二次開發(fā)功能。
事件中心
集中展示或檢索告警時(shí)間搏明。
業(yè)務(wù)管理
對(duì)管理員的查詢鼠锈,變更權(quán)限進(jìn)行管理。
藍(lán)鯨監(jiān)控的權(quán)限體系分2個(gè)層面:業(yè)務(wù)隔離星著、業(yè)務(wù)下角色隔離购笆,均是基于藍(lán)鯨配置平臺(tái)(CMDB)實(shí)現(xiàn).
提供了?誰能訪問該業(yè)務(wù)?和?誰可查看或變更該業(yè)務(wù)配置?的功能。
業(yè)務(wù)隔離
配置平臺(tái)業(yè)務(wù)間的權(quán)限通過業(yè)務(wù)中的運(yùn)維人員虚循、產(chǎn)品人員同欠、測(cè)試人員、開發(fā)人員以實(shí)現(xiàn)業(yè)務(wù)隔離(不同業(yè)務(wù)邮丰,擁有對(duì)應(yīng)業(yè)務(wù)權(quán)限的人員才能訪問)
如monitor在配置中心擁有?藍(lán)鯨?和?業(yè)務(wù)3的業(yè)務(wù)權(quán)限?
他在藍(lán)鯨監(jiān)控中也只有這2個(gè)業(yè)務(wù)的權(quán)限行您,因?yàn)樗{(lán)鯨監(jiān)控繼承了CMDB權(quán)限。?
業(yè)務(wù)下角色隔離
分為?查詢?和?變更?權(quán)限剪廉,基于藍(lán)鯨配置平臺(tái)(CMDB)針對(duì)單個(gè)業(yè)務(wù)可設(shè)置運(yùn)維、測(cè)試炕檩、開發(fā)斗蒋、產(chǎn)品權(quán)限。?
默認(rèn)運(yùn)維擁有?查詢?和?變更?權(quán)限笛质,其他人員擁有?查詢?權(quán)限泉沾。?
根據(jù)實(shí)際使用場(chǎng)景,可以針對(duì)單個(gè)角色做權(quán)限調(diào)整妇押。?
儀表盤
類似監(jiān)控大屏跷究,可新建或拖拽建立個(gè)性化視圖。
場(chǎng)景案例
可參考官方場(chǎng)景案例https://docs.bk.tencent.com/product_white_paper/bk_monitor/Scenes.html
故障自愈
在桌面開啟“故障自愈”功能敲霍。
故障自愈通過自動(dòng)化處理節(jié)省人力投入俊马,通過預(yù)定的恢復(fù)流程讓恢復(fù)過程更可靠,通過并行分析達(dá)到更快的故障定位和恢復(fù)肩杈。
一句話概括:實(shí)時(shí)發(fā)現(xiàn)告警柴我,預(yù)診斷分析,自動(dòng)恢復(fù)故障扩然,并打通周邊系統(tǒng)實(shí)現(xiàn)整個(gè)流程的閉環(huán)艘儒。
1) 獲取告警:告警源集成藍(lán)鯨監(jiān)控、4款主流開源監(jiān)控產(chǎn)品Zabbix、OpenFalcon界睁、Nagios觉增、Icinga,及AWS翻斟、郵件的告警接入逾礁,更能通過REST API 拉取、推送告警杨赤。?
2) 告警處理:故障處理支持作業(yè)平臺(tái)敞斋、標(biāo)準(zhǔn)運(yùn)維流程 。
3) 告警收斂和防御:系統(tǒng)預(yù)定收斂和防御規(guī)則疾牲,對(duì)異常告警事件進(jìn)行收斂植捎,更能通過收斂審批功能對(duì)異常的執(zhí)行做審批。?
4) 健康診斷阳柔,根據(jù)系統(tǒng)內(nèi)置的健康診斷策略焰枢,周期性回溯異常事件,并通過郵件方式推送出來舌剂。?
5) 預(yù)警自愈济锄,是健康診斷功能的延伸,把健康診斷發(fā)現(xiàn)的問題通過自愈方案解決霍转,完成異常事件的閉環(huán)荐绝。?
6) 操作審計(jì),感知故障自愈的每一次改動(dòng)避消,確保運(yùn)營(yíng)安全低滩,問題可回溯 。
7) 豐富的處理套餐:除支持作業(yè)平臺(tái)岩喷、標(biāo)準(zhǔn)運(yùn)維外恕沫,還支持快捷套餐類(磁盤清理、匯總纱意、檢測(cè)CPU使用率TOP10等)婶溯、組合套餐類(獲取故障機(jī)備機(jī)、通知偷霉、審批等)迄委。
故障自愈集成行業(yè)開源監(jiān)控產(chǎn)品或以REST API方式獲取企業(yè)監(jiān)控產(chǎn)品的告警,匹配告警設(shè)置的執(zhí)行套餐腾它,并執(zhí)行實(shí)現(xiàn)告警自動(dòng)化處理跑筝,同時(shí)通過告警收斂功能解決“告警風(fēng)暴”的痛點(diǎn)。?
故障自愈產(chǎn)品架構(gòu)圖
故障自愈故障處理概要圖
故障自愈首頁(yè)面板
展示自愈成功次數(shù)瞒滴、監(jiān)控診斷待處理數(shù)量(告警配置—健康診斷)曲梗、收斂事件赞警、人力節(jié)省(統(tǒng)計(jì)報(bào)表—收益數(shù)據(jù))
接入自愈
1) 自帶通用類自愈自愈方案虏两,可自由選擇開啟或者關(guān)閉愧旦。?
2) 支持自定義接入自愈套餐(自愈套餐需要與告警類型相匹配)
告警自動(dòng)處理
將告警接入自愈套餐后,告警將匹配配置的處理套餐自動(dòng)執(zhí)行定罢,無需人工干預(yù)笤虫。
添加告警類型,選擇集群和模塊(置空不填默認(rèn)對(duì)該業(yè)務(wù)下所有集群和模塊有效)?
選擇自愈套餐祖凫,可選已有的自愈套餐或者點(diǎn)擊右側(cè)“+”號(hào)新建琼蚯。?
選擇通知方式:微信、郵件等?
勾選通知人員
套餐管理
手動(dòng)創(chuàng)建自愈套餐
接入三方告警源
配置參考
https://docs.bk.tencent.com/product_white_paper/fta/Getting_Started/Integrated_Monitoring_Products.html
告警收斂
以上為相關(guān)原生Saas模塊功能概述惠况,之后會(huì)總結(jié)場(chǎng)景就模塊實(shí)現(xiàn)進(jìn)行作業(yè)自動(dòng)化和標(biāo)準(zhǔn)化開展遭庶。可添加微信一起交流學(xué)習(xí)稠屠。