總體構(gòu)成
系統(tǒng)運維由資源管理劈猿、軟件配置管理、監(jiān)控管理潮孽、告警與故障定位管理揪荣、日志管理、安全管理往史、成本管理仗颈、巡檢管理。
目前椎例,我們涉及的是資源管理挨决、軟件配置管理、監(jiān)控管理订歪、告警與故障定位管理脖祈,安全管理和日志管理較為初級,成本管理尚未涉及刷晋。
資源管理
資源管理記錄維護設(shè)備的信息盖高,包括設(shè)備型號、配置眼虱、歸屬信息或舞、管理信息、軟件版本蒙幻、維護人員等。資源管理可以幫助集中管理一個或多個項目內(nèi)的設(shè)備信息胆筒,可以提高異常處理速度邮破。
軟件配置管理
軟件配置管理包括軟件版本管理(git诈豌、svn)、配置管理抒和、軟件安裝矫渔、軟件升級更新、系統(tǒng)補丁安裝摧莽。
-軟件版本管理:主要管理已發(fā)布的軟件程序庙洼,保證上線版本均從且僅從版本庫中獲取;軟件版本要包括基礎(chǔ)版本和定制版本,不能有所遺漏镊辕。版本管理可以使用svn或git方式油够。
-配置信息管理:配置管理應(yīng)對重要的軟件配置文件進行管理,記錄并跟蹤文件內(nèi)容的變化情況征懈。
1石咬、本地配置管理:實現(xiàn)一個針對配置文件的腳本定時檢查并把發(fā)生變化的配置文件備份(未實現(xiàn))。
2卖哎、遠程配置監(jiān)控:定時對所有定義過的配置文件及目錄進行掃描鬼悠,并將配置項鍵值發(fā)送到監(jiān)控服務(wù)器(zabbix)。
-軟件安裝:軟件安裝必須保證只安裝業(yè)務(wù)所需的最小化軟件亏娜,保證前后版本的業(yè)務(wù)連續(xù)性焕窝,滿足用戶的業(yè)務(wù)功能需求。
1维贺、系統(tǒng)最小化鏡像:通過預(yù)先配置訂制符合業(yè)務(wù)要求的最小化安裝介質(zhì)它掂,預(yù)先設(shè)置安全配置,規(guī)范化軟件安裝目錄幸缕,提高維護一致性群发。
2、軟件安裝自動化:通過使用定制化腳本发乔,降低人為操作失誤風(fēng)險熟妓,加快部署速度。
3栏尚、安裝環(huán)境檢查:提供測試工具起愈,實現(xiàn)對業(yè)務(wù)前置條件的檢查(比如檢查是否包含特定業(yè)務(wù)數(shù)據(jù)),部署后業(yè)務(wù)流輸出檢查(比如推送數(shù)據(jù)包是否正常)译仗,提供安裝結(jié)果報告抬虽。
-軟件升級更新:軟件更新應(yīng)規(guī)范進行,保證軟件版本符合業(yè)務(wù)需求纵菌,保證配置連續(xù)性阐污,保證業(yè)務(wù)連續(xù)性。
1.使用腳本升級軟件:使用定制化腳本更新軟件版本咱圆。腳本要考慮前后版本配置差異笛辟,做好原有配置和文件備份功氨,具備業(yè)務(wù)回退選項,具備多主機同時操作能力手幢。
2.使用配置集中更新機制:設(shè)置配置管理服務(wù)捷凄,由各業(yè)務(wù)主機定時注冊并獲取最新版本信息,并自動拉取更新最新版本围来。
-系統(tǒng)補丁安裝:關(guān)注網(wǎng)絡(luò)安全信息通報跺涤,遭遇重大漏洞應(yīng)測試后及時更新;應(yīng)禁止系統(tǒng)補丁自動更新监透,人工方式進行更新桶错。
1.系統(tǒng)補丁更新模擬,避免對在線業(yè)務(wù)造成影響才漆。(建立業(yè)務(wù)測試平臺牛曹,對需要安裝的軟件補丁重復(fù)測試后,在進行線上部署醇滥。)
2.補丁使用本地緩存黎比,避免上線安裝。
監(jiān)控管理
監(jiān)控使用監(jiān)控客戶端等方式收集被監(jiān)控機的硬件鸳玩、系統(tǒng)阅虫、應(yīng)用指標情況,并發(fā)送到數(shù)據(jù)集中服務(wù)器不跟。
監(jiān)控使用zabbix颓帝、beat、cacti窝革、ganglia等购城。
1.性能監(jiān)控
2.可用性監(jiān)控
3.應(yīng)用監(jiān)控
4.日志監(jiān)控
告警與故障定位管理
告警是對異常事件潛在故障的及時反饋,一般是基于閾值或歷史基線條件及其組合觸發(fā)虐译,并按照特定的通知群組和告知規(guī)則向外發(fā)送告警瘪板。
故障定位是綜合多個告警信息的關(guān)系,根據(jù)歷史經(jīng)驗自動或人工判斷問題點漆诽。
此部分也包含對故障的修復(fù)和排除侮攀,修復(fù)可以由工程師完成,也可以自動執(zhí)行符合場景的預(yù)制腳本完成厢拭。
1.故障異常告警:提供對監(jiān)控異常數(shù)據(jù)的告警兰英,包括數(shù)值缺失、數(shù)值異常變化等供鸠。(zabbix)
2.綜合故障告警:根據(jù)多個指標項綜合診斷確定故障的發(fā)生畦贸、故障發(fā)生的位置以及可能影響。(部分具備)
3.日志告警:根據(jù)設(shè)備日志中的重要告警異常產(chǎn)生告警楞捂,使應(yīng)用或系統(tǒng)的重要故障可以及時發(fā)現(xiàn)薄坏。
日志管理
日志管理指主機系統(tǒng)正林、應(yīng)用軟件記錄自身運行情況的重要信息,隨后即由filebeat颤殴、logstash、fluent等收集匯總處理鼻忠;
日志可以經(jīng)由軟件處理后發(fā)送到ELK stack或zabbix用于數(shù)據(jù)展示鉆取或異常行為告警涵但。
日志需要放置在相對集中的目錄中,并且日志內(nèi)容應(yīng)該遵循syslog標準帖蔓。
1.zabbix日志告警:zabbix對匹配正則表達式的日志產(chǎn)生告警信息矮瘟,并發(fā)送到zabbix服務(wù)器。
2.filebeat日志采集:定時查詢?nèi)罩咀兓闆r塑娇,將新增日志發(fā)送到ElasticSearch服務(wù)器澈侠,由ES分詞、存儲埋酬,提供后期的統(tǒng)計和查詢哨啃。
安全管理
安全管理包括操作系統(tǒng)初始化配置、系統(tǒng)安全加固写妥、系統(tǒng)文件完整性校驗拳球、安全漏洞檢測、僵木蠕檢查珍特、賬號權(quán)限管理祝峻、用戶行為管理。
-系統(tǒng)初始化配置:系統(tǒng)安裝系統(tǒng)時安裝最小化的軟件包扎筒,減少不必要組件莱找,進行安全加固。
1.系統(tǒng)最小化鏡像
-安全漏洞檢測:
1.使用nessus遠程掃描設(shè)備端口嗜桌;
2.使用本地audit審計腳本發(fā)現(xiàn)設(shè)備漏洞奥溺;
-系統(tǒng)安全加固:
-僵木蠕查殺:
1.安裝開源殺毒軟件:一般只有郵件服務(wù)器需要。pass
2.執(zhí)行本地rootkit檢查工具症脂,比如chkrootkit谚赎,需要周期性更新軟件并執(zhí)行。
3.系統(tǒng)完整性校驗:通過文件系統(tǒng)重要文件的異常修改诱篷,發(fā)現(xiàn)潛在的入侵和惡意軟件壶唤。tripwire是較為常用的軟件。
-登陸用戶行為記錄:記錄用戶登陸時間棕所、登陸ip地址闸盔、命令操作歷史詳情。
實現(xiàn)方式有兩種:
1.堡壘主機統(tǒng)一記錄:由堡壘機統(tǒng)一認證授權(quán)琳省,記錄用戶行為迎吵;成為用戶訪問設(shè)備的唯一入口躲撰。
2.本地主機記錄:本地主機記錄所有登陸人員的命令操作,比如script配合腳本實現(xiàn)击费;需要在每臺設(shè)備上建立所有操作人員的賬戶拢蛋,不能允許共享賬戶(共享賬戶會極大削弱記錄的作用)
| | 優(yōu)勢 | 劣勢
| 堡壘機 |統(tǒng)一管理,更加安全|需要額外配置管理
|本地主機|部署簡單蔫巩,查詢方便 |容易被黑客行為破壞
-系統(tǒng)文件完整性校驗:通過執(zhí)行完整性校驗軟件谆棱,獲取重要系統(tǒng)文件的校驗信息并保持在安全位置;周期性執(zhí)行診斷圆仔,對變化文件產(chǎn)生報告信息垃瞧。
1.tripwire軟件本地校驗:校驗數(shù)據(jù)和校驗結(jié)果均保留在本地,由工程師手動檢查坪郭。
2.tripwire結(jié)合遠程管理:校驗數(shù)據(jù)保留在本地个从,校驗結(jié)果發(fā)送到遠端監(jiān)控服務(wù)器,產(chǎn)生異常告警歪沃。
-配置文件管理:系統(tǒng)嗦锐、軟件配置信息變化內(nèi)容變化必須得到記錄,原有配置應(yīng)該記錄在設(shè)備上绸罗,有可能的情況下傳輸?shù)竭h端管理平臺意推。
1.本地配置備份:定期執(zhí)行配置文件備份工具,將預(yù)置路徑下的配置文件和程序打包壓縮到特定文件夾珊蟀;定期清除老舊備份菊值。
2.遠程配置監(jiān)控:配置信息傳送到遠程服務(wù)器,或配置文件定期保存到遠程服務(wù)器育灸。
-賬號權(quán)限管理:賬戶權(quán)限管理的基本要求是賬戶專人專用腻窒,賦予完成任務(wù)所需的最小權(quán)限,密碼要符合復(fù)雜性要求并定期修改磅崭。
1.密碼復(fù)雜性策略:通過linux pam設(shè)置儿子,使密碼至少大于8位且有大小寫字母數(shù)字混合;
2.密碼更新策略:90天強制更新密碼砸喻,15天寬限柔逼;通過集中管理,每3個月更新root權(quán)限密碼割岛;
3.遠程訪問ssh限制:限制root登陸愉适,限制最大連接嘗試數(shù),使用autoban限制同一ip地址反復(fù)嘗試癣漆;
4.專人專戶:每人使用一個賬戶维咸,不得使用共享賬戶登陸設(shè)備。管理員手動管理或堡壘機管理。
成本管理
成本管理是通過設(shè)備資源癌蓖、網(wǎng)絡(luò)資源使用情況瞬哼,計算設(shè)備的利用效率或應(yīng)用的運轉(zhuǎn)成本;
基于數(shù)據(jù)的成本管理有助于及時調(diào)配現(xiàn)有資源支持業(yè)務(wù)發(fā)展租副,有助于減少資源浪費和不必要開支坐慰。
1.設(shè)備資源使用率統(tǒng)計:統(tǒng)計cpu資源、內(nèi)存資源用僧、網(wǎng)絡(luò)資源使用情況讨越,評估遠程
巡檢管理
巡檢是指對現(xiàn)有業(yè)務(wù)系統(tǒng)進行軟硬件的定期檢查,根據(jù)操作方式可以分為遠程和現(xiàn)場巡檢永毅,根據(jù)檢查內(nèi)容可以分為系統(tǒng)、應(yīng)用軟件人弓、安全巡檢等沼死。
巡檢工作執(zhí)行需要根據(jù)巡檢要求定制腳本,根據(jù)操作方式選擇合適的方法崔赌,執(zhí)行執(zhí)行計劃意蛀,并檢查巡檢結(jié)果。
-遠程巡檢
1健芭、批量集中巡檢:通過批量下發(fā)平臺分別對特定類型設(shè)備下發(fā)巡檢指令县钥,統(tǒng)一反饋結(jié)果;
2慈迈、腳本命令執(zhí)行:通過項目監(jiān)控服務(wù)器連接項目內(nèi)各主機并執(zhí)行檢查腳本若贮,后期通過手動處理結(jié)果產(chǎn)生報告;
-現(xiàn)場巡檢
1痒留、腳本命令執(zhí)行:通過項目監(jiān)控服務(wù)器連接項目內(nèi)各主機并執(zhí)行檢查腳本谴麦,后期通過手動處理結(jié)果產(chǎn)生報告。