一直在說 Cloud Insight 是數(shù)據(jù)聚合平臺殿遂,可以用 SDK 和 API 實現(xiàn)業(yè)務監(jiān)控诈铛,如今不拿出點實踐人們恐怕是不能信服乙各。那今天本文就先簡單介紹一下 SDK 可以應用在哪些方面,再舉個真實用戶場景來讓大家看看幢竹。
首先說一點耳峦,通過 SDK 你可以把你想看的任何數(shù)據(jù)都接在 Cloud Insight 平臺上,例如運營可以把涉及到的用戶數(shù)據(jù)放上去焕毫,讓開發(fā)蹲坷,運維,boss 隨時都可以看到自己產(chǎn)品的用戶邑飒,如果涉及到多個層次的指標數(shù)據(jù)(日活循签,增長,轉化疙咸,留存县匠。。罕扎。)都有相應的簡單操作聚唐;開發(fā)可以把自己 build 代碼的次數(shù),提交的次數(shù)放上去腔召;銷售也可以把用戶簽單數(shù)杆查,簽單額放上去(如果允許的話啊)臀蛛;運維就更不用說了亲桦,所有服務器監(jiān)控指標都可以放上來。
下面介紹一個業(yè)務場景的監(jiān)控浊仆,本實例來自真實用戶場景客峭。
用戶需求
監(jiān)控可用性和響應速度,運營的需求要求每次接口響應控制在0.1-0.5s內(nèi)抡柿。如果超出這個時間就要找到問題舔琅,進行優(yōu)化。
以前的做法
在后端添加 serverId 和處理時間并放到 http header 中洲劣,通過 curl 去獲得后端信息和處理時間备蚓,采樣后生成報表。
后來改成通過 nginx 記錄 upstream 的 response time囱稽,采樣生成可視化數(shù)據(jù)郊尝。但由于 nginx 日志分布于不同的機器中,收集數(shù)據(jù)相對來講還是比較麻煩的战惊。
現(xiàn)在的監(jiān)控手段
配置
通過 Cloud Insight SDK 采集數(shù)據(jù)流昏,通過探針發(fā)送這些數(shù)據(jù)到后端服務器,后端服務器對數(shù)據(jù)進行處理,進行展示况凉。
真正操作起來很簡單谚鄙,安裝 Ci 探針,安裝 Python SDK刁绒,編輯代碼襟锐,調用系統(tǒng)命令,獲取 nginx膛锭,php 的?響應時間,從幾個響應時間中取最大值傳到 Cloud Insight 服務器蚊荣,探針默認 30s 抓取一次數(shù)據(jù)初狰,但我們又想每秒統(tǒng)計三次響應最慢的請求,所以寫一個定時執(zhí)行這個命令的腳本互例。
#!/usr/bin/env python
# -*- coding:utf8 -*-
import commands
import socket
from oneapm_ci_sdk import statsd
hostname = socket.gethostname()
error, result = commands.getstatusoutput(""" tail /opt/dataroot/nginx/access.log |grep "download" | awk -F '" "' '{print $7}' """)
if ( error == 0 ):
code = result.split("\n")
statsd.gauge('php_response_time.download.%s' % hostname, float( max(code) ) )
print 'php_response_time.%s : %04f' % ( hostname, float(max(code)) )
#獲取Nginx Upstream response time
* * * * * for i in $(seq 3); do sleep 15; python /opt/ci_check_php_response_time.py; done
部署好后奢入,可以在自定義數(shù)據(jù)儀表盤上看到應用數(shù)據(jù)。把這些自定義數(shù)據(jù)放在一張儀表盤上媳叨,后期可以直接打開這個自定義儀表盤來查看 php 的響應情況腥光,即使是多個不同服務器中的 nginx 消息也都可以放在一張圖表上,效果如下圖:
這樣儀表盤是配置完了糊秆,其實還可以設置報警策略武福,在一些指標超出范圍時觸發(fā)報警。
查看
依照平時使用習慣痘番,進入監(jiān)控界面捉片,首先第一眼就是各個平臺概覽,看看是不是都在正常運行汞舱,正常情況下圖標都應該是綠色的伍纫,如果變成紅色了就點進去看看,上面會有相應報錯昂芜。
上述平臺如果沒有問題莹规,就進入儀表盤頁面,首先左面是自定義儀表盤泌神,在這就可以查看之前配置的 php 的響應情況良漱,右面是平臺儀表盤,一般你系統(tǒng)監(jiān)控上什么就會自動出現(xiàn)相應的組件信息腻扇。
點擊查看業(yè)務數(shù)據(jù)的儀表盤债热,發(fā)現(xiàn)了一個 PHP 響應時間達到 5s 的異常紀錄,查看 Ai(Application Insight) 的 web 事務(web 事務默認會抓取響應超過 2s 的事務)幼苛,果然發(fā)現(xiàn)一個異常緩慢的事務窒篱,通過分析(代碼級監(jiān)控)確認問題,解決問題。
延伸
SDK 是 Cloud Insight 團隊根據(jù) StatsD 進行了修改墙杯,方便用戶上傳自定義指標配并,目前支持的數(shù)據(jù)格式有 Counters Gauges 2種,支持的語言有 Python Ruby Nodejs 3 種高镐,其他的 Java PHP 還在開發(fā)中溉旋。目前使用 SDK 的前提條件為需要安裝 Cloud Insight Agent。Agent 的采集周期為 30 s嫉髓,數(shù)據(jù)發(fā)送周期為 15 s观腊。
我們還將提供 Cloud Insight API,它擁有更加強大的功能算行,通過它可以不受任何約束的發(fā)送符合 Cloud Insight 數(shù)據(jù)格式標準的任意數(shù)據(jù)梧油,無論本機是否安裝了 Cloud Insight Agent,目前在開發(fā)中州邢。
總結
- 監(jiān)控服務器儡陨,簡單,一鍵安裝
- 監(jiān)控數(shù)據(jù)庫等組件量淌,簡單骗村,修改配置文件,重啟探針
- 監(jiān)控業(yè)務數(shù)據(jù)呀枢,依舊簡單胚股,使用 SDK
簡單列幾個有意思的 SDK 監(jiān)控應用:
- 監(jiān)控北京空氣質量 監(jiān)控不同地區(qū) PM2.5
- 監(jiān)控閉路電視的硬盤空間 github 上有項目
- 使用 Cloud Insight SDK 實現(xiàn) Druid 監(jiān)控 實現(xiàn)大數(shù)據(jù)監(jiān)控
參考文檔:
使用OneApm CI SDK實現(xiàn)業(yè)務響應速度監(jiān)控
Cloud Insight 集監(jiān)控、管理硫狞、計算信轿、協(xié)作、可視化于一身残吩,幫助所有 IT 公司财忽,減少在系統(tǒng)監(jiān)控上的人力和時間成本投入,讓運維工作更加高效泣侮、簡單即彪。想閱讀更多技術文章,請訪問 OneAPM 官方技術博客活尊。
本文轉自 OneAPM 官方博客