在不斷迭代的過(guò)程中讲竿,Cloud Insight 也很重視客戶(hù)對(duì)產(chǎn)品的使用體驗(yàn)票罐,這次我們拜訪了晨芯時(shí)代奈嘿,了解到他們?cè)谑褂?Cloud Insight 過(guò)程中對(duì)產(chǎn)品的一些想法庆聘。
客戶(hù)背景
晨芯時(shí)代是一家開(kāi)發(fā)電視盒子等產(chǎn)品的公司胜臊,由外包公司為其產(chǎn)品進(jìn)行服務(wù)器端開(kāi)發(fā),他們自身不在服務(wù)器開(kāi)發(fā)和系統(tǒng)運(yùn)維方面進(jìn)行特別大的投入伙判,因此選擇使用我們的產(chǎn)品 Cloud Insight——即 Ci象对,進(jìn)行服務(wù)器端的監(jiān)控。
晨芯時(shí)代一共搭建了9臺(tái)服務(wù)器(CentOS)宴抚,部署有 MySQL勒魔、Memcached甫煞、Nginx、Redis冠绢,使用 CI 監(jiān)控系統(tǒng)和除 Redis 外的其他三項(xiàng)服務(wù)抚吠。他們主要關(guān)注系統(tǒng)網(wǎng)絡(luò)與進(jìn)程的性能指標(biāo)。在使用 CI 之前一直使用 OneAPM Servers 監(jiān)控系統(tǒng)性能指標(biāo)弟胀。
Cloud Insight 采用 StatsD 的采集技術(shù)楷力,對(duì)接 MySQL、Redis孵户、MongoDB萧朝,以及 CentOS、RedHat 操作系統(tǒng)夏哭,利用 Hbase 存儲(chǔ)和 OpenTSDB 的數(shù)據(jù)聚合检柬、切片等功能,最終流向 Cloud Insight 進(jìn)行展現(xiàn)竖配。從而幫助優(yōu)絡(luò)時(shí)代實(shí)現(xiàn)低成本何址、高效的自動(dòng)化運(yùn)維。
面臨問(wèn)題
由于客戶(hù)是初創(chuàng)團(tuán)隊(duì)进胯,在人員和資源方面都比較不足头朱,且暫時(shí)并不打算在服務(wù)器端開(kāi)發(fā)和運(yùn)維方面投入太大的人力成本,因此需要一款優(yōu)秀的性能監(jiān)控工具幫助其提高在運(yùn)維方面的效率同時(shí)降低運(yùn)維成本龄减。
客戶(hù)之前使用 OneAPM Server 監(jiān)控主機(jī)服務(wù)器项钮,幫助其在遇到網(wǎng)路性能瓶頸與內(nèi)存占用率過(guò)高時(shí)更快的定位系統(tǒng)問(wèn)題,提高解決問(wèn)題的效率∠M#現(xiàn)在使用 OneAPM Cloud Insight 來(lái)更好的實(shí)現(xiàn)這一點(diǎn)烁巫。
解決方案
首先 Cloud Insight 通過(guò)拓?fù)鋱D讓用戶(hù)能夠直觀的看到集群結(jié)構(gòu),快速定位性能不佳的機(jī)器宠能。上帝視角管理主機(jī)亚隙,邏輯清晰而且方便。
通過(guò)平臺(tái)列表可以大致了解各個(gè) host 的基本性能情況违崇,包括實(shí)時(shí)狀態(tài)阿弃,CPU 占用率、I/O Wait羞延、搭載的平臺(tái)服務(wù)等信息渣淳。
由于客戶(hù)主要關(guān)注 System Networking 這一塊的性能,那么著重來(lái)看一下這一塊伴箩,總覽頁(yè)可以看到某個(gè)主機(jī)的實(shí)時(shí)運(yùn)行情況入愧,包括 disk io, network、CPU 等數(shù)據(jù)。而通過(guò)儀表盤(pán)我們可以看到多臺(tái)服務(wù)器的統(tǒng)計(jì)數(shù)據(jù)棺蛛,Cloud Insight 通過(guò)對(duì)數(shù)據(jù)進(jìn)行聚合與分組怔蚌,讓數(shù)據(jù)對(duì)客戶(hù)來(lái)說(shuō)更有意義。關(guān)于數(shù)據(jù)聚合與分組功能旁赊,可以參考文章 數(shù)據(jù)聚合 & 分組:新一代系統(tǒng)監(jiān)控的核心功能 桦踊。
通過(guò) Cloud Insight 監(jiān)控 System Networking 截圖如下:
而通過(guò) Memcached、Nginx终畅、Mysql 三個(gè)平臺(tái)各自的性能圖表钞钙,我們可以鎖定對(duì)系統(tǒng)性能產(chǎn)生影響的模塊,從而更好地明確優(yōu)化性能的方向声离。
客戶(hù)反饋
不足之處
- 儀表盤(pán)展現(xiàn)形式不夠豐富芒炼,全部指標(biāo)都是用折線圖來(lái)展示,不如之前 OneAPM Server 的展現(xiàn)形式直接易懂术徊。
- 指標(biāo)單位使用不符合用戶(hù)習(xí)慣本刽,例如客戶(hù)提到在網(wǎng)絡(luò)傳輸上他們一般習(xí)慣使用 bits 而我們提供的是 bytes,導(dǎo)致使用時(shí)混亂。
- 安裝平臺(tái)服務(wù)時(shí)不夠簡(jiǎn)化赠涮,希望安裝能夠?qū)崿F(xiàn)命令行化子寓。
- 指標(biāo)參數(shù)太復(fù)雜導(dǎo)致其不會(huì)使用自定義儀表盤(pán)。
- 整體使用感受不如之前 OneAPM Server 簡(jiǎn)單易用笋除,很多性能指標(biāo)需要進(jìn)行再次轉(zhuǎn)化才能得到客戶(hù)需要的結(jié)果斜友,客戶(hù)認(rèn)為不夠傻瓜化并沒(méi)有減少運(yùn)維人員的工作量。
而針對(duì)用戶(hù)提出的這些垃它,我們的想法是
- 我們會(huì)針對(duì)「System 總覽」這個(gè)儀表盤(pán)鲜屏,進(jìn)行優(yōu)化。添加排行榜国拇、位移圖洛史、狀態(tài)圖、曲線圖等多種展現(xiàn)形式酱吝,來(lái)提高可讀性也殖。而這些可視化的形式,未來(lái)會(huì)增加自定義的功能务热,滿(mǎn)足不同用戶(hù)的使用習(xí)慣忆嗜。
- 我們會(huì)在六月份前后提供單位的自定義功能。除此之外崎岂,也將在自定義儀表盤(pán)中捆毫,提供指標(biāo)的代數(shù)運(yùn)算。從而可以通過(guò)加減乘除该镣,來(lái)自行消除這樣的問(wèn)題冻璃。
- Cloud Insight 其實(shí)已經(jīng)是一行命令就可以安裝了响谓,大部分用戶(hù)都稱(chēng)贊我們的安裝非常簡(jiǎn)單损合。
- 指標(biāo)方面我們會(huì)提供自定義解釋字段的功能,增加指標(biāo)參數(shù)的解析引導(dǎo)幫助省艳,將指標(biāo)的單位修改為用戶(hù)習(xí)慣使用的單位,改進(jìn)用戶(hù)體驗(yàn)嫁审,提升產(chǎn)品的易用性跋炕。也希望有需求的用戶(hù)多閱讀官方文件和我們的文檔進(jìn)行學(xué)習(xí)。
- Cloud Insight 之所以沒(méi)有自動(dòng)發(fā)現(xiàn)平臺(tái)服務(wù)律适,是為了讓用戶(hù)通過(guò)配置辐烂,更加了解自己的技術(shù)棧從而實(shí)現(xiàn)更好的管理。
客戶(hù)對(duì) Cloud Insight 價(jià)值的認(rèn)可
- Cloud Insight 能夠更傻瓜化進(jìn)行性能監(jiān)控捂贿,監(jiān)控?cái)?shù)據(jù)全面纠修,界面優(yōu)美,極大地方便了對(duì)運(yùn)維有需求卻缺乏人力和資金的創(chuàng)業(yè)公司厂僧,是剛需產(chǎn)品扣草。
- 能夠監(jiān)測(cè)平臺(tái)服務(wù)的性能指標(biāo)是產(chǎn)品的亮點(diǎn)。
Cloud Insight 集監(jiān)控颜屠、管理辰妙、計(jì)算、協(xié)作甫窟、可視化于一身密浑,幫助所有 IT 公司,減少在系統(tǒng)監(jiān)控上的人力和時(shí)間成本投入粗井,讓運(yùn)維工作更加高效尔破、簡(jiǎn)單。
本文轉(zhuǎn)自 OneAPM 官方博客