在對(duì)互聯(lián)網(wǎng)服務(wù)進(jìn)行服務(wù)端性能測(cè)試時(shí)经伙,主要關(guān)注兩方面的性能指標(biāo):
- 業(yè)務(wù)指標(biāo):如吞吐量(QPS础锐、TPS)嗓节、響應(yīng)時(shí)間(RT)荧缘、并發(fā)數(shù)皆警、業(yè)務(wù)成功率等
-
資源指標(biāo):如CPU、內(nèi)存截粗、Disk I/O信姓、Network I/O等資源的消耗情況
本文主要介紹一些廣泛適用的、基本的資源指標(biāo)以及這些指標(biāo)在Linux服務(wù)器的獲取方式绸罗。
一. CPU
關(guān)于CPU資源意推,有三個(gè)重要概念是我們需要關(guān)注的:使用率、運(yùn)行隊(duì)列和上下文切換珊蟀,這里借助一張描述進(jìn)程狀態(tài)的圖來(lái)進(jìn)行簡(jiǎn)要說(shuō)明:
- Running:正在運(yùn)行的進(jìn)程
- Waiting:已準(zhǔn)備就緒菊值,等待運(yùn)行的進(jìn)程
- Blocked:因?yàn)榈却承┦录瓿啥枞倪M(jìn)程,通常是在等待I/O育灸,如Disk I/O腻窒,Network I/O等。
這里的Running和Waiting共同構(gòu)成Linux進(jìn)程狀態(tài)中的可運(yùn)行狀態(tài)(task_running)磅崭,而B(niǎo)locked狀態(tài)可以對(duì)應(yīng)Linux進(jìn)程狀態(tài)中的不可中斷睡眠狀態(tài)(task_uninterruptible)
在Linux可以使用vmstat來(lái)獲取這些數(shù)據(jù):
[hbase@ecs-097 ~]$ vmstat 1
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
6 0 0 4591436 176804 1185380 0 0 0 0 7915 10357 83 5 12 0 0
CPU使用率(CPU Utilization Percentages):有進(jìn)程處于Running狀態(tài)的時(shí)間/總時(shí)間儿子。在vmstat主要通過(guò)us、sys和id三列數(shù)據(jù)來(lái)體現(xiàn):
- us:用戶(hù)占用CPU的百分比
- sy:系統(tǒng)(內(nèi)核和中斷)占用CPU的百分比
- id:CPU空閑的百分比
性能測(cè)試指標(biāo)中砸喻,CPU使用率通常用us + sy來(lái)計(jì)算柔逼,其可接受上限通常在70%~80%。另外需要注意的是割岛,在測(cè)試過(guò)程中愉适,如果sy的值長(zhǎng)期大于25%,應(yīng)該關(guān)注in(系統(tǒng)中斷)和cs(上下文切換)的數(shù)值癣漆,并根據(jù)被測(cè)應(yīng)用的實(shí)現(xiàn)邏輯來(lái)分析是否合理维咸。
運(yùn)行隊(duì)列進(jìn)程數(shù)(Processes on run queue):Running狀態(tài) + Waiting狀態(tài)的進(jìn)程數(shù),展示了正在運(yùn)行和等待CPU資源的任務(wù)數(shù),可以看作CPU的工作清單腰湾,是判斷CPU資源是否成為瓶頸的重要依據(jù)雷恃。vmstat通過(guò)r的值來(lái)體現(xiàn):
- r: 可運(yùn)行進(jìn)程數(shù),包括正在運(yùn)行(Running)和已就緒等待運(yùn)行(Waiting)的费坊。
如果r的值等于系統(tǒng)CPU總核數(shù)倒槐,則說(shuō)明CPU已經(jīng)滿(mǎn)負(fù)荷。在負(fù)載測(cè)試中附井,其可接受上限通常不超過(guò)CPU核數(shù)的2倍讨越。
上下文切換(Context Switches):簡(jiǎn)單來(lái)說(shuō),context指CPU寄存器和程序計(jì)數(shù)器在某時(shí)間點(diǎn)的內(nèi)容永毅,(進(jìn)程)上下文切換即kernel掛起一個(gè)進(jìn)程并將該進(jìn)程此時(shí)的狀態(tài)存儲(chǔ)到內(nèi)存把跨,然后從內(nèi)存中恢復(fù)下一個(gè)要執(zhí)行的進(jìn)程原來(lái)的狀態(tài)到寄存器,從其上次暫停的執(zhí)行代碼開(kāi)始繼續(xù)執(zhí)行至頻繁的上下文切換將導(dǎo)致sy值增長(zhǎng)沼死。vmstat通過(guò)cs的值來(lái)體現(xiàn):
- cs:每秒上下文切換次數(shù)着逐。
另外還有一個(gè)指標(biāo)用來(lái)作為系統(tǒng)在一段時(shí)間內(nèi)的負(fù)載情況的參考:
平均負(fù)載Load Average:在UNIX系統(tǒng)中,Load是對(duì)系統(tǒng)工作量的度量意蛀。Load取值有兩種情況耸别,多數(shù)UNIX系統(tǒng)取運(yùn)行隊(duì)列的值(vmstat輸出的r),而Linux系統(tǒng)取運(yùn)行隊(duì)列的值 + 處于task_uninterruptible狀態(tài)的進(jìn)程數(shù)(vmstat輸出的b)**县钥,所以會(huì)出現(xiàn)CPU使用率不高但Load值很高的情況秀姐。Load Average就是在一段時(shí)間內(nèi)的平均負(fù)載,系統(tǒng)工具top若贮、uptime等提供1分鐘省有、5分鐘和15分鐘的平均負(fù)載值。
[hbase@ecs-097 ~]$ top
top - 19:23:28 up 18:05, 3 users, load average: 0.80, 0.60, 0.53
上面示例中的0.80即是1分鐘內(nèi)的Load average谴麦,以此類(lèi)推蠢沿。
當(dāng)我們需要了解當(dāng)前系統(tǒng)負(fù)載情況時(shí),可以先查看Load average的值细移,如果系統(tǒng)持續(xù)處于高負(fù)載(如15分鐘平均負(fù)載大于CPU總核數(shù)的兩倍)搏予,則查看vmstat的r值和b值來(lái)確認(rèn)是CPU負(fù)荷重還是等待I/O的進(jìn)程太多。
二. Memory
Memory資源也有三方面需要關(guān)注:可用內(nèi)存弧轧,swap占用雪侥,頁(yè)面交換(Paging),仍然借助一張圖來(lái)說(shuō)明:
這里講到的內(nèi)存精绎,包括物理內(nèi)存和虛擬內(nèi)存速缨,如上圖所示,物理內(nèi)存和硬盤(pán)上的一塊空間(SWAP)組合起來(lái)作為虛擬內(nèi)存(Virtual Memory)為進(jìn)程的運(yùn)行提供一個(gè)連續(xù)的內(nèi)存空間代乃,這樣的好處是進(jìn)程可用的內(nèi)存變大了旬牲,但需要注意的是仿粹,SWAP的讀寫(xiě)速度遠(yuǎn)低于物理內(nèi)存,并且物理內(nèi)存和swap之間的數(shù)據(jù)交換會(huì)增加系統(tǒng)負(fù)擔(dān)原茅。虛擬內(nèi)存被分成頁(yè)(x86系統(tǒng)默認(rèn)頁(yè)大小為4k)吭历,內(nèi)核讀寫(xiě)虛擬內(nèi)存以頁(yè)為單位,當(dāng)物理內(nèi)存空間不足時(shí)擂橘,內(nèi)存調(diào)度會(huì)將物理內(nèi)存上不常使用的內(nèi)存頁(yè)數(shù)據(jù)存儲(chǔ)到磁盤(pán)的SWAP空間晌区,物理內(nèi)存與swap空間之間的數(shù)據(jù)交換過(guò)程稱(chēng)為頁(yè)面交換(Paging)。
可用內(nèi)存(free memory):內(nèi)存占用的直觀(guān)數(shù)據(jù)通贞,vmstat輸出free的值朗若,可用內(nèi)存過(guò)小將影響整個(gè)系統(tǒng)的運(yùn)行效率,對(duì)于穩(wěn)定運(yùn)行的系統(tǒng)昌罩,free可接受的范圍通常應(yīng)該大于物理內(nèi)存的20%哭懈,即內(nèi)存占用應(yīng)該小于物理內(nèi)存的80%。在壓力測(cè)試時(shí)茎用,系統(tǒng)內(nèi)存資源的情況應(yīng)該用可用內(nèi)存結(jié)合頁(yè)面交換情況來(lái)判斷遣总,如果可以?xún)?nèi)存很少,但頁(yè)面交換也很少绘搞,此時(shí)可以認(rèn)為內(nèi)存資源還對(duì)系統(tǒng)性能構(gòu)成嚴(yán)重影響彤避。
頁(yè)面交換(Paging):頁(yè)面交換包括從SWAP交換到內(nèi)存和從內(nèi)存交換到SWAP,如果系統(tǒng)出現(xiàn)頻繁的頁(yè)面交換夯辖,需要引起注意《危可以從vmstat的si和so獲容锕印:
- si:每秒從SWAP讀取到內(nèi)存的數(shù)據(jù)大小
- so:每秒從內(nèi)存寫(xiě)入到SWAP的數(shù)據(jù)大小
SWAP空間占用:可以從vmstat的swpd來(lái)獲取當(dāng)前SWAP空間的使用情況,應(yīng)該和頁(yè)面交換結(jié)合來(lái)分析卒暂,比如當(dāng)swpd不為0啄栓,但si,so持續(xù)保持為0時(shí)也祠,內(nèi)存資源并沒(méi)有成為系統(tǒng)的瓶頸昙楚。
三. Disk
磁盤(pán)通常是系統(tǒng)中最慢的一環(huán),一是其自身速度慢诈嘿,即使是SSD堪旧,其讀寫(xiě)速度與內(nèi)存都還存在數(shù)量級(jí)的差距,二是其離CPU最遠(yuǎn)奖亚。另外需要說(shuō)明的是磁盤(pán)IO分為隨機(jī)IO和順序IO兩種類(lèi)型淳梦,在性能測(cè)試中應(yīng)該先了解被測(cè)系統(tǒng)是偏向哪種類(lèi)型。
- 隨機(jī)IO:隨機(jī)讀寫(xiě)數(shù)據(jù)昔字,讀寫(xiě)請(qǐng)求多爆袍,每次讀寫(xiě)的數(shù)據(jù)量較小,其IO速度更依賴(lài)于磁盤(pán)每秒能IO次數(shù)(IOPS)。
- 順序IO:順序請(qǐng)求大量數(shù)據(jù)陨囊,讀寫(xiě)請(qǐng)求個(gè)數(shù)相對(duì)較少弦疮,每次讀寫(xiě)的數(shù)據(jù)量較大,順序IO更重視每次IO的數(shù)據(jù)吞吐量蜘醋。
對(duì)于磁盤(pán)挂捅,首要關(guān)注使用率,IOPS和數(shù)據(jù)吞吐量堂湖,在Linux服務(wù)區(qū)闲先,可以使用iostat來(lái)獲取這些數(shù)據(jù)。
[hbase@ecs-097 ~]$ iostat -dxk 1
Linux 2.6.32-504.3.3.el6.x86_64 (ecs-097) 08/01/2016 _x86_64_ (4 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.52 0.00 0.13 0.06 0.00 99.28
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await svctm %util
xvda 0.10 6.63 0.40 2.57 6.22 36.80 29.00 0.04 14.63 1.19 0.35
(設(shè)備)使用率:統(tǒng)計(jì)過(guò)程中處理I/O請(qǐng)求的時(shí)間與統(tǒng)計(jì)時(shí)間的百分比无蜂,即iostat輸出中的%util伺糠,如果該值大于60%,很可能降低系統(tǒng)的性能表現(xiàn)斥季。
IOPS:每秒處理讀/寫(xiě)請(qǐng)求的數(shù)量训桶,即iostat輸出中的r/s和w/s,個(gè)人PC的機(jī)械硬盤(pán)IOPS一般在100左右酣倾,而各種公有云/私有云的普通服務(wù)器舵揭,也只在百這個(gè)數(shù)量級(jí)。預(yù)先獲取到所用服務(wù)區(qū)的IOPS能力躁锡,然后在性能測(cè)試中監(jiān)控試試的IOPS數(shù)據(jù)午绳,來(lái)衡量當(dāng)前的磁盤(pán)是否能滿(mǎn)足系統(tǒng)的IO需求。
數(shù)據(jù)吞吐量:每秒讀/寫(xiě)的數(shù)據(jù)大小映之,即iostat輸出中的rkB/s和wkB/s拦焚,通常磁盤(pán)的數(shù)據(jù)吞吐量與IO類(lèi)型有直接關(guān)系,順序IO的吞吐能力明顯優(yōu)與隨機(jī)讀寫(xiě)杠输,可以預(yù)先測(cè)得磁盤(pán)在隨機(jī)IO和順序IO下的吞吐量赎败,以便于測(cè)試時(shí)監(jiān)控到的數(shù)據(jù)進(jìn)行比較衡量。
四. Network
網(wǎng)絡(luò)本身是系統(tǒng)中一個(gè)非常復(fù)雜的部分蠢甲,但常規(guī)的服務(wù)端性能測(cè)試通常放在一個(gè)局域網(wǎng)進(jìn)行僵刮,因?yàn)槲覀兪紫汝P(guān)注被測(cè)系統(tǒng)自身的性能表現(xiàn),并且需要保證能在較少的成本下發(fā)起足夠大的壓力鹦牛。因此對(duì)于多數(shù)系統(tǒng)的性能測(cè)試搞糕,我們主要關(guān)注網(wǎng)絡(luò)吞吐量即可,對(duì)于穩(wěn)定運(yùn)行的系統(tǒng)能岩,需要為被測(cè)場(chǎng)景外的業(yè)務(wù)流出足夠的帶寬寞宫;在壓力測(cè)試過(guò)程中,需要注意瓶頸可能來(lái)自于帶寬拉鹃。
在Linuxf服務(wù)器辈赋,可以使用iptraf來(lái)查看本機(jī)網(wǎng)絡(luò)吞吐量鲫忍,如:
[root@ecs-097 ~]# iptraf -d eth0
x Total rates: 67.8 kbits/sec Broadcast packets: 0 x
x 54.2 packets/sec Broadcast bytes: 0 x
x x
x Incoming rates: 19.2 kbits/sec x
x 25.4 packets/sec x
x IP checksum errors: 0 x
x Outgoing rates: 48.7 kbits/sec x
x 28.8 packets/sec
五. 總結(jié)
性能測(cè)試中,數(shù)據(jù)收集很重要钥屈,但是更重要的是快速抓住關(guān)鍵數(shù)據(jù)悟民,讀懂?dāng)?shù)據(jù)的含義。
本文主要介紹服務(wù)端性能測(cè)試中篷就,對(duì)于CPU射亏、內(nèi)存等各種系統(tǒng)資源,通常首要關(guān)注的數(shù)據(jù)竭业,以及這些數(shù)據(jù)在Linux服務(wù)器上的獲取方式智润。
在實(shí)際測(cè)試中,通常會(huì)持續(xù)收集這些數(shù)據(jù)未辆,如使用nmon窟绷,JMeter的PerfMon插件,以及zabbix等專(zhuān)門(mén)的系統(tǒng)監(jiān)控工具咐柜,這就不在本文展開(kāi)了兼蜈。
References
Load (computing)
Process state
Linux Performance Analysis in 60,000 Milliseconds