每次發(fā)現(xiàn)系統(tǒng)變慢時(shí)圃庭,我們通常做的第一件事锄奢,就是執(zhí)行 top 或者 uptime 命令,來(lái)了解系統(tǒng)的負(fù)載情況剧腻。比如像下面這樣斟薇,我在命令行里輸入了 uptime 命令,系統(tǒng)也隨即給出了結(jié)果恕酸。
`$uptime
02:34:03 up 2 days, 20:14, 1 user, load average: 0.63, 0.83, 0.88
`
但我想問(wèn)的是堪滨,你真的知道這里每列輸出的含義嗎?
我相信你對(duì)前面的幾列比較熟悉蕊温,它們分別是當(dāng)前時(shí)間袱箱、系統(tǒng)運(yùn)行時(shí)間以及正在登錄用戶(hù)數(shù)。
`
02:34:03 // 當(dāng)前時(shí)間
up 2 days, 20:14 // 系統(tǒng)運(yùn)行時(shí)間
1 user // 正在登錄用戶(hù)數(shù)
`
而最后三個(gè)數(shù)字呢义矛,依次則是過(guò)去 1 分鐘发笔、5 分鐘、15 分鐘的平均負(fù)載(Load Average)凉翻。
平均負(fù)載了讨?這個(gè)詞對(duì)很多人來(lái)說(shuō),可能既熟悉又陌生,我們每天的工作中前计,也都會(huì)提到這個(gè)詞胞谭,但你真正理解它背后的含義嗎?如果你們團(tuán)隊(duì)來(lái)了一個(gè)實(shí)習(xí)生男杈,他揪住你不放丈屹,你能給他講清楚什么是平均負(fù)載嗎?
今天伶棒,我就帶你來(lái)學(xué)習(xí)下旺垒,如何觀(guān)測(cè)和理解這個(gè)最常見(jiàn)、也是最重要的系統(tǒng)指標(biāo)肤无。
我猜一定有人會(huì)說(shuō)先蒋,平均負(fù)載不就是單位時(shí)間內(nèi)的 CPU 使用率嗎?上面的 0.63宛渐,就代表 CPU 使用率是 63%鞭达。其實(shí)并不是這樣,如果你方便的話(huà)皇忿,可以通過(guò)執(zhí)行 man uptime 命令,來(lái)了解平均負(fù)載的詳細(xì)解釋坦仍。
簡(jiǎn)單來(lái)說(shuō)鳍烁,平均負(fù)載是指單位時(shí)間內(nèi),系統(tǒng)處于可運(yùn)行狀態(tài) 和不可中斷狀態(tài)的平均進(jìn)程數(shù)繁扎,也就是平均活躍進(jìn)程數(shù) 幔荒,它和 CPU 使用率并沒(méi)有直接關(guān)系。這里我先解釋下梳玫,可運(yùn)行狀態(tài)和不可中斷狀態(tài)這倆詞兒爹梁。
所謂可運(yùn)行狀態(tài)的進(jìn)程,是指正在使用 CPU 或者正在等待 CPU 的進(jìn)程提澎,也就是我們常用 ps 命令看到的姚垃,處于 R 狀態(tài)(Running 或 Runnable)的進(jìn)程。
不可中斷狀態(tài)的進(jìn)程則是正處于內(nèi)核態(tài)關(guān)鍵流程中的進(jìn)程盼忌,并且這些流程是不可打斷的积糯,比如最常見(jiàn)的是等待硬件設(shè)備的 I/O 響應(yīng),也就是我們?cè)?ps 命令中看到的 D 狀態(tài)(Uninterruptible Sleep谦纱,也稱(chēng)為 Disk Sleep)的進(jìn)程看成。
比如,當(dāng)一個(gè)進(jìn)程向磁盤(pán)讀寫(xiě)數(shù)據(jù)時(shí)跨嘉,為了保證數(shù)據(jù)的一致性川慌,在得到磁盤(pán)回復(fù)前,它是不能被其他進(jìn)程或者中斷打斷的,這個(gè)時(shí)候的進(jìn)程就處于不可中斷狀態(tài)梦重。如果此時(shí)的進(jìn)程被打斷了兑燥,就容易出現(xiàn)磁盤(pán)數(shù)據(jù)與進(jìn)程數(shù)據(jù)不一致的問(wèn)題。
所以忍饰,不可中斷狀態(tài)實(shí)際上是系統(tǒng)對(duì)進(jìn)程和硬件設(shè)備的一種保護(hù)機(jī)制
因此贪嫂,你可以簡(jiǎn)單理解為,平均負(fù)載其實(shí)就是平均活躍進(jìn)程數(shù)艾蓝。平均活躍進(jìn)程數(shù)力崇,直觀(guān)上的理解就是單位時(shí)間內(nèi)的活躍進(jìn)程數(shù),但它實(shí)際上是活躍進(jìn)程數(shù)的指數(shù)衰減平均值赢织。這個(gè)“指數(shù)衰減平均”的詳細(xì)含義你不用計(jì)較亮靴,這只是系統(tǒng)的一種更快速的計(jì)算方式,你把它直接當(dāng)成活躍進(jìn)程數(shù)的平均值也沒(méi)問(wèn)題于置。
既然平均的是活躍進(jìn)程數(shù)茧吊,那么最理想的,就是每個(gè) CPU 上都剛好運(yùn)行著一個(gè)進(jìn)程八毯,這樣每個(gè) CPU 都得到了充分利用搓侄。比如當(dāng)平均負(fù)載為 2 時(shí),意味著什么呢话速?
- 在只有 2 個(gè) CPU 的系統(tǒng)上讶踪,意味著所有的 CPU 都剛好被完全占用。
- 在 4 個(gè) CPU 的系統(tǒng)上泊交,意味著 CPU 有 50% 的空閑乳讥。
- 而在只有 1 個(gè) CPU 的系統(tǒng)中,則意味著有一半的進(jìn)程競(jìng)爭(zhēng)不到 CPU廓俭。
平均負(fù)載為多少時(shí)合理
講完了什么是平均負(fù)載云石,現(xiàn)在我們?cè)倩氐阶铋_(kāi)始的例子,不知道你能否判斷出研乒,在 uptime 命令的結(jié)果里汹忠,那三個(gè)時(shí)間段的平均負(fù)載數(shù),多大的時(shí)候能說(shuō)明系統(tǒng)負(fù)載高雹熬?或是多小的時(shí)候就能說(shuō)明系統(tǒng)負(fù)載很低呢错维?
我們知道,平均負(fù)載最理想的情況是等于 CPU 個(gè)數(shù)橄唬。所以在評(píng)判平均負(fù)載時(shí)赋焕,首先你要知道系統(tǒng)有幾個(gè) CPU ,這可以通過(guò) top 命令或者從文件 /proc/cpuinfo 中讀取仰楚,比如:
`# 關(guān)于 grep 和 wc 的用法請(qǐng)查詢(xún)它們的手冊(cè)或者網(wǎng)絡(luò)搜索
$ grep 'model name' /proc/cpuinfo | wc -l
2
`
有了 CPU 個(gè)數(shù)隆判,我們就可以判斷出犬庇,當(dāng)平均負(fù)載比 CPU 個(gè)數(shù)還大的時(shí)候,系統(tǒng)已經(jīng)出現(xiàn)了過(guò)載侨嘀。
不過(guò)臭挽,且慢,新的問(wèn)題又來(lái)了咬腕。我們?cè)诶又锌梢钥吹交斗澹骄?fù)載有三個(gè)數(shù)值,到底該參考哪一個(gè)呢涨共?
實(shí)際上纽帖,都要看。三個(gè)不同時(shí)間間隔的平均值举反,其實(shí)給我們提供了懊直,分析系統(tǒng)負(fù)載趨勢(shì)的數(shù)據(jù)來(lái)源,讓我們能更全面火鼻、更立體地理解目前的負(fù)載狀況室囊。
打個(gè)比方,就像初秋時(shí)北京的天氣魁索,如果只看中午的溫度融撞,你可能以為還在 7 月份的大夏天呢。但如果你結(jié)合了早上粗蔚、中午尝偎、晚上三個(gè)時(shí)間點(diǎn)的溫度來(lái)看,基本就可以全方位了解這一天的天氣情況了支鸡。
同樣的,前面說(shuō)到的 CPU 的三個(gè)負(fù)載時(shí)間段也是這個(gè)道理趁窃。
- 如果 1 分鐘牧挣、5 分鐘、15 分鐘的三個(gè)值基本相同醒陆,或者相差不大瀑构,那就說(shuō)明系統(tǒng)負(fù)載很平穩(wěn)。
- 但如果 1 分鐘的值遠(yuǎn)小于 15 分鐘的值刨摩,就說(shuō)明系統(tǒng)最近 1 分鐘的負(fù)載在減少寺晌,而過(guò)去 15 分鐘內(nèi)卻有很大的負(fù)載。
- 反過(guò)來(lái)澡刹,如果 1 分鐘的值遠(yuǎn)大于 15 分鐘的值呻征,就說(shuō)明最近 1 分鐘的負(fù)載在增加,這種增加有可能只是臨時(shí)性的罢浇,也有可能還會(huì)持續(xù)增加下去陆赋,所以就需要持續(xù)觀(guān)察沐祷。一旦 1 分鐘的平均負(fù)載接近或超過(guò)了 CPU 的個(gè)數(shù),就意味著系統(tǒng)正在發(fā)生過(guò)載的問(wèn)題攒岛,這時(shí)就得分析調(diào)查是哪里導(dǎo)致的問(wèn)題赖临,并要想辦法優(yōu)化了。
這里我再舉個(gè)例子灾锯,假設(shè)我們?cè)谝粋€(gè)單 CPU 系統(tǒng)上看到平均負(fù)載為 1.73兢榨,0.60,7.98顺饮,那么說(shuō)明在過(guò)去 1 分鐘內(nèi)吵聪,系統(tǒng)有 73% 的超載,而在 15 分鐘內(nèi)领突,有 698% 的超載暖璧,從整體趨勢(shì)來(lái)看,系統(tǒng)的負(fù)載在降低。
那么茵休,在實(shí)際生產(chǎn)環(huán)境中蘑志,平均負(fù)載多高時(shí),需要我們重點(diǎn)關(guān)注呢局蚀?
在我看來(lái),當(dāng)平均負(fù)載高于 CPU 數(shù)量 70% 的時(shí)候 恕稠,你就應(yīng)該分析排查負(fù)載高的問(wèn)題了琅绅。一旦負(fù)載過(guò)高,就可能導(dǎo)致進(jìn)程響應(yīng)變慢鹅巍,進(jìn)而影響服務(wù)的正常功能千扶。
但 70% 這個(gè)數(shù)字并不是絕對(duì)的,最推薦的方法骆捧,還是把系統(tǒng)的平均負(fù)載監(jiān)控起來(lái)澎羞,然后根據(jù)更多的歷史數(shù)據(jù),判斷負(fù)載的變化趨勢(shì)敛苇。當(dāng)發(fā)現(xiàn)負(fù)載有明顯升高趨勢(shì)時(shí)妆绞,比如說(shuō)負(fù)載翻倍了,你再去做分析和調(diào)查枫攀。
平均負(fù)載與 CPU 使用率
現(xiàn)實(shí)工作中括饶,我們經(jīng)常容易把平均負(fù)載和 CPU 使用率混淆,所以在這里来涨,我也做一個(gè)區(qū)分图焰。
可能你會(huì)疑惑,既然平均負(fù)載代表的是活躍進(jìn)程數(shù)蹦掐,那平均負(fù)載高了楞泼,不就意味著 CPU 使用率高嗎驰徊?
我們還是要回到平均負(fù)載的含義上來(lái),平均負(fù)載是指單位時(shí)間內(nèi)堕阔,處于可運(yùn)行狀態(tài)和不可中斷狀態(tài)的進(jìn)程數(shù)棍厂。所以,它不僅包括了
而 CPU 使用率超陆,是單位時(shí)間內(nèi) CPU 繁忙情況的統(tǒng)計(jì)牺弹,跟平均負(fù)載并不一定完全對(duì)應(yīng)。比如:
- 而 CPU 使用率时呀,是單位時(shí)間內(nèi) CPU 繁忙情況的統(tǒng)計(jì)张漂,跟平均負(fù)載并不一定完全對(duì)應(yīng)。比如:
- I/O 密集型進(jìn)程谨娜,等待 I/O 也會(huì)導(dǎo)致平均負(fù)載升高航攒,但 CPU 使用率不一定很高;
- 大量等待 CPU 的進(jìn)程調(diào)度也會(huì)導(dǎo)致平均負(fù)載升高趴梢,此時(shí)的 CPU 使用率也會(huì)比較高漠畜。
平均負(fù)載案例分析
下面,我們以三個(gè)示例分別來(lái)看這三種情況坞靶,并用 iostat憔狞、mpstat、pidstat 等工具彰阴,找出平均負(fù)載升高的根源瘾敢。
因?yàn)榘咐治龆际腔跈C(jī)器上的操作,所以不要只是聽(tīng)聽(tīng)尿这、看看就夠了簇抵,最好還是跟著我實(shí)際操作一下。
你的準(zhǔn)備
下面的案例都是基于 Ubuntu 18.04射众,當(dāng)然碟摆,同樣適用于其他 Linux 系統(tǒng)。我使用的案例環(huán)境如下所示责球。
- 機(jī)器配置:2 CPU焦履,8GB 內(nèi)存拓劝。
- 預(yù)先安裝 stress 和 sysstat 包雏逾,如 apt install stress sysstat。
在這里郑临,我先簡(jiǎn)單介紹一下 stress 和 sysstat栖博。
stress 是一個(gè) Linux 系統(tǒng)壓力測(cè)試工具,這里我們用作異常進(jìn)程模擬平均負(fù)載升高的場(chǎng)景厢洞。
而 sysstat 包含了常用的 Linux 性能工具仇让,用來(lái)監(jiān)控和分析系統(tǒng)的性能典奉。我們的案例會(huì)用到這個(gè)包的兩個(gè)命令 mpstat 和 pidstat。
- mpstat 是一個(gè)常用的多核 CPU 性能分析工具丧叽,用來(lái)實(shí)時(shí)查看每個(gè) CPU 的性能指標(biāo)卫玖,以及所有 CPU 的平均指標(biāo)。
- pidstat 是一個(gè)常用的進(jìn)程性能分析工具踊淳,用來(lái)實(shí)時(shí)查看進(jìn)程的 CPU假瞬、內(nèi)存、I/O 以及上下文切換等性能指標(biāo)迂尝。
此外脱茉,每個(gè)場(chǎng)景都需要你開(kāi)三個(gè)終端,登錄到同一臺(tái) Linux 機(jī)器中垄开。
實(shí)驗(yàn)之前琴许,你先做好上面的準(zhǔn)備。如果包的安裝有問(wèn)題溉躲,可以先在 Google 一下自行解決榜田,如果還是解決不了,再來(lái)留言區(qū)找我签财,這事兒應(yīng)該不難串慰。
另外要注意,下面的所有命令唱蒸,我們都是默認(rèn)以 root 用戶(hù)運(yùn)行邦鲫。所以,如果你是用普通用戶(hù)登陸的系統(tǒng)神汹,一定要先運(yùn)行 sudo su root 命令切換到 root 用戶(hù)庆捺。
如果上面的要求都已經(jīng)完成了,你可以先用 uptime 命令屁魏,看一下測(cè)試前的平均負(fù)載情況:
`$uptame
..., load average: 0.11, 0.15, 0.09
`
場(chǎng)景一:CPU 密集型進(jìn)程
首先滔以,我們?cè)诘谝粋€(gè)終端運(yùn)行 stress 命令,模擬一個(gè) CPU 使用率 100% 的場(chǎng)景:
`$ stress --cpu 1 --timeout 600
`
接著氓拼,在第二個(gè)終端運(yùn)行 uptime 查看平均負(fù)載的變化情況:
`
# -d 參數(shù)表示高亮顯示變化的區(qū)域
$ watch -d uptime
..., load average: 1.00, 0.75, 0.39
`
最后你画,在第三個(gè)終端運(yùn)行 mpstat 查看 CPU 使用率的變化情況:
`# -P ALL 表示監(jiān)控所有 CPU,后面數(shù)字 5 表示間隔 5 秒后輸出一組數(shù)據(jù)
$ mpstat -P ALL 5
Linux 4.15.0 (ubuntu) 09/22/18 _x86_64_ (2 CPU)
13:30:06 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
13:30:11 all 50.05 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 49.95
13:30:11 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
13:30:11 1 100.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
`
從終端二中可以看到桃漾,1 分鐘的平均負(fù)載會(huì)慢慢增加到 1.00坏匪,而從終端三中還可以看到,正好有一個(gè) CPU 的使用率為 100%撬统,但它的 iowait 只有 0适滓。這說(shuō)明,平均負(fù)載的升高正是由于 CPU 使用率為 100% 恋追。
那么凭迹,到底是哪個(gè)進(jìn)程導(dǎo)致了 CPU 使用率為 100% 呢罚屋?你可以使用 pidstat 來(lái)查詢(xún):
`# 間隔 5 秒后輸出一組數(shù)據(jù)
$ pidstat -u 5 1
13:37:07 UID PID %usr %system %guest %wait %CPU CPU Command
13:37:12 0 2962 100.00 0.00 0.00 0.00 100.00 1 stress
`
從這里可以明顯看到,stress 進(jìn)程的 CPU 使用率為 100%嗅绸。
場(chǎng)景二:I/O 密集型進(jìn)程
首先還是運(yùn)行 stress 命令脾猛,但這次模擬 I/O 壓力,即不停地執(zhí)行 sync:
`$stress -i 1 --timeout 600
`
還是在第二個(gè)終端運(yùn)行 uptime 查看平均負(fù)載的變化情況:
`$watch -d uptime
..., load average: 1.06, 0.58, 0.37
`
然后鱼鸠,第三個(gè)終端運(yùn)行 mpstat 查看 CPU 使用率的變化情況:
`# 顯示所有 CPU 的指標(biāo)尖滚,并在間隔 5 秒輸出一組數(shù)據(jù)
$ mpstat -P ALL 5 1
Linux 4.15.0 (ubuntu) 09/22/18 _x86_64_ (2 CPU)
13:41:28 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle
13:41:33 all 0.21 0.00 12.07 32.67 0.00 0.21 0.00 0.00 0.00 54.84
13:41:33 0 0.43 0.00 23.87 67.53 0.00 0.43 0.00 0.00 0.00 7.74
13:41:33 1 0.00 0.00 0.81 0.20 0.00 0.00 0.00 0.00 0.00 98.99
`
從這里可以看到,1 分鐘的平均負(fù)載會(huì)慢慢增加到 1.06瞧柔,其中一個(gè) CPU 的系統(tǒng) CPU 使用率升高到了 23.87漆弄,而 iowait 高達(dá) 67.53%。這說(shuō)明造锅,平均負(fù)載的升高是由于 iowait 的升高撼唾。
那么到底是哪個(gè)進(jìn)程,導(dǎo)致 iowait 這么高呢哥蔚?我們還是用 pidstat 來(lái)查詢(xún):
`# 間隔 5 秒后輸出一組數(shù)據(jù)倒谷,-u 表示 CPU 指標(biāo)
$ pidstat -u 5 1
Linux 4.15.0 (ubuntu) 09/22/18 _x86_64_ (2 CPU)
13:42:08 UID PID %usr %system %guest %wait %CPU CPU Command
13:42:13 0 104 0.00 3.39 0.00 0.00 3.39 1 kworker/1:1H
13:42:13 0 109 0.00 0.40 0.00 0.00 0.40 0 kworker/0:1H
13:42:13 0 2997 2.00 35.53 0.00 3.99 37.52 1 stress
13:42:13 0 3057 0.00 0.40 0.00 0.00 0.40 0 pidstat
`
可以發(fā)現(xiàn),還是 stress 進(jìn)程導(dǎo)致的糙箍。
場(chǎng)景三:大量進(jìn)程的場(chǎng)景###
當(dāng)系統(tǒng)中運(yùn)行進(jìn)程超出 CPU 運(yùn)行能力時(shí)渤愁,就會(huì)出現(xiàn)等待 CPU 的進(jìn)程。
比如深夯,我們還是使用 stress抖格,但這次模擬的是 8 個(gè)進(jìn)程:
`$stress -c 8 --timeout 600
`
由于系統(tǒng)只有 2 個(gè) CPU,明顯比 8 個(gè)進(jìn)程要少得多咕晋,因而雹拄,系統(tǒng)的 CPU 處于嚴(yán)重過(guò)載狀態(tài),平均負(fù)載高達(dá) 7.97:
`$uptime
..., load average: 7.97, 5.93, 3.02
`
接著再運(yùn)行 pidstat 來(lái)看一下進(jìn)程的情況:
`# 間隔 5 秒后輸出一組數(shù)據(jù)
$ pidstat -u 5 1
14:23:25 UID PID %usr %system %guest %wait %CPU CPU Command
14:23:30 0 3190 25.00 0.00 0.00 74.80 25.00 0 stress
14:23:30 0 3191 25.00 0.00 0.00 75.20 25.00 0 stress
14:23:30 0 3192 25.00 0.00 0.00 74.80 25.00 1 stress
14:23:30 0 3193 25.00 0.00 0.00 75.00 25.00 1 stress
14:23:30 0 3194 24.80 0.00 0.00 74.60 24.80 0 stress
14:23:30 0 3195 24.80 0.00 0.00 75.00 24.80 0 stress
14:23:30 0 3196 24.80 0.00 0.00 74.60 24.80 1 stress
14:23:30 0 3197 24.80 0.00 0.00 74.80 24.80 1 stress
14:23:30 0 3200 0.00 0.20 0.00 0.20 0.20 0 pidstat
`
可以看出掌呜,8 個(gè)進(jìn)程在爭(zhēng)搶 2 個(gè) CPU滓玖,每個(gè)進(jìn)程等待 CPU 的時(shí)間(也就是代碼塊中的 %wait 列)高達(dá) 75%。這些超出 CPU 計(jì)算能力的進(jìn)程质蕉,最終導(dǎo)致 CPU 過(guò)載势篡。
小結(jié)
分析完這三個(gè)案例,我再來(lái)歸納一下平均負(fù)載的理解
平均負(fù)載提供了一個(gè)快速查看系統(tǒng)整體性能的手段模暗,反映了整體的負(fù)載情況禁悠。但只看平均負(fù)載本身,我們并不能直接發(fā)現(xiàn)汰蓉,到底是哪里出現(xiàn)了瓶頸绷蹲。所以棒卷,在理解平均負(fù)載時(shí)顾孽,也要注意:
- 平均負(fù)載高有可能是 CPU 密集型進(jìn)程導(dǎo)致的祝钢;
- 平均負(fù)載高并不一定代表 CPU 使用率高,還有可能是 I/O 更繁忙了若厚;
- 當(dāng)發(fā)現(xiàn)負(fù)載高的時(shí)候拦英,你可以使用 mpstat、pidstat 等工具测秸,輔助分析負(fù)載的來(lái)源疤估。
- 郵箱:ithelei@sina.cn
- 技術(shù)討論群:687856230
- GoodLuck
- 02