引言(Introduction):從基礎(chǔ)概念出發(fā),手把手抒寫Linux CPU采集程序拔第,并在后面的一個章節(jié)里簡述經(jīng)常出現(xiàn)的問題痊硕。本文主要環(huán)境以centos 7 上進(jìn)行的一系列研究拌喉,其他版本Linux可能會有些出路速那,但總體思路不變。
1 基礎(chǔ)概念(Basic Concept)
1.1 Linux /proc/stat文件介紹 (Linux /proc/stat File Introduce)
????????在Linux系統(tǒng)中尿背,可以用/proc/stat文件來計(jì)算cpu的利用率端仰。這個文件包含了所有CPU活動的信息,該文件中的所有值都是從系統(tǒng)啟動開始累計(jì)到當(dāng)前時刻(換言之田藐,當(dāng)系統(tǒng)重啟荔烧,計(jì)數(shù)器將重置為0)。
? ? ? ??通過"file"命令可知坞淮,該文件并非普通文件茴晋,該文件為內(nèi)核緩沖區(qū)文件陪捷。而該文件的數(shù)據(jù)是實(shí)時變化的回窘,每次打開,內(nèi)容都存在差異市袖,下面我將帶領(lǐng)大家看該文件內(nèi)容結(jié)合http://www.linuxhowtos.org/manpages/5/proc.htm啡直,并給予對應(yīng)說明。
????????前面幾列以cpu開頭的每個邏輯cpu的單獨(dú)情況苍碟,從序號0開始酒觅,往后遞增,而第一行微峰,無序號的舷丹,為總情況,這些數(shù)據(jù)都是以clock_tick為單位記錄的蜓肆,這里的clock_tick在絕大多數(shù)機(jī)器上是1/100秒即10ms颜凯。對于特定的機(jī)器可以通過sysconf(_SC_CLK_TCK)函數(shù)來獲得clock_tick(ps: 這個函數(shù)屬于linux內(nèi)核中unistd.h文件中提供的方法谋币,運(yùn)行前需包含該庫文件);即前五行所表示的是:總CPU使用情況症概,和該機(jī)器的4顆邏輯CPU的分別情況蕾额。其他的具體的每一列信息為:
? ??cpu user nice system idle iowait irq softirq steal guest guest_nice
前五行具體說明(有時候未必是前五行,根據(jù)具體CPU邏輯數(shù)而定):
? ? ? ? user: 用戶態(tài)的CPU時間彼城。(Time spent in user mode)
? ? ? ? nice: 低優(yōu)先級程序所占用的用戶態(tài)的cpu時間诅蝶。(Time spent in user mode with low priority(nice))
????????system: 系統(tǒng)態(tài)的CPU時間。(Time spent in system mode)
????????idle: CPU空閑的時間募壕,不包含IO等待调炬。(Time spent in the idle task. This value should be USER_HZ times the second entry in the/proc/uptime?pseudo-file.)
????????iowait: 等待IO響應(yīng)的時間。(Time waiting for I/O to complete. This value is not reliable.)
????????irq: 處理硬件中斷的時間舱馅。(Time servicing interrupts)
? ? ????softirq: 處理軟中斷的時間筐眷。(Time servicing softirqs)
????????steal: 其他系統(tǒng)所花的時間。(Stolen time, which is the time spent in other operating systems when running in a virtualized environment)
????????guest: 運(yùn)行時間為客戶操作系統(tǒng)下的虛擬CPU控制习柠。(Time spent running a virtual CPU for guest operating systems under the control of the Linux kernel)
????????guest_nice: 低優(yōu)先級程序所占用的用戶態(tài)的cpu時間匀谣。(Time spent running a niced guest ,virtual CPU for guest operating systems under the control of the Linux kernel)
后面七行的具體說明:
? ??????intr:系統(tǒng)啟動以來的所有interrupts的次數(shù)情況资溃,每個數(shù)對應(yīng)一個特定的中斷自系統(tǒng)啟動以來所發(fā)生的次數(shù)武翎,可參考/proc/interrupt。(This line shows counts of interrupts serviced since boot time, for each of the possible system interrupts. The first column is the total of all interrupts serviced including unnumbered architecture specific interrupts; each subsequent column is the total for that particular numbered interrupt. Unnumbered interrupts are not shown, only summed into the total.)
????????ctxt: 系統(tǒng)上下文切換次數(shù)溶锭。(The number of context switches that the system underwent.)
????????btime:啟動時長(單位:秒)宝恶,從Epoch(即1970零時)開始到系統(tǒng)啟動所經(jīng)過的時長,每次啟動會改變趴捅。(boot time, in seconds since the Epoch, 1970-01-01 00:00:00 +0000 (UTC).)
????????processes:系統(tǒng)啟動后所創(chuàng)建過的進(jìn)程數(shù)量垫毙。(Number of forks since boot.)
????????procs_running:處于Runnable狀態(tài)的進(jìn)程個數(shù).(Number of processes in runnable state. (Linux 2.5.45 onward.))
????????procs_blocked:處于等待I/O完成的進(jìn)程個數(shù)。(Number of processes blocked waiting for I/O to complete.)
? ??????softirq:軟中斷情況拱绑,第一列表示所有CPU的軟中斷總和综芥,其他的幾列表示特定的軟中斷情況,具體參考/proc/softirq(This line shows the number of softirq for all CPUs. The first column is the total of all softirqs and each subsequent column is the total for particular softirq.)
1.2 CPU計(jì)算公式 (CPU Compute Formula)
? ??????
? ??????
? ??????
說明:
? ? ? ? /proc/stat時間一直在累積猎拨,所以可以在該秒獲取該文件內(nèi)容后膀藐,sleep 1000 下一秒再獲取該文件內(nèi)容,按照對應(yīng)公式红省,即可得出該秒內(nèi)CPU的平均時間情況额各。
2 實(shí)現(xiàn)說明 (Implement)
??按照第一章節(jié)說明,實(shí)際上我們只需要讀取第一行數(shù)據(jù)即可吧恃。
按照公式虾啦,拼接redis命令,單純存儲總時間和空閑時間,key為對應(yīng)的時間傲醉,value為總時間_空閑時間针饥。
獲取前一秒的數(shù)據(jù)和當(dāng)前秒的數(shù)據(jù),帶入該函數(shù)需频,獲得前一秒到該秒時間段的平均CPU利用率丁眼。
3 可能存在的問題說明 (Possible Problems)
3.1 重啟后導(dǎo)致CPU利用率不準(zhǔn)確 (Reboot Make CPU Percent Incorrect)
????說明:當(dāng)linux重啟后,CPU計(jì)數(shù)器置0昭殉,導(dǎo)致正常的公式無法被使用苞七。
? ? 解決方法:判斷時間更早的點(diǎn)總CPU時間是否小于現(xiàn)在的點(diǎn)的總CPU時間,如果不是挪丢,則剔除該點(diǎn)數(shù)據(jù)蹂风。
3.2 快照恢復(fù)后導(dǎo)致CPU利用率不準(zhǔn)確 (Snapshot Make CPU Percent Incorrect)
? ? 說明:快照恢復(fù)后實(shí)際做了兩件事:重啟+時間同步宿主機(jī),前者按照3.1的處理乾蓬,時間同步必須保證整個集群時間一致惠啄,否作會出現(xiàn)存入了01:00、01:02任内、01:03....02:00的數(shù)據(jù)撵渡,快照執(zhí)行完又回到了01:00的點(diǎn)開始采集數(shù)據(jù),且數(shù)據(jù)CPU時間無限兴类隆(因?yàn)橹貑⒘耍┣骶啵瑢?dǎo)致帶入公式計(jì)算01:00到02:00利用率存在問題。
? ? 解決方法:計(jì)算01:00到02:00該分鐘的利用率越除,將總CPU時間相減节腐,是否約等于1分鐘,如果不約等于1分鐘摘盆,則該時間段數(shù)據(jù)棄用翼雀。