前言
I/O Wait是一個(gè)需要使用高級(jí)的工具來debug問題原因儡陨,當(dāng)然也有許多基本工具的高級(jí)用法驶悟。I/O wait的問題難以定位的原因是:因?yàn)槲覀冇泻芏喙ぞ呖梢愿嬖V你I/O 受限了,但是并沒有告訴你具體是哪個(gè)進(jìn)程引起的邮辽。
1. 如何確認(rèn),是否是I/O問題導(dǎo)致系統(tǒng)緩慢
確認(rèn)是否是I/O導(dǎo)致的系統(tǒng)緩慢我們可以使用多個(gè)命令,但是镐躲,最簡單的是unix的命令 top
# top
top - 14:31:20 up 35 min, 4 users, load average: 2.25, 1.74, 1.68
Tasks: 71 total, 1 running, 70 sleeping, 0 stopped, 0 zombie
Cpu(s): 2.3%us, 1.7%sy, 0.0%ni, 0.0%id, 96.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 245440k total, 241004k used, 4436k free, 496k buffers
Swap: 409596k total, 5436k used, 404160k free, 182812k cached
從CPU這行,可以發(fā)現(xiàn)CPU的io wait侍筛;這里是96.0%萤皂。越高就代表CPU用于io wait的資源越多。
2. 找出哪個(gè)磁盤正在被寫入
上邊的top命令從一個(gè)整體上說明了I/O wait匣椰,但是并沒有說明是哪塊磁盤影響的裆熙,想知道是哪塊磁盤引發(fā)的問題,可以使用另外一個(gè)命令 iostat 命令
$ iostat -x 2 5
avg-cpu: %user %nice %system %iowait %steal %idle
? 3.66 0.00 47.64 48.69 0.00 0.00
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 44.50 39.27 117.28 29.32 11220.94 13126.70 332.17 65.77 462.79 9.80 2274.71 7.60 111.41
dm-0 0.00 0.00 83.25 9.95 10515.18 4295.29 317.84 57.01 648.54 16.73 5935.79 11.48 107.02
dm-1 0.00 0.00 57.07 40.84 228.27 163.35 8.00 93.84 979.61 13.94 2329.08 10.93 107.02
iostat 會(huì)每2秒更新一次禽笑,一共打印5次信息入录, -x 的選項(xiàng)是打印出擴(kuò)展信息
第一個(gè)iostat 報(bào)告會(huì)打印出系統(tǒng)最后一次啟動(dòng)后的統(tǒng)計(jì)信息,這也就是說佳镜,在多數(shù)情況下僚稿,第一個(gè)打印出來的信息應(yīng)該被忽略,剩下的報(bào)告蟀伸,都是基于上一次間隔的時(shí)間蚀同。舉例子來說缅刽,這個(gè)命令會(huì)打印5次,第二次的報(bào)告是從第一次報(bào)告出來一個(gè)后的統(tǒng)計(jì)信息蠢络,第三次是基于第二次 衰猛,依次類推
所以,一定記咨部住:第一個(gè)忽略啡省!
在上面的例子中矗晃,sda的%utilized 是111.41%责嚷,這個(gè)很好的說明了有進(jìn)程正在寫入到sda磁盤中硕舆。
除了%utilized 外咆畏,我們可以從iostat得到更加豐富的資源信息噪矛,例如每毫秒讀寫請求(rrqm/s & wrqm/s))慈缔,每秒讀寫的((r/s & w/s)趴梢。在上邊的例子中噩峦,我們的項(xiàng)目看起來正在讀寫非常多的信息薪捍。這個(gè)對我們查找相應(yīng)的進(jìn)程非常有用笼痹。
3. 找出導(dǎo)致高IO的進(jìn)程
# iotop
Total DISK READ: 8.00 M/s | Total DISK WRITE: 20.36 M/s
? TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
15758 be/4 root 7.99 M/s 8.01 M/s 0.00 % 61.97 % bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
最簡單的方法就是用iotop找出哪個(gè)進(jìn)程用了最多的存儲(chǔ)資源,從上面可以看到是bonnie++酪穿。
iotop很好用凳干,但是不是默認(rèn)安裝的。
如果沒有iotop被济,下面的方式也可以讓你有種方法縮小范圍救赐,盡快找到是哪個(gè)進(jìn)程。
ps 命令對內(nèi)存和CPU有一個(gè)統(tǒng)計(jì)只磷,但是他沒有對磁盤I/O的統(tǒng)計(jì)经磅,雖然他沒有顯示磁盤I/O,但是它顯示進(jìn)行的狀態(tài)钮追,我們可以用來知道一個(gè)進(jìn)程是否正在等待I/O
主要的進(jìn)程狀態(tài)有:
PROCESS STATE CODES
D uninterruptible sleep (usually IO)
R running or runnable (on run queue)
S interruptible sleep (waiting for an event to complete)
T stopped, either by a job control signal or because it is being traced.
W paging (not valid since the 2.6.xx kernel)
X dead (should never be seen)
Z defunct ("zombie") process, terminated but not reaped by its parent.
等待I/O的進(jìn)程的狀態(tài)一般是“uninterruptible sleep”预厌,或者“D”,我們可以很容易的查找到正在等待I/O的進(jìn)程
# for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done
D 248 [jbd2/dm-0-8]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 22 [kswapd0]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 22 [kswapd0]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 22 [kswapd0]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
----
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
上邊的例子會(huì)循環(huán)的輸出狀態(tài)是D的進(jìn)程元媚,每5秒一次轧叽,一共10次
從輸出我們可以知道 bonnie++ 的pid是16528 ,在waiting刊棕,bonnie++看起來就是我們想找到的進(jìn)程炭晒,但是,只是從它的狀態(tài)甥角,我們沒有辦法證明就是bonnie++引起的I/O等待腰埂。
為了證明,我們可以可以查看/proc蜈膨,每個(gè)進(jìn)程目錄下都有一個(gè)叫io的文件屿笼,里邊保存這和iotop類似的信息。
# cat /proc/16528/io
rchar: 48752567
wchar: 549961789
syscr: 5967
syscw: 67138
read_bytes: 49020928
write_bytes: 549961728
cancelled_write_bytes: 0
read_bytes和write_bytes是這個(gè)進(jìn)程從磁盤讀寫的字節(jié)翁巍,在這個(gè)例子中驴一,bonnie++進(jìn)程讀取了46M的數(shù)據(jù)并且寫入了524MB的數(shù)據(jù)到磁盤上。
4. 找出哪個(gè)文件正在被大量寫入
lsof 命令可以展示一個(gè)進(jìn)程打開的所有文件灶壶。從這個(gè)列表中肝断,我們可以找到哪個(gè)文件被寫入。
# lsof -p 16528
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
bonnie++ 16528 root cwd DIR 252,0 4096 130597 /tmp
<truncated>
bonnie++ 16528 root 8u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 9u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 10u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 11u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 12u REG 252,0 501219328 131869 <strong>/tmp/Bonnie.16528</strong>
# df /tmp
Filesystem 1K-blocks Used Available Use% Mounted on
/dev/mapper/workstation-root 7667140 2628608 4653920 37% /
# pvdisplay
? --- Physical volume ---
? PV Name /dev/sda5
? VG Name workstation
? PV Size 7.76 GiB / not usable 2.00 MiB
? Allocatable yes
? PE Size 4.00 MiB
? Total PE 1986
? Free PE 8
? Allocated PE 1978
? PV UUID CLbABb-GcLB-l5z3-TCj3-IOK3-SQ2p-RDPW5S
使用pvdisplay可以看到驰凛,pv設(shè)備就是/dev/sda5,正是我們前面找到的sda胸懈。
參考文檔:http://bencane.com/2012/08/06/troubleshooting-high-io-wait-in-linux/