JAVA 線上故障排查全套路

線上故障主要會包括 CPU建邓、磁盤盈厘、內(nèi)存以及網(wǎng)絡(luò)問題,而大多數(shù)故障可能會包含不止一個層面的問題官边,所以進行排查時候盡量四個方面依次排查一遍沸手。同時例如 jstack、jmap 等工具也是不囿于一個方面的問題的注簿,基本上出問題就是 df契吉、free、top 三連诡渴,然后依次 jstack捐晶、jmap 伺候,具體問題具體分析即可妄辩。

CPU

一般來講我們首先會排查 CPU 方面的問題惑灵。CPU 異常往往還是比較好定位的。原因包括業(yè)務(wù)邏輯問題(死循環(huán))眼耀、頻繁 gc 以及上下文切換過多英支。而最常見的往往是業(yè)務(wù)邏輯(或者框架邏輯)導致的,可以使用 jstack 來分析對應的堆棧情況哮伟。

使用 jstack 分析 CPU 問題

我們先用 ps 命令找到對應進程的 pid(如果你有好幾個目標進程干花,可以先用 top 看一下哪個占用比較高)妄帘。

接著用top -H -p pid來找到 CPU 使用率比較高的一些線程

JAVA 線上故障排查全套路

然后將占用最高的 pid 轉(zhuǎn)換為 16 進制printf '%x\n' pid得到 nid

JAVA 線上故障排查全套路

接著直接在 jstack 中找到相應的堆棧信息jstack pid |grep 'nid' -C5 –color

JAVA 線上故障排查全套路

可以看到我們已經(jīng)找到了 nid 為 0x42 的堆棧信息,接著只要仔細分析一番即可把敢。

當然更常見的是我們對整個 jstack 文件進行分析寄摆,通常我們會比較關(guān)注 WAITING 和 TIMED_WAITING 的部分,BLOCKED 就不用說了修赞。我們可以使用命令cat jstack.log | grep "java.lang.Thread.State" | sort -nr | uniq -c來對 jstack 的狀態(tài)有一個整體的把握婶恼,如果 WAITING 之類的特別多,那么多半是有問題啦柏副。

JAVA 線上故障排查全套路

頻繁 gc

當然我們還是會使用 jstack 來分析問題勾邦,但有時候我們可以先確定下 gc 是不是太頻繁,使用jstat -gc pid 1000命令來對 gc 分代變化情況進行觀察割择,1000 表示采樣間隔(ms)眷篇,S0C/S1C、S0U/S1U荔泳、EC/EU蕉饼、OC/OU、MC/MU 分別代表兩個 Survivor 區(qū)玛歌、Eden 區(qū)昧港、老年代、元數(shù)據(jù)區(qū)的容量和使用量支子。YGC/YGT创肥、FGC/FGCT、GCT 則代表 YoungGc值朋、FullGc 的耗時和次數(shù)以及總耗時叹侄。如果看到 gc 比較頻繁,再針對 gc 方面做進一步分析昨登,具體可以參考一下 gc 章節(jié)的描述趾代。

JAVA 線上故障排查全套路

上下文切換

針對頻繁上下文問題,我們可以使用vmstat命令來進行查看

JAVA 線上故障排查全套路

cs(context switch)一列則代表了上下文切換的次數(shù)篙骡。

如果我們希望對特定的 pid 進行監(jiān)控那么可以使用 pidstat -w pid命令稽坤,cswch 和 nvcswch 表示自愿及非自愿切換。

JAVA 線上故障排查全套路

磁盤

磁盤問題和 CPU 一樣是屬于比較基礎(chǔ)的糯俗。首先是磁盤空間方面,我們直接使用df -hl來查看文件系統(tǒng)狀態(tài)

JAVA 線上故障排查全套路

更多時候睦擂,磁盤問題還是性能上的問題得湘。我們可以通過 iostatiostat -d -k -x來進行分析

JAVA 線上故障排查全套路

最后一列%util可以看到每塊磁盤寫入的程度,而rrqpm/s以及wrqm/s分別表示讀寫速度顿仇,一般就能幫助定位到具體哪塊磁盤出現(xiàn)問題了淘正。

另外我們還需要知道是哪個進程在進行讀寫摆马,一般來說開發(fā)自己心里有數(shù),或者用 iotop 命令來進行定位文件讀寫的來源鸿吆。

JAVA 線上故障排查全套路

不過這邊拿到的是 tid囤采,我們要轉(zhuǎn)換成 pid,可以通過 readlink 來找到 pidreadlink -f /proc/*/task/tid/../..惩淳。

JAVA 線上故障排查全套路

找到 pid 之后就可以看這個進程具體的讀寫情況cat /proc/pid/io

JAVA 線上故障排查全套路

我們還可以通過 lsof 命令來確定具體的文件讀寫情況lsof -p pid

JAVA 線上故障排查全套路

內(nèi)存

內(nèi)存問題排查起來相對比 CPU 麻煩一些蕉毯,場景也比較多。主要包括 OOM思犁、GC 問題和堆外內(nèi)存代虾。一般來講,我們會先用free命令先來檢查一發(fā)內(nèi)存的各種情況激蹲。

JAVA 線上故障排查全套路

堆內(nèi)內(nèi)存

內(nèi)存問題大多還都是堆內(nèi)內(nèi)存問題棉磨。表象上主要分為 OOM 和 Stack Overflo。

OOM

JMV 中的內(nèi)存不足学辱,OOM 大致可以分為以下幾種:

Exception in thread "main" java.lang.OutOfMemoryError: unable to create new native thread

這個意思是沒有足夠的內(nèi)存空間給線程分配 Java 棧乘瓤,基本上還是線程池代碼寫的有問題,比如說忘記 shutdown策泣,所以說應該首先從代碼層面來尋找問題衙傀,使用 jstack 或者 jmap。如果一切都正常着降,JVM 方面可以通過指定Xss來減少單個 thread stack 的大小稼钩。另外也可以在系統(tǒng)層面肢扯,可以通過修改/etc/security/limits.confnofile 和 nproc 來增大 os 對線程的限制

JAVA 線上故障排查全套路

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

這個意思是堆的內(nèi)存占用已經(jīng)達到-Xmx 設(shè)置的最大值,應該是最常見的 OOM 錯誤了。解決思路仍然是先應該在代碼中找造烁,懷疑存在內(nèi)存泄漏,通過 jstack 和 jmap 去定位問題樊零。如果說一切都正常刨肃,才需要通過調(diào)整Xmx的值來擴大內(nèi)存。

Caused by: java.lang.OutOfMemoryError: Meta space

這個意思是元數(shù)據(jù)區(qū)的內(nèi)存占用已經(jīng)達到XX:MaxMetaspaceSize設(shè)置的最大值盅弛,排查思路和上面的一致钱骂,參數(shù)方面可以通過XX:MaxPermSize來進行調(diào)整(這里就不說 1.8 以前的永久代了)。

Stack Overflow

棧內(nèi)存溢出挪鹏,這個大家見到也比較多见秽。

Exception in thread "main" java.lang.StackOverflowError

表示線程棧需要的內(nèi)存大于 Xss 值,同樣也是先進行排查讨盒,參數(shù)方面通過Xss來調(diào)整解取,但調(diào)整的太大可能又會引起 OOM。

使用 JMAP 定位代碼內(nèi)存泄漏

上述關(guān)于 OOM 和 Stack Overflo 的代碼排查方面返顺,我們一般使用 JMAPjmap -dump:format=b,file=filename pid來導出 dump 文件

JAVA 線上故障排查全套路

通過 mat(Eclipse Memory Analysis Tools)導入 dump 文件進行分析禀苦,內(nèi)存泄漏問題一般我們直接選 Leak Suspects 即可蔓肯,mat 給出了內(nèi)存泄漏的建議。另外也可以選擇 Top Consumers 來查看最大對象報告振乏。和線程相關(guān)的問題可以選擇 thread overview 進行分析蔗包。除此之外就是選擇 Histogram 類概覽來自己慢慢分析,大家可以搜搜 mat 的相關(guān)教程慧邮。

JAVA 線上故障排查全套路

日常開發(fā)中调限,代碼產(chǎn)生內(nèi)存泄漏是比較常見的事,并且比較隱蔽赋咽,需要開發(fā)者更加關(guān)注細節(jié)旧噪。比如說每次請求都 new 對象,導致大量重復創(chuàng)建對象脓匿;進行文件流操作但未正確關(guān)閉淘钟;手動不當觸發(fā) gc;ByteBuffer 緩存分配不合理等都會造成代碼 OOM陪毡。

另一方面米母,我們可以在啟動參數(shù)中指定-XX:+HeapDumpOnOutOfMemoryError來保存 OOM 時的 dump 文件。

gc 問題和線程

gc 問題除了影響 CPU 也會影響內(nèi)存毡琉,排查思路也是一致的铁瞒。一般先使用 jstat 來查看分代變化情況,比如 youngGC 或者 fullGC 次數(shù)是不是太多呀桅滋;EU慧耍、OU 等指標增長是不是異常呀等。

線程的話太多而且不被及時 gc 也會引發(fā) oom丐谋,大部分就是之前說的unable to create new native thread芍碧。除了 jstack 細細分析 dump 文件外,我們一般先會看下總體線程号俐,通過pstreee -p pid |wc -l泌豆。

JAVA 線上故障排查全套路

或者直接通過查看/proc/pid/task的數(shù)量即為線程數(shù)量。

JAVA 線上故障排查全套路

堆外內(nèi)存

如果碰到堆外內(nèi)存溢出吏饿,那可真是太不幸了踪危。首先堆外內(nèi)存溢出表現(xiàn)就是物理常駐內(nèi)存增長快,報錯的話視使用方式都不確定猪落,如果由于使用 Netty 導致的贞远,那錯誤日志里可能會出現(xiàn)OutOfDirectMemoryError錯誤,如果直接是 DirectByteBuffer笨忌,那會報OutOfMemoryError: Direct buffer memory兴革。

堆外內(nèi)存溢出往往是和 NIO 的使用相關(guān),一般我們先通過 pmap 來查看下進程占用的內(nèi)存情況pmap -x pid | sort -rn -k3 | head -30蜜唾,這段意思是查看對應 pid 倒序前 30 大的內(nèi)存段杂曲。這邊可以再一段時間后再跑一次命令看看內(nèi)存增長情況,或者和正常機器比較可疑的內(nèi)存段在哪里袁余。

JAVA 線上故障排查全套路

我們?nèi)绻_定有可疑的內(nèi)存端擎勘,需要通過 gdb 來分析gdb --batch --pid {pid} -ex "dump memory filename.dump {內(nèi)存起始地址} {內(nèi)存起始地址+內(nèi)存塊大小}"

JAVA 線上故障排查全套路

獲取 dump 文件后可用 heaxdump 進行查看hexdump -C filename | less,不過大多數(shù)看到的都是二進制亂碼颖榜。

NMT 是 Java7U40 引入的 HotSpot 新特性棚饵,配合 jcmd 命令我們就可以看到具體內(nèi)存組成了。需要在啟動參數(shù)中加入 -XX:NativeMemoryTracking=summary 或者 -XX:NativeMemoryTracking=detail掩完,會有略微性能損耗噪漾。

一般對于堆外內(nèi)存緩慢增長直到爆炸的情況來說,可以先設(shè)一個基線jcmd pid VM.native_memory baseline且蓬。

JAVA 線上故障排查全套路

然后等放一段時間后再去看看內(nèi)存增長的情況欣硼,通過jcmd pid VM.native_memory detail.diff(summary.diff)做一下 summary 或者 detail 級別的 diff。

JAVA 線上故障排查全套路
JAVA 線上故障排查全套路

可以看到 jcmd 分析出來的內(nèi)存十分詳細恶阴,包括堆內(nèi)诈胜、線程以及 gc(所以上述其他內(nèi)存異常其實都可以用 nmt 來分析),這邊堆外內(nèi)存我們重點關(guān)注 Internal 的內(nèi)存增長冯事,如果增長十分明顯的話那就是有問題了焦匈。

detail 級別的話還會有具體內(nèi)存段的增長情況,如下圖昵仅。

JAVA 線上故障排查全套路

此外在系統(tǒng)層面缓熟,我們還可以使用 strace 命令來監(jiān)控內(nèi)存分配 strace -f -e "brk,mmap,munmap" -p pid

這邊內(nèi)存分配信息主要包括了 pid 和內(nèi)存地址。

JAVA 線上故障排查全套路

不過其實上面那些操作也很難定位到具體的問題點摔笤,關(guān)鍵還是要看錯誤日志棧够滑,找到可疑的對象,搞清楚它的回收機制籍茧,然后去分析對應的對象版述。比如 DirectByteBuffer 分配內(nèi)存的話,是需要 full GC 或者手動 system.gc 來進行回收的(所以最好不要使用-XX:+DisableExplicitGC)寞冯。那么其實我們可以跟蹤一下 DirectByteBuffer 對象的內(nèi)存情況渴析,通過jmap -histo:live pid手動觸發(fā) fullGC 來看看堆外內(nèi)存有沒有被回收。如果被回收了吮龄,那么大概率是堆外內(nèi)存本身分配的太小了俭茧,通過-XX:MaxDirectMemorySize進行調(diào)整。如果沒有什么變化漓帚,那就要使用 jmap 去分析那些不能被 gc 的對象母债,以及和 DirectByteBuffer 之間的引用關(guān)系了。

GC 問題

堆內(nèi)內(nèi)存泄漏總是和 GC 異常相伴。不過 GC 問題不只是和內(nèi)存問題相關(guān)毡们,還有可能引起 CPU 負載迅皇、網(wǎng)絡(luò)問題等系列并發(fā)癥,只是相對來說和內(nèi)存聯(lián)系緊密些衙熔,所以我們在此單獨總結(jié)一下 GC 相關(guān)問題登颓。

我們在 CPU 章介紹了使用 jstat 來獲取當前 GC 分代變化信息。而更多時候红氯,我們是通過 GC 日志來排查問題的框咙,在啟動參數(shù)中加上-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCTimeStamps來開啟 GC 日志。

常見的 Young GC痢甘、Full GC 日志含義在此就不做贅述了喇嘱。

針對 gc 日志,我們就能大致推斷出 youngGC 與 fullGC 是否過于頻繁或者耗時過長塞栅,從而對癥下藥者铜。我們下面將對 G1 垃圾收集器來做分析,這邊也建議大家使用 G1-XX:+UseG1GC构蹬。

youngGC 過頻繁

youngGC 頻繁一般是短周期小對象較多王暗,先考慮是不是 Eden 區(qū)/新生代設(shè)置的太小了,看能否通過調(diào)整-Xmn庄敛、-XX:SurvivorRatio 等參數(shù)設(shè)置來解決問題俗壹。如果參數(shù)正常,但是 young gc 頻率還是太高藻烤,就需要使用 Jmap 和 MAT 對 dump 文件進行進一步排查了绷雏。

youngGC 耗時過長

耗時過長問題就要看 GC 日志里耗時耗在哪一塊了。以 G1 日志為例怖亭,可以關(guān)注 Root Scanning涎显、Object Copy、Ref Proc 等階段兴猩。Ref Proc 耗時長期吓,就要注意引用相關(guān)的對象。Root Scanning 耗時長倾芝,就要注意線程數(shù)讨勤、跨代引用。Object Copy 則需要關(guān)注對象生存周期晨另。而且耗時分析它需要橫向比較潭千,就是和其他項目或者正常時間段的耗時比較。比如說圖中的 Root Scanning 和正常時間段比增長較多借尿,那就是起的線程太多了刨晴。

JAVA 線上故障排查全套路

觸發(fā) fullGC

G1 中更多的還是 mixedGC屉来,但 mixedGC 可以和 youngGC 思路一樣去排查。觸發(fā) fullGC 了一般都會有問題狈癞,G1 會退化使用 Serial 收集器來完成垃圾的清理工作茄靠,暫停時長達到秒級別,可以說是半跪了亿驾。

fullGC 的原因可能包括以下這些嘹黔,以及參數(shù)調(diào)整方面的一些思路:

  • 并發(fā)階段失敗:在并發(fā)標記階段莫瞬,MixGC 之前老年代就被填滿了,那么這時候 G1 就會放棄標記周期郭蕉。這種情況疼邀,可能就需要增加堆大小,或者調(diào)整并發(fā)標記線程數(shù)-XX:ConcGCThreads召锈。
  • 晉升失斉哉瘛:在 GC 的時候沒有足夠的內(nèi)存供存活/晉升對象使用,所以觸發(fā)了 Full GC涨岁。這時候可以通過-XX:G1ReservePercent來增加預留內(nèi)存百分比拐袜,減少-XX:InitiatingHeapOccupancyPercent來提前啟動標記,-XX:ConcGCThreads來增加標記線程數(shù)也是可以的梢薪。
  • 大對象分配失數牌獭:大對象找不到合適的 region 空間進行分配,就會進行 fullGC秉撇,這種情況下可以增大內(nèi)存或者增大-XX:G1HeapRegionSize甜攀。
  • 程序主動執(zhí)行 System.gc():不要隨便寫就對了。

另外琐馆,我們可以在啟動參數(shù)中配置-XX:HeapDumpPath=/xxx/dump.hprof來 dump fullGC 相關(guān)的文件规阀,并通過 jinfo 來進行 gc 前后的 dump

jinfo -flag +HeapDumpBeforeFullGC pid

jinfo -flag +HeapDumpAfterFullGC pid

jinfo -flag +HeapDumpBeforeFullGC pid

jinfo -flag +HeapDumpAfterFullGC pid

這樣得到 2 份 dump 文件,對比后主要關(guān)注被 gc 掉的問題對象來定位問題瘦麸。

網(wǎng)絡(luò)

涉及到網(wǎng)絡(luò)層面的問題一般都比較復雜谁撼,場景多,定位難滋饲,成為了大多數(shù)開發(fā)的噩夢厉碟,應該是最復雜的了。這里會舉一些例子了赌,并從 tcp 層墨榄、應用層以及工具的使用等方面進行闡述。

超時

超時錯誤大部分處在應用層面勿她,所以這塊著重理解概念袄秩。超時大體可以分為連接超時和讀寫超時,某些使用連接池的客戶端框架還會存在獲取連接超時和空閑連接清理超時。

  • 讀寫超時之剧。readTimeout/writeTimeout郭卫,有些框架叫做 so_timeout 或者 socketTimeout,均指的是數(shù)據(jù)讀寫超時背稼。注意這邊的超時大部分是指邏輯上的超時贰军。soa 的超時指的也是讀超時。讀寫超時一般都只針對客戶端設(shè)置蟹肘。
  • 連接超時词疼。connectionTimeout,客戶端通常指與服務(wù)端建立連接的最大時間帘腹。服務(wù)端這邊 connectionTimeout 就有些五花八門了贰盗,Jetty 中表示空閑連接清理時間,Tomcat 則表示連接維持的最大時間阳欲。
  • 其他舵盈。包括連接獲取超時 connectionAcquireTimeout 和空閑連接清理超時 idleConnectionTimeout。多用于使用連接池或隊列的客戶端或服務(wù)端框架球化。

我們在設(shè)置各種超時時間中秽晚,需要確認的是盡量保持客戶端的超時小于服務(wù)端的超時,以保證連接正常結(jié)束筒愚。

在實際開發(fā)中赴蝇,我們關(guān)心最多的應該是接口的讀寫超時了。

如何設(shè)置合理的接口超時是一個問題锨能。如果接口超時設(shè)置的過長扯再,那么有可能會過多地占用服務(wù)端的 tcp 連接。而如果接口設(shè)置的過短址遇,那么接口超時就會非常頻繁熄阻。

服務(wù)端接口明明 rt 降低,但客戶端仍然一直超時又是另一個問題倔约。這個問題其實很簡單秃殉,客戶端到服務(wù)端的鏈路包括網(wǎng)絡(luò)傳輸、排隊以及服務(wù)處理等浸剩,每一個環(huán)節(jié)都可能是耗時的原因钾军。

TCP 隊列溢出

tcp 隊列溢出是個相對底層的錯誤,它可能會造成超時绢要、rst 等更表層的錯誤吏恭。因此錯誤也更隱蔽,所以我們單獨說一說重罪。

JAVA 線上故障排查全套路

如上圖所示樱哼,這里有兩個隊列:syns queue(半連接隊列)哀九、accept queue(全連接隊列)。三次握手搅幅,在 server 收到 client 的 syn 后阅束,把消息放到 syns queue,回復 syn+ack 給 client茄唐,server 收到 client 的 ack息裸,如果這時 accept queue 沒滿,那就從 syns queue 拿出暫存的信息放入 accept queue 中沪编,否則按 tcp_abort_on_overflow 指示的執(zhí)行呼盆。

tcp_abort_on_overflow 0 表示如果三次握手第三步的時候 accept queue 滿了那么 server 扔掉 client 發(fā)過來的 ack。tcp_abort_on_overflow 1 則表示第三步的時候如果全連接隊列滿了漾抬,server 發(fā)送一個 rst 包給 client宿亡,表示廢掉這個握手過程和這個連接,意味著日志里可能會有很多connection reset / connection reset by peer纳令。

那么在實際開發(fā)中,我們怎么能快速定位到 tcp 隊列溢出呢克胳?

netstat 命令平绩,執(zhí)行 netstat -s | egrep "listen|LISTEN"

JAVA 線上故障排查全套路

如上圖所示,overflowed 表示全連接隊列溢出的次數(shù)漠另,sockets dropped 表示半連接隊列溢出的次數(shù)捏雌。

ss 命令,執(zhí)行 ss -lnt

JAVA 線上故障排查全套路

上面看到 Send-Q 表示第三列的 listen 端口上的全連接隊列最大為 5笆搓,第一列 Recv-Q 為全連接隊列當前使用了多少性湿。

接著我們看看怎么設(shè)置全連接、半連接隊列大小吧:

全連接隊列的大小取決于 min(backlog, somaxconn)满败。backlog 是在 socket 創(chuàng)建的時候傳入的肤频,somaxconn 是一個 os 級別的系統(tǒng)參數(shù)。而半連接隊列的大小取決于 max(64, /proc/sys/net/ipv4/tcp_max_syn_backlog)算墨。

在日常開發(fā)中宵荒,我們往往使用 servlet 容器作為服務(wù)端,所以我們有時候也需要關(guān)注容器的連接隊列大小净嘀。在 Tomcat 中 backlog 叫做acceptCount报咳,在 Jetty 里面則是acceptQueueSize。

RST 異常

RST 包表示連接重置挖藏,用于關(guān)閉一些無用的連接暑刃,通常表示異常關(guān)閉,區(qū)別于四次揮手膜眠。

在實際開發(fā)中岩臣,我們往往會看到connection reset / connection reset by peer錯誤溜嗜,這種情況就是 RST 包導致的。

端口不存在

如果像不存在的端口發(fā)出建立連接 SYN 請求婿脸,那么服務(wù)端發(fā)現(xiàn)自己并沒有這個端口則會直接返回一個 RST 報文粱胜,用于中斷連接。

主動代替 FIN 終止連接

一般來說狐树,正常的連接關(guān)閉都是需要通過 FIN 報文實現(xiàn)焙压,然而我們也可以用 RST 報文來代替 FIN,表示直接終止連接抑钟。實際開發(fā)中涯曲,可設(shè)置 SO_LINGER 數(shù)值來控制,這種往往是故意的在塔,來跳過 TIMED_WAIT幻件,提供交互效率,不閑就慎用蛔溃。

客戶端或服務(wù)端有一邊發(fā)生了異常绰沥,該方向?qū)Χ税l(fā)送 RST 以告知關(guān)閉連接

我們上面講的 tcp 隊列溢出發(fā)送 RST 包其實也是屬于這一種。這種往往是由于某些原因贺待,一方無法再能正常處理請求連接了(比如程序崩了徽曲,隊列滿了),從而告知另一方關(guān)閉連接麸塞。

接收到的 TCP 報文不在已知的 TCP 連接內(nèi)

比如秃臣,一方機器由于網(wǎng)絡(luò)實在太差 TCP 報文失蹤了,另一方關(guān)閉了該連接哪工,然后過了許久收到了之前失蹤的 TCP 報文奥此,但由于對應的 TCP 連接已不存在,那么會直接發(fā)一個 RST 包以便開啟新的連接雁比。

一方長期未收到另一方的確認報文稚虎,在一定時間或重傳次數(shù)后發(fā)出 RST 報文

這種大多也和網(wǎng)絡(luò)環(huán)境相關(guān)了,網(wǎng)絡(luò)環(huán)境差可能會導致更多的 RST 報文章贞。

之前說過 RST 報文多會導致程序報錯祥绞,在一個已關(guān)閉的連接上讀操作會報connection reset,而在一個已關(guān)閉的連接上寫操作則會報connection reset by peer鸭限。通常我們可能還會看到broken pipe錯誤蜕径,這是管道層面的錯誤,表示對已關(guān)閉的管道進行讀寫败京,往往是在收到 RST兜喻,報出connection reset錯后繼續(xù)讀寫數(shù)據(jù)報的錯,這個在 glibc 源碼注釋中也有介紹赡麦。

我們在排查故障時候怎么確定有 RST 包的存在呢朴皆?當然是使用 tcpdump 命令進行抓包帕识,并使用 wireshark 進行簡單分析了。tcpdump -i en0 tcp -w xxx.cap遂铡,en0 表示監(jiān)聽的網(wǎng)卡肮疗。

JAVA 線上故障排查全套路

接下來我們通過 wireshark 打開抓到的包,可能就能看到如下圖所示扒接,紅色的就表示 RST 包了伪货。

JAVA 線上故障排查全套路

TIME_WAIT 和 CLOSE_WAIT

TIME_WAIT 和 CLOSE_WAIT 是啥意思相信大家都知道。

在線上時钾怔,我們可以直接用命令netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'來查看 time-wait 和 close_wait 的數(shù)量

用 ss 命令會更快ss -ant | awk '{++S[$1]} END {for(a in S) print a, S[a]}'

JAVA 線上故障排查全套路

TIME_WAIT

time_wait 的存在一是為了丟失的數(shù)據(jù)包被后面連接復用碱呼,二是為了在 2MSL 的時間范圍內(nèi)正常關(guān)閉連接。它的存在其實會大大減少 RST 包的出現(xiàn)愚臀。

過多的 time_wait 在短連接頻繁的場景比較容易出現(xiàn)。這種情況可以在服務(wù)端做一些內(nèi)核參數(shù)調(diào)優(yōu):

表示開啟重用矾利。允許將TIME-WAIT sockets重新用于新的TCP連接,默認為0男旗,表示關(guān)閉

net.ipv4.tcp_tw_reuse = 1

表示開啟TCP連接中TIME-WAIT sockets的快速回收,默認為0剑肯,表示關(guān)閉

net.ipv4.tcp_tw_recycle = 1

表示開啟重用。允許將TIME-WAIT sockets重新用于新的TCP連接观堂,默認為0让网,表示關(guān)閉

net.ipv4.tcp_tw_reuse = 1

表示開啟TCP連接中TIME-WAIT sockets的快速回收师痕,默認為0溃睹,表示關(guān)閉

net.ipv4.tcp_tw_recycle = 1

當然我們不要忘記在 NAT 環(huán)境下因為時間戳錯亂導致數(shù)據(jù)包被拒絕的坑了胰坟,另外的辦法就是改小tcp_max_tw_buckets因篇,超過這個數(shù)的 time_wait 都會被干掉,不過這也會導致報time wait bucket table overflow的錯笔横。

CLOSE_WAIT

close_wait 往往都是因為應用程序?qū)懙挠袉栴}竞滓,沒有在 ACK 后再次發(fā)起 FIN 報文。close_wait 出現(xiàn)的概率甚至比 time_wait 要更高吹缔,后果也更嚴重。往往是由于某個地方阻塞住了茶没,沒有正常關(guān)閉連接肌幽,從而漸漸地消耗完所有的線程抓半。

想要定位這類問題,最好是通過 jstack 來分析線程堆棧來排查問題笛求,具體可參考上述章節(jié)。這里僅舉一個例子涣易。

開發(fā)同學說應用上線后 CLOSE_WAIT 就一直增多,直到掛掉為止新症,jstack 后找到比較可疑的堆棧是大部分線程都卡在了countdownlatch.await方法,找開發(fā)同學了解后得知使用了多線程但是確沒有 catch 異常荚醒,修改后發(fā)現(xiàn)異常僅僅是最簡單的升級 sdk 后常出現(xiàn)的class not found隆嗅。

轉(zhuǎn)自:https://fredal.xin/java-error-check?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市胖喳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌丽焊,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件写穴,死亡現(xiàn)場離奇詭異雌贱,居然都是意外死亡啊送,警方通過查閱死者的電腦和手機欣孤,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來导街,“玉大人,你說我怎么就攤上這事款票】嘏穑” “怎么了艾少?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長缚够。 經(jīng)常有香客問我,道長谍椅,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任锁施,我火速辦了婚禮,結(jié)果婚禮上悉抵,老公的妹妹穿的比我還像新娘摘完。我一直安慰自己姥饰,他們只是感情好孝治,可當我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著谈飒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上吃媒,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機與錄音赘那,去河邊找鬼。 笑死募舟,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的拱礁。 我是一名探鬼主播辕漂,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼吴超,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了鲸阻?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤陈辱,失蹤者是張志新(化名)和其女友劉穎细诸,沒想到半個月后沛贪,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體揍堰,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年屏歹,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片季希。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡幽纷,死狀恐怖式塌,靈堂內(nèi)的尸體忽然破棺而出友浸,到底是詐尸還是另有隱情,我是刑警寧澤收恢,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站火窒,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏熏矿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一票编、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧栏妖,春花似錦、人聲如沸吊趾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽屁奏。三九已至,卻和暖如春坟瓢,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背折联。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留奕坟,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓月杉,卻偏偏與公主長得像抠艾,于是被迫代替她去往敵國和親苛萎。 傳聞我的和親對象是個殘疾皇子检号,可洞房花燭夜當晚...
    茶點故事閱讀 45,055評論 2 355