JAVA 線上故障排查套路继榆，從 CPU巾表、磁盤(pán)、內(nèi)存略吨、網(wǎng)絡(luò)到GC 一條龍集币！

線上故障主要會(huì)包括cpu、磁盤(pán)翠忠、內(nèi)存以及網(wǎng)絡(luò)問(wèn)題鞠苟，而大多數(shù)故障可能會(huì)包含不止一個(gè)層面的問(wèn)題，所以進(jìn)行排查時(shí)候盡量四個(gè)方面依次排查一遍。

同時(shí)例如jstack当娱、jmap等工具也是不囿于一個(gè)方面的問(wèn)題的吃既，基本上出問(wèn)題就是df、free跨细、top 三連鹦倚，然后依次jstack、jmap伺候冀惭，具體問(wèn)題具體分析即可震叙。

CPU

一般來(lái)講我們首先會(huì)排查cpu方面的問(wèn)題。cpu異常往往還是比較好定位的散休。原因包括業(yè)務(wù)邏輯問(wèn)題(死循環(huán))媒楼、頻繁gc以及上下文切換過(guò)多。而最常見(jiàn)的往往是業(yè)務(wù)邏輯(或者框架邏輯)導(dǎo)致的戚丸，可以使用jstack來(lái)分析對(duì)應(yīng)的堆棧情況划址。

使用jstack分析cpu問(wèn)題

我們先用ps命令找到對(duì)應(yīng)進(jìn)程的pid(如果你有好幾個(gè)目標(biāo)進(jìn)程，可以先用top看一下哪個(gè)占用比較高)昏滴。

接著用top -H -p pid來(lái)找到cpu使用率比較高的一些線程

然后將占用最高的pid轉(zhuǎn)換為16進(jìn)制printf '%x\n' pid得到nid

接著直接在jstack中找到相應(yīng)的堆棧信息jstack pid |grep 'nid' -C5 –color

可以看到我們已經(jīng)找到了nid為0x42的堆棧信息猴鲫，接著只要仔細(xì)分析一番即可。

當(dāng)然更常見(jiàn)的是我們對(duì)整個(gè)jstack文件進(jìn)行分析谣殊，通常我們會(huì)比較關(guān)注WAITING和TIMED_WAITING的部分拂共，BLOCKED就不用說(shuō)了。我們可以使用命令cat jstack.log | grep "java.lang.Thread.State" | sort -nr | uniq -c來(lái)對(duì)jstack的狀態(tài)有一個(gè)整體的把握姻几，如果WAITING之類的特別多宜狐，那么多半是有問(wèn)題啦。

頻繁gc

當(dāng)然我們還是會(huì)使用jstack來(lái)分析問(wèn)題蛇捌，但有時(shí)候我們可以先確定下gc是不是太頻繁抚恒，使用jstat -gc pid 1000命令來(lái)對(duì)gc分代變化情況進(jìn)行觀察，1000表示采樣間隔(ms)络拌，S0C/S1C俭驮、S0U/S1U、EC/EU春贸、OC/OU混萝、MC/MU分別代表兩個(gè)Survivor區(qū)、Eden區(qū)萍恕、老年代逸嘀、元數(shù)據(jù)區(qū)的容量和使用量。YGC/YGT允粤、FGC/FGCT崭倘、GCT則代表YoungGc翼岁、FullGc的耗時(shí)和次數(shù)以及總耗時(shí)。如果看到gc比較頻繁司光，再針對(duì)gc方面做進(jìn)一步分析琅坡。

上下文切換

針對(duì)頻繁上下文問(wèn)題，我們可以使用vmstat命令來(lái)進(jìn)行查看

cs(context switch)一列則代表了上下文切換的次數(shù)飘庄。

如果我們希望對(duì)特定的pid進(jìn)行監(jiān)控那么可以使用 pidstat -w pid命令脑蠕，cswch和nvcswch表示自愿及非自愿切換。

磁盤(pán)

磁盤(pán)問(wèn)題和cpu一樣是屬于比較基礎(chǔ)的跪削。首先是磁盤(pán)空間方面谴仙，我們直接使用df -hl來(lái)查看文件系統(tǒng)狀態(tài)

更多時(shí)候，磁盤(pán)問(wèn)題還是性能上的問(wèn)題碾盐。我們可以通過(guò)iostatiostat -d -k -x來(lái)進(jìn)行分析

最后一列%util可以看到每塊磁盤(pán)寫(xiě)入的程度晃跺，而rrqpm/s以及wrqm/s分別表示讀寫(xiě)速度，一般就能幫助定位到具體哪塊磁盤(pán)出現(xiàn)問(wèn)題了毫玖。

另外我們還需要知道是哪個(gè)進(jìn)程在進(jìn)行讀寫(xiě)掀虎，一般來(lái)說(shuō)開(kāi)發(fā)自己心里有數(shù)，或者用iotop命令來(lái)進(jìn)行定位文件讀寫(xiě)的來(lái)源付枫。

不過(guò)這邊拿到的是tid烹玉，我們要轉(zhuǎn)換成pid，可以通過(guò)readlink來(lái)找到pidreadlink -f /proc/*/task/tid/../..阐滩。

找到pid之后就可以看這個(gè)進(jìn)程具體的讀寫(xiě)情況cat /proc/pid/io

我們還可以通過(guò)lsof命令來(lái)確定具體的文件讀寫(xiě)情況lsof -p pid

內(nèi)存

內(nèi)存問(wèn)題排查起來(lái)相對(duì)比CPU麻煩一些二打，場(chǎng)景也比較多。主要包括OOM掂榔、GC問(wèn)題和堆外內(nèi)存继效。一般來(lái)講，我們會(huì)先用free命令先來(lái)檢查一發(fā)內(nèi)存的各種情況装获。

堆內(nèi)內(nèi)存

內(nèi)存問(wèn)題大多還都是堆內(nèi)內(nèi)存問(wèn)題瑞信。表象上主要分為OOM和StackOverflow。

OOM

JMV中的內(nèi)存不足穴豫，OOM大致可以分為以下幾種：

Exception in thread "main" java.lang.OutOfMemoryError: unable to create new native thread

這個(gè)意思是沒(méi)有足夠的內(nèi)存空間給線程分配java棧凡简，基本上還是線程池代碼寫(xiě)的有問(wèn)題，比如說(shuō)忘記shutdown精肃，所以說(shuō)應(yīng)該首先從代碼層面來(lái)尋找問(wèn)題潘鲫，使用jstack或者jmap。如果一切都正常肋杖，JVM方面可以通過(guò)指定Xss來(lái)減少單個(gè)thread stack的大小。

另外也可以在系統(tǒng)層面挖函，可以通過(guò)修改/etc/security/limits.confnofile和nproc來(lái)增大os對(duì)線程的限制

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space

這個(gè)意思是堆的內(nèi)存占用已經(jīng)達(dá)到-Xmx設(shè)置的最大值状植，應(yīng)該是最常見(jiàn)的OOM錯(cuò)誤了浊竟。解決思路仍然是先應(yīng)該在代碼中找，懷疑存在內(nèi)存泄漏津畸，通過(guò)jstack和jmap去定位問(wèn)題振定。如果說(shuō)一切都正常，才需要通過(guò)調(diào)整Xmx的值來(lái)擴(kuò)大內(nèi)存肉拓。

Caused by: java.lang.OutOfMemoryError: Meta space

這個(gè)意思是元數(shù)據(jù)區(qū)的內(nèi)存占用已經(jīng)達(dá)到XX:MaxMetaspaceSize設(shè)置的最大值后频，排查思路和上面的一致，參數(shù)方面可以通過(guò)XX:MaxPermSize來(lái)進(jìn)行調(diào)整(這里就不說(shuō)1.8以前的永久代了)暖途。

Stack Overflow

棧內(nèi)存溢出卑惜，這個(gè)大家見(jiàn)到也比較多。

Exception in thread "main" java.lang.StackOverflowError

表示線程棧需要的內(nèi)存大于Xss值驻售，同樣也是先進(jìn)行排查露久，參數(shù)方面通過(guò)Xss來(lái)調(diào)整，但調(diào)整的太大可能又會(huì)引起OOM欺栗。

使用JMAP定位代碼內(nèi)存泄漏

上述關(guān)于OOM和StackOverflow的代碼排查方面毫痕，我們一般使用JMAPjmap -dump:format=b,file=filename pid來(lái)導(dǎo)出dump文件

通過(guò)mat(Eclipse Memory Analysis Tools)導(dǎo)入dump文件進(jìn)行分析，內(nèi)存泄漏問(wèn)題一般我們直接選Leak Suspects即可迟几，mat給出了內(nèi)存泄漏的建議消请。另外也可以選擇Top Consumers來(lái)查看最大對(duì)象報(bào)告。和線程相關(guān)的問(wèn)題可以選擇thread overview進(jìn)行分析类腮。除此之外就是選擇Histogram類概覽來(lái)自己慢慢分析臊泰，大家可以搜搜mat的相關(guān)教程。

日常開(kāi)發(fā)中存哲，代碼產(chǎn)生內(nèi)存泄漏是比較常見(jiàn)的事因宇，并且比較隱蔽房资，需要開(kāi)發(fā)者更加關(guān)注細(xì)節(jié)膀篮。比如說(shuō)每次請(qǐng)求都new對(duì)象，導(dǎo)致大量重復(fù)創(chuàng)建對(duì)象蚪缀；進(jìn)行文件流操作但未正確關(guān)閉修肠；手動(dòng)不當(dāng)觸發(fā)gc贺辰；ByteBuffer緩存分配不合理等都會(huì)造成代碼OOM。

另一方面嵌施，我們可以在啟動(dòng)參數(shù)中指定-XX:+HeapDumpOnOutOfMemoryError來(lái)保存OOM時(shí)的dump文件饲化。

gc問(wèn)題和線程

gc問(wèn)題除了影響cpu也會(huì)影響內(nèi)存，排查思路也是一致的吗伤。一般先使用jstat來(lái)查看分代變化情況吃靠，比如youngGC或者fullGC次數(shù)是不是太多呀；EU足淆、OU等指標(biāo)增長(zhǎng)是不是異常呀等巢块。

線程的話太多而且不被及時(shí)gc也會(huì)引發(fā)oom礁阁，大部分就是之前說(shuō)的unable to create new native thread。除了jstack細(xì)細(xì)分析dump文件外族奢，我們一般先會(huì)看下總體線程姥闭，通過(guò)pstreee -p pid |wc -l。

或者直接通過(guò)查看/proc/pid/task的數(shù)量即為線程數(shù)量越走。

堆外內(nèi)存

如果碰到堆外內(nèi)存溢出棚品，那可真是太不幸了。首先堆外內(nèi)存溢出表現(xiàn)就是物理常駐內(nèi)存增長(zhǎng)快廊敌，報(bào)錯(cuò)的話視使用方式都不確定铜跑，如果由于使用Netty導(dǎo)致的，那錯(cuò)誤日志里可能會(huì)出現(xiàn)OutOfDirectMemoryError錯(cuò)誤庭敦，如果直接是DirectByteBuffer疼进，那會(huì)報(bào)OutOfMemoryError: Direct buffer memory。

堆外內(nèi)存溢出往往是和NIO的使用相關(guān)秧廉，一般我們先通過(guò)pmap來(lái)查看下進(jìn)程占用的內(nèi)存情況pmap -x pid | sort -rn -k3 | head -30伞广，這段意思是查看對(duì)應(yīng)pid倒序前30大的內(nèi)存段。這邊可以再一段時(shí)間后再跑一次命令看看內(nèi)存增長(zhǎng)情況疼电，或者和正常機(jī)器比較可疑的內(nèi)存段在哪里嚼锄。

我們?nèi)绻_定有可疑的內(nèi)存端，需要通過(guò)gdb來(lái)分析gdb --batch --pid {pid} -ex "dump memory filename.dump {內(nèi)存起始地址} {內(nèi)存起始地址+內(nèi)存塊大小}"

獲取dump文件后可用heaxdump進(jìn)行查看hexdump -C filename | less蔽豺，不過(guò)大多數(shù)看到的都是二進(jìn)制亂碼区丑。

NMT是Java7U40引入的HotSpot新特性，配合jcmd命令我們就可以看到具體內(nèi)存組成了修陡。需要在啟動(dòng)參數(shù)中加入 -XX:NativeMemoryTracking=summary 或者 -XX:NativeMemoryTracking=detail沧侥，會(huì)有略微性能損耗。

一般對(duì)于堆外內(nèi)存緩慢增長(zhǎng)直到爆炸的情況來(lái)說(shuō)魄鸦，可以先設(shè)一個(gè)基線jcmd pid VM.native_memory baseline宴杀。

然后等放一段時(shí)間后再去看看內(nèi)存增長(zhǎng)的情況，通過(guò)jcmd pid VM.native_memory detail.diff(summary.diff)做一下summary或者detail級(jí)別的diff拾因。

可以看到j(luò)cmd分析出來(lái)的內(nèi)存十分詳細(xì)旺罢，包括堆內(nèi)、線程以及gc(所以上述其他內(nèi)存異常其實(shí)都可以用nmt來(lái)分析)绢记，這邊堆外內(nèi)存我們重點(diǎn)關(guān)注Internal的內(nèi)存增長(zhǎng)扁达，如果增長(zhǎng)十分明顯的話那就是有問(wèn)題了。

detail級(jí)別的話還會(huì)有具體內(nèi)存段的增長(zhǎng)情況蠢熄，如下圖跪解。

此外在系統(tǒng)層面，我們還可以使用strace命令來(lái)監(jiān)控內(nèi)存分配 strace -f -e "brk,mmap,munmap" -p pid

這邊內(nèi)存分配信息主要包括了pid和內(nèi)存地址签孔。

不過(guò)其實(shí)上面那些操作也很難定位到具體的問(wèn)題點(diǎn)惠遏，關(guān)鍵還是要看錯(cuò)誤日志棧砾跃，找到可疑的對(duì)象，搞清楚它的回收機(jī)制节吮，然后去分析對(duì)應(yīng)的對(duì)象。比如DirectByteBuffer分配內(nèi)存的話判耕，是需要full GC或者手動(dòng)system.gc來(lái)進(jìn)行回收的(所以最好不要使用-XX:+DisableExplicitGC)透绩。

那么其實(shí)我們可以跟蹤一下DirectByteBuffer對(duì)象的內(nèi)存情況，通過(guò)jmap -histo:live pid手動(dòng)觸發(fā)fullGC來(lái)看看堆外內(nèi)存有沒(méi)有被回收壁熄。如果被回收了帚豪，那么大概率是堆外內(nèi)存本身分配的太小了，通過(guò)-XX:MaxDirectMemorySize進(jìn)行調(diào)整草丧。如果沒(méi)有什么變化狸臣，那就要使用jmap去分析那些不能被gc的對(duì)象，以及和DirectByteBuffer之間的引用關(guān)系了昌执。

GC問(wèn)題

堆內(nèi)內(nèi)存泄漏總是和GC異常相伴烛亦。不過(guò)GC問(wèn)題不只是和內(nèi)存問(wèn)題相關(guān)，還有可能引起CPU負(fù)載懂拾、網(wǎng)絡(luò)問(wèn)題等系列并發(fā)癥煤禽，只是相對(duì)來(lái)說(shuō)和內(nèi)存聯(lián)系緊密些，所以我們?cè)诖藛为?dú)總結(jié)一下GC相關(guān)問(wèn)題岖赋。

我們?cè)赾pu章介紹了使用jstat來(lái)獲取當(dāng)前GC分代變化信息檬果。而更多時(shí)候，我們是通過(guò)GC日志來(lái)排查問(wèn)題的唐断，在啟動(dòng)參數(shù)中加上-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCDateStamps -XX:+PrintGCTimeStamps來(lái)開(kāi)啟GC日志选脊。

常見(jiàn)的Young GC、Full GC日志含義在此就不做贅述了脸甘。

針對(duì)gc日志恳啥，我們就能大致推斷出youngGC與fullGC是否過(guò)于頻繁或者耗時(shí)過(guò)長(zhǎng)，從而對(duì)癥下藥斤程。我們下面將對(duì)G1垃圾收集器來(lái)做分析角寸，這邊也建議大家使用G1-XX:+UseG1GC。

youngGC過(guò)頻繁

youngGC頻繁一般是短周期小對(duì)象較多忿墅，先考慮是不是Eden區(qū)/新生代設(shè)置的太小了扁藕，看能否通過(guò)調(diào)整-Xmn、-XX:SurvivorRatio等參數(shù)設(shè)置來(lái)解決問(wèn)題疚脐。如果參數(shù)正常亿柑，但是young gc頻率還是太高，就需要使用Jmap和MAT對(duì)dump文件進(jìn)行進(jìn)一步排查了棍弄。

youngGC耗時(shí)過(guò)長(zhǎng)

耗時(shí)過(guò)長(zhǎng)問(wèn)題就要看GC日志里耗時(shí)耗在哪一塊了望薄。以G1日志為例疟游，可以關(guān)注Root Scanning、Object Copy痕支、Ref Proc等階段颁虐。Ref Proc耗時(shí)長(zhǎng)，就要注意引用相關(guān)的對(duì)象卧须。

Root Scanning耗時(shí)長(zhǎng)另绩，就要注意線程數(shù)、跨代引用花嘶。Object Copy則需要關(guān)注對(duì)象生存周期笋籽。而且耗時(shí)分析它需要橫向比較，就是和其他項(xiàng)目或者正常時(shí)間段的耗時(shí)比較椭员。比如說(shuō)圖中的Root Scanning和正常時(shí)間段比增長(zhǎng)較多车海，那就是起的線程太多了。

觸發(fā)fullGC

G1中更多的還是mixedGC隘击，但mixedGC可以和youngGC思路一樣去排查侍芝。觸發(fā)fullGC了一般都會(huì)有問(wèn)題，G1會(huì)退化使用Serial收集器來(lái)完成垃圾的清理工作闸度，暫停時(shí)長(zhǎng)達(dá)到秒級(jí)別竭贩，可以說(shuō)是半跪了。

fullGC的原因可能包括以下這些莺禁，以及參數(shù)調(diào)整方面的一些思路：

并發(fā)階段失斄袅俊：在并發(fā)標(biāo)記階段，MixGC之前老年代就被填滿了哟冬，那么這時(shí)候G1就會(huì)放棄標(biāo)記周期楼熄。這種情況，可能就需要增加堆大小浩峡，或者調(diào)整并發(fā)標(biāo)記線程數(shù)-XX:ConcGCThreads可岂。
晉升失敗：在GC的時(shí)候沒(méi)有足夠的內(nèi)存供存活/晉升對(duì)象使用翰灾，所以觸發(fā)了Full GC缕粹。這時(shí)候可以通過(guò)-XX:G1ReservePercent來(lái)增加預(yù)留內(nèi)存百分比，減少-XX:InitiatingHeapOccupancyPercent來(lái)提前啟動(dòng)標(biāo)記纸淮，-XX:ConcGCThreads來(lái)增加標(biāo)記線程數(shù)也是可以的平斩。
大對(duì)象分配失敗：大對(duì)象找不到合適的region空間進(jìn)行分配咽块，就會(huì)進(jìn)行fullGC绘面，這種情況下可以增大內(nèi)存或者增大-XX:G1HeapRegionSize。
程序主動(dòng)執(zhí)行System.gc()：不要隨便寫(xiě)就對(duì)了。

另外揭璃，我們可以在啟動(dòng)參數(shù)中配置-XX:HeapDumpPath=/xxx/dump.hprof來(lái)dump fullGC相關(guān)的文件晚凿，并通過(guò)jinfo來(lái)進(jìn)行g(shù)c前后的dump

jinfo -flag +HeapDumpBeforeFullGC pid 
jinfo -flag +HeapDumpAfterFullGC pid

這樣得到2份dump文件，對(duì)比后主要關(guān)注被gc掉的問(wèn)題對(duì)象來(lái)定位問(wèn)題瘦馍。

搜索Java知音歼秽，回復(fù)“后端面試”，送你一份面試寶典.pdf

網(wǎng)絡(luò)

涉及到網(wǎng)絡(luò)層面的問(wèn)題一般都比較復(fù)雜情组，場(chǎng)景多哲银，定位難，成為了大多數(shù)開(kāi)發(fā)的噩夢(mèng)呻惕，應(yīng)該是最復(fù)雜的了。這里會(huì)舉一些例子滥比，并從tcp層亚脆、應(yīng)用層以及工具的使用等方面進(jìn)行闡述。

超時(shí)

超時(shí)錯(cuò)誤大部分處在應(yīng)用層面盲泛，所以這塊著重理解概念濒持。超時(shí)大體可以分為連接超時(shí)和讀寫(xiě)超時(shí)，某些使用連接池的客戶端框架還會(huì)存在獲取連接超時(shí)和空閑連接清理超時(shí)寺滚。

讀寫(xiě)超時(shí)柑营。readTimeout/writeTimeout，有些框架叫做so_timeout或者socketTimeout村视，均指的是數(shù)據(jù)讀寫(xiě)超時(shí)官套。注意這邊的超時(shí)大部分是指邏輯上的超時(shí)。soa的超時(shí)指的也是讀超時(shí)蚁孔。讀寫(xiě)超時(shí)一般都只針對(duì)客戶端設(shè)置奶赔。
連接超時(shí)。connectionTimeout杠氢，客戶端通常指與服務(wù)端建立連接的最大時(shí)間站刑。服務(wù)端這邊connectionTimeout就有些五花八門了，jetty中表示空閑連接清理時(shí)間鼻百，tomcat則表示連接維持的最大時(shí)間绞旅。
其他。包括連接獲取超時(shí)connectionAcquireTimeout和空閑連接清理超時(shí)idleConnectionTimeout温艇。多用于使用連接池或隊(duì)列的客戶端或服務(wù)端框架因悲。

我們?cè)谠O(shè)置各種超時(shí)時(shí)間中，需要確認(rèn)的是盡量保持客戶端的超時(shí)小于服務(wù)端的超時(shí)中贝，以保證連接正常結(jié)束囤捻。

在實(shí)際開(kāi)發(fā)中，我們關(guān)心最多的應(yīng)該是接口的讀寫(xiě)超時(shí)了。

如何設(shè)置合理的接口超時(shí)是一個(gè)問(wèn)題蝎土。如果接口超時(shí)設(shè)置的過(guò)長(zhǎng)视哑，那么有可能會(huì)過(guò)多地占用服務(wù)端的tcp連接。而如果接口設(shè)置的過(guò)短誊涯，那么接口超時(shí)就會(huì)非常頻繁挡毅。

服務(wù)端接口明明rt降低，但客戶端仍然一直超時(shí)又是另一個(gè)問(wèn)題暴构。這個(gè)問(wèn)題其實(shí)很簡(jiǎn)單跪呈，客戶端到服務(wù)端的鏈路包括網(wǎng)絡(luò)傳輸、排隊(duì)以及服務(wù)處理等取逾，每一個(gè)環(huán)節(jié)都可能是耗時(shí)的原因耗绿。

TCP隊(duì)列溢出

tcp隊(duì)列溢出是個(gè)相對(duì)底層的錯(cuò)誤，它可能會(huì)造成超時(shí)砾隅、rst等更表層的錯(cuò)誤误阻。因此錯(cuò)誤也更隱蔽，所以我們單獨(dú)說(shuō)一說(shuō)晴埂。

如上圖所示究反，這里有兩個(gè)隊(duì)列：syns queue(半連接隊(duì)列）、accept queue（全連接隊(duì)列）儒洛。三次握手精耐，在server收到client的syn后，把消息放到syns queue琅锻，回復(fù)syn+ack給client卦停，server收到client的ack，如果這時(shí)accept queue沒(méi)滿浅浮，那就從syns queue拿出暫存的信息放入accept queue中沫浆，否則按tcp_abort_on_overflow指示的執(zhí)行。

tcp_abort_on_overflow 0表示如果三次握手第三步的時(shí)候accept queue滿了那么server扔掉client發(fā)過(guò)來(lái)的ack滚秩。tcp_abort_on_overflow 1則表示第三步的時(shí)候如果全連接隊(duì)列滿了专执，server發(fā)送一個(gè)rst包給client，表示廢掉這個(gè)握手過(guò)程和這個(gè)連接郁油，意味著日志里可能會(huì)有很多connection reset / connection reset by peer本股。

那么在實(shí)際開(kāi)發(fā)中，我們?cè)趺茨芸焖俣ㄎ坏絫cp隊(duì)列溢出呢桐腌？

netstat命令拄显，執(zhí)行netstat -s | egrep "listen|LISTEN"

如上圖所示，overflowed表示全連接隊(duì)列溢出的次數(shù)案站，sockets dropped表示半連接隊(duì)列溢出的次數(shù)躬审。

ss命令，執(zhí)行ss -lnt

上面看到Send-Q 表示第三列的listen端口上的全連接隊(duì)列最大為5，第一列Recv-Q為全連接隊(duì)列當(dāng)前使用了多少承边。

接著我們看看怎么設(shè)置全連接遭殉、半連接隊(duì)列大小吧：

全連接隊(duì)列的大小取決于min(backlog, somaxconn)。backlog是在socket創(chuàng)建的時(shí)候傳入的博助，somaxconn是一個(gè)os級(jí)別的系統(tǒng)參數(shù)险污。而半連接隊(duì)列的大小取決于max(64, /proc/sys/net/ipv4/tcp_max_syn_backlog)。

在日常開(kāi)發(fā)中富岳，我們往往使用servlet容器作為服務(wù)端蛔糯，所以我們有時(shí)候也需要關(guān)注容器的連接隊(duì)列大小。在tomcat中backlog叫做acceptCount窖式，在jetty里面則是acceptQueueSize蚁飒。

RST異常

RST包表示連接重置，用于關(guān)閉一些無(wú)用的連接萝喘，通常表示異常關(guān)閉飒箭，區(qū)別于四次揮手。

在實(shí)際開(kāi)發(fā)中蜒灰，我們往往會(huì)看到connection reset / connection reset by peer錯(cuò)誤，這種情況就是RST包導(dǎo)致的肩碟。

端口不存在

如果像不存在的端口發(fā)出建立連接SYN請(qǐng)求强窖，那么服務(wù)端發(fā)現(xiàn)自己并沒(méi)有這個(gè)端口則會(huì)直接返回一個(gè)RST報(bào)文，用于中斷連接削祈。

主動(dòng)代替FIN終止連接

一般來(lái)說(shuō)翅溺，正常的連接關(guān)閉都是需要通過(guò)FIN報(bào)文實(shí)現(xiàn)，然而我們也可以用RST報(bào)文來(lái)代替FIN髓抑，表示直接終止連接咙崎。實(shí)際開(kāi)發(fā)中，可設(shè)置SO_LINGER數(shù)值來(lái)控制吨拍，這種往往是故意的褪猛，來(lái)跳過(guò)TIMED_WAIT，提供交互效率羹饰，不閑就慎用伊滋。

客戶端或服務(wù)端有一邊發(fā)生了異常，該方向?qū)Χ税l(fā)送RST以告知關(guān)閉連接

我們上面講的tcp隊(duì)列溢出發(fā)送RST包其實(shí)也是屬于這一種队秩。這種往往是由于某些原因笑旺，一方無(wú)法再能正常處理請(qǐng)求連接了(比如程序崩了，隊(duì)列滿了)馍资，從而告知另一方關(guān)閉連接筒主。

接收到的TCP報(bào)文不在已知的TCP連接內(nèi)

比如，一方機(jī)器由于網(wǎng)絡(luò)實(shí)在太差TCP報(bào)文失蹤了，另一方關(guān)閉了該連接乌妙，然后過(guò)了許久收到了之前失蹤的TCP報(bào)文使兔，但由于對(duì)應(yīng)的TCP連接已不存在，那么會(huì)直接發(fā)一個(gè)RST包以便開(kāi)啟新的連接冠胯。

一方長(zhǎng)期未收到另一方的確認(rèn)報(bào)文火诸，在一定時(shí)間或重傳次數(shù)后發(fā)出RST報(bào)文

這種大多也和網(wǎng)絡(luò)環(huán)境相關(guān)了，網(wǎng)絡(luò)環(huán)境差可能會(huì)導(dǎo)致更多的RST報(bào)文荠察。

之前說(shuō)過(guò)RST報(bào)文多會(huì)導(dǎo)致程序報(bào)錯(cuò)置蜀，在一個(gè)已關(guān)閉的連接上讀操作會(huì)報(bào)connection reset，而在一個(gè)已關(guān)閉的連接上寫(xiě)操作則會(huì)報(bào)connection reset by peer悉盆。通常我們可能還會(huì)看到broken pipe錯(cuò)誤盯荤，這是管道層面的錯(cuò)誤，表示對(duì)已關(guān)閉的管道進(jìn)行讀寫(xiě)焕盟，往往是在收到RST秋秤，報(bào)出connection reset錯(cuò)后繼續(xù)讀寫(xiě)數(shù)據(jù)報(bào)的錯(cuò)，這個(gè)在glibc源碼注釋中也有介紹脚翘。

我們?cè)谂挪楣收蠒r(shí)候怎么確定有RST包的存在呢灼卢？當(dāng)然是使用tcpdump命令進(jìn)行抓包，并使用wireshark進(jìn)行簡(jiǎn)單分析了来农。tcpdump -i en0 tcp -w xxx.cap鞋真，en0表示監(jiān)聽(tīng)的網(wǎng)卡。

接下來(lái)我們通過(guò)wireshark打開(kāi)抓到的包沃于，可能就能看到如下圖所示涩咖，紅色的就表示RST包了。

TIME_WAIT和CLOSE_WAIT

TIME_WAIT和CLOSE_WAIT是啥意思相信大家都知道繁莹。

在線上時(shí)檩互，我們可以直接用命令netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'來(lái)查看time-wait和close_wait的數(shù)量

用ss命令會(huì)更快ss -ant | awk '{++S[$1]} END {for(a in S) print a, S[a]}'

TIME_WAIT

time_wait的存在一是為了丟失的數(shù)據(jù)包被后面連接復(fù)用，二是為了在2MSL的時(shí)間范圍內(nèi)正常關(guān)閉連接咨演。它的存在其實(shí)會(huì)大大減少RST包的出現(xiàn)闸昨。

過(guò)多的time_wait在短連接頻繁的場(chǎng)景比較容易出現(xiàn)。這種情況可以在服務(wù)端做一些內(nèi)核參數(shù)調(diào)優(yōu):

#表示開(kāi)啟重用薄风。允許將TIME-WAIT sockets重新用于新的TCP連接零院，默認(rèn)為0，表示關(guān)閉
net.ipv4.tcp_tw_reuse = 1
#表示開(kāi)啟TCP連接中TIME-WAIT sockets的快速回收村刨，默認(rèn)為0告抄，表示關(guān)閉
net.ipv4.tcp_tw_recycle = 1

當(dāng)然我們不要忘記在NAT環(huán)境下因?yàn)闀r(shí)間戳錯(cuò)亂導(dǎo)致數(shù)據(jù)包被拒絕的坑了，另外的辦法就是改小tcp_max_tw_buckets嵌牺，超過(guò)這個(gè)數(shù)的time_wait都會(huì)被干掉打洼，不過(guò)這也會(huì)導(dǎo)致報(bào)time wait bucket table overflow的錯(cuò)龄糊。

CLOSE_WAIT

close_wait往往都是因?yàn)閼?yīng)用程序?qū)懙挠袉?wèn)題，沒(méi)有在ACK后再次發(fā)起FIN報(bào)文募疮。close_wait出現(xiàn)的概率甚至比time_wait要更高炫惩，后果也更嚴(yán)重。往往是由于某個(gè)地方阻塞住了阿浓，沒(méi)有正常關(guān)閉連接他嚷，從而漸漸地消耗完所有的線程。

想要定位這類問(wèn)題芭毙，最好是通過(guò)jstack來(lái)分析線程堆棧來(lái)排查問(wèn)題筋蓖，具體可參考上述章節(jié)。這里僅舉一個(gè)例子退敦。

開(kāi)發(fā)同學(xué)說(shuō)應(yīng)用上線后CLOSE_WAIT就一直增多粘咖，直到掛掉為止，jstack后找到比較可疑的堆棧是大部分線程都卡在了countdownlatch.await方法侈百，找開(kāi)發(fā)同學(xué)了解后得知使用了多線程但是確沒(méi)有catch異常瓮下，修改后發(fā)現(xiàn)異常僅僅是最簡(jiǎn)單的升級(jí)sdk后常出現(xiàn)的class not found。

寫(xiě)在最后

歡迎大家關(guān)注我的公眾號(hào)【風(fēng)平浪靜如碼】钝域，海量Java相關(guān)文章讽坏，學(xué)習(xí)資料都會(huì)在里面更新，整理的資料也會(huì)放在里面例证。

覺(jué)得寫(xiě)的還不錯(cuò)的就點(diǎn)個(gè)贊震缭，加個(gè)關(guān)注唄！點(diǎn)關(guān)注战虏，不迷路，持續(xù)更新５程椤７掣小！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末膛堤，一起剝皮案震驚了整個(gè)濱河市手趣，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌肥荔，老刑警劉巖绿渣，帶你破解...
沈念sama閱讀 207,113評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異燕耿，居然都是意外死亡中符，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,644評(píng)論 2贊 381
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門誉帅，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)淀散，“玉大人右莱，你說(shuō)我怎么就攤上這事〉挡澹” “怎么了慢蜓？”我有些...
開(kāi)封第一講書(shū)人閱讀 153,340評(píng)論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)郭膛。經(jīng)常有香客問(wèn)我晨抡，道長(zhǎng)，這世上最難降的妖魔是什么则剃？我笑而不...
開(kāi)封第一講書(shū)人閱讀 55,449評(píng)論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任耘柱，我火速辦了婚禮，結(jié)果婚禮上忍级，老公的妹妹穿的比我還像新娘帆谍。我一直安慰自己，他們只是感情好轴咱，可當(dāng)我...
茶點(diǎn)故事閱讀 64,445評(píng)論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布汛蝙。她就那樣靜靜地躺著，像睡著了一般朴肺。火紅的嫁衣襯著肌膚如雪窖剑。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 49,166評(píng)論 1贊 284
城市分裂傳說(shuō)
那天戈稿，我揣著相機(jī)與錄音西土，去河邊找鬼。笑死鞍盗，一個(gè)胖子當(dāng)著我的面吹牛需了，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播般甲，決...
沈念sama閱讀 38,442評(píng)論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼肋乍，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了敷存？” 一聲冷哼從身側(cè)響起墓造，我...
開(kāi)封第一講書(shū)人閱讀 37,105評(píng)論 0贊 261
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎锚烦，沒(méi)想到半個(gè)月后觅闽，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,601評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡涮俄，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,066評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年蛉拙，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片彻亲。...
茶點(diǎn)故事閱讀 38,161評(píng)論 1贊 334
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡刘离，死狀恐怖室叉，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情硫惕，我是刑警寧澤茧痕，帶...
沈念sama閱讀 33,792評(píng)論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站恼除，受9級(jí)特大地震影響踪旷，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜豁辉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,351評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一令野、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧徽级，春花似錦气破、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,352評(píng)論 0贊 19
一樁弒父案现使，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至旷痕，卻和暖如春碳锈，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背欺抗。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,584評(píng)論 1贊 261
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工售碳，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人绞呈。一個(gè)月前我還...
沈念sama閱讀 45,618評(píng)論 2贊 355
代替公主和親
正文我出身青樓贸人，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親佃声。傳聞我的和親對(duì)象是個(gè)殘疾皇子艺智，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,916評(píng)論 2贊 344

JAVA 線上故障排查套路椭坚，從 CPU名秀、磁盤(pán)、內(nèi)存藕溅、網(wǎng)絡(luò)到GC 一條龍！