linux TIME_WAIT 相關(guān)參數(shù):
net.ipv4.tcp_tw_reuse =0表示開啟重用。允許將TIME-WAIT sockets重新用于新的TCP連接呵俏,默認(rèn)為0铆惑,表示關(guān)閉
net.ipv4.tcp_tw_recycle=0表示開啟TCP連接中TIME-WAIT sockets的快速回收范嘱,默認(rèn)為0,表示關(guān)閉
net.ipv4.tcp_fin_timeout=60表示如果套接字由本端要求關(guān)閉员魏,這個(gè)參數(shù)決定了它保持在FIN-WAIT-2狀態(tài)的時(shí)間(可改為30丑蛤,一般來說FIN-WAIT-2的連接也極少)
注意:
- 不像Windows 可以修改注冊(cè)表修改2MSL 的值,linux 是沒有辦法修改MSL的撕阎,tcp_fin_timeout 不是2MSL 而是Fin-WAIT-2狀態(tài).
- tcp_tw_reuse 和SO_REUSEADDR 是兩個(gè)完全不同的東西
1. tw_reuse受裹,tw_recycle 必須在客戶端和服務(wù)端timestamps 開啟時(shí)才管用(默認(rèn)打開)
2. tw_reuse只對(duì)客戶端起作用,開啟后客戶端在1s內(nèi)回收
3. tw_recycle 對(duì)客戶端和服務(wù)器同時(shí)起作用虏束,開啟后在3.5*RTO 內(nèi)回收棉饶,RTO 200ms~ 120s 具體時(shí)間視網(wǎng)絡(luò)狀況。
內(nèi)網(wǎng)狀況比tw_reuse 稍快镇匀,公網(wǎng)尤其移動(dòng)網(wǎng)絡(luò)大多要比tw_reuse 慢照藻,優(yōu)點(diǎn)就是能夠回收服務(wù)端的TIME_WAIT數(shù)量
對(duì)于客戶端
1. 作為客戶端因?yàn)橛卸丝?5535問題,TIME_OUT過多直接影響處理能力汗侵,打開tw_reuse 即可解決幸缕,不建議同時(shí)打開tw_recycle群发,幫助不大。
2.?tw_reuse 幫助客戶端1s完成連接回收发乔,基本可實(shí)現(xiàn)單機(jī)6w/s請(qǐng)求也物,需要再高就增加IP數(shù)量吧。
3. 如果內(nèi)網(wǎng)壓測(cè)場(chǎng)景列疗,且客戶端不需要接收連接滑蚯,同時(shí)tw_recycle 會(huì)有一點(diǎn)點(diǎn)好處。
4. 業(yè)務(wù)上也可以設(shè)計(jì)由服務(wù)端主動(dòng)關(guān)閉連接
對(duì)于服務(wù)端
1. 打開tw_reuse無效
2. 線上環(huán)境tw_recycle不要打開
服務(wù)器處于NAT 負(fù)載后抵栈,或者客戶端處于NAT后(這是一定的事情告材,基本公司家庭網(wǎng)絡(luò)都走NAT);
公網(wǎng)服務(wù)打開就可能造成部分連接失敗古劲,內(nèi)網(wǎng)的話到時(shí)可以視情況打開斥赋;
像我所在公司對(duì)外服務(wù)都放在負(fù)載后面,負(fù)載會(huì)把timestamp 都給清空产艾,好吧疤剑,就算你打開也不起作用。
3. 服務(wù)器TIME_WAIT?高怎么辦
不像客戶端有端口限制闷堡,處理大量TIME_WAIT Linux已經(jīng)優(yōu)化很好了隘膘,每個(gè)處于TIME_WAIT 狀態(tài)下連接內(nèi)存消耗很少,
而且也能通過tcp_max_tw_buckets =262144配置最大上限杠览,現(xiàn)代機(jī)器一般也不缺這點(diǎn)內(nèi)存弯菊。
下面像我們一臺(tái)每秒峰值1w請(qǐng)求的http 短連接服務(wù),長(zhǎng)期處于tw_buckets 溢出狀態(tài)踱阿,
tw_socket_TCP 占用70M, 因?yàn)闃I(yè)務(wù)簡(jiǎn)單服務(wù)占用CPU 200% 運(yùn)行很穩(wěn)定管钳。
slabtop
262230251461 ?95% ? ?0.25K ?17482 ? ? ? 1569928Ktw_sock_TCP
ss -s
Total:259 (kernel 494)
TCP:262419 (estab 113, closed262143, orphaned 156, synrecv 0, timewait262143/0), ports 80Transport Total? ? IP? ? ? ? IPv6*? ? ? ? 494? ? ? -? ? ? ? -RAW1? ? ? ? 1? ? ? ? 0UDP0? ? ? ? 0? ? ? ? 0TCP276? ? ? 276? ? ? 0INET277? ? ? 277? ? ? 0FRAG0? ? ? ? 0? ? ? ? 0
唯一不爽的就是:
系統(tǒng)日志中overflow 錯(cuò)誤一直再刷屏,也許該buckets 調(diào)大一下了
TCP: time wait bucket table overflow
TCP: time wait bucket table overflow
TCP: time wait bucket table overflow
TCP: time wait bucket table overflow
TCP: time wait bucket table overflow
5. 業(yè)務(wù)上也可以設(shè)計(jì)由客戶端主動(dòng)關(guān)閉連接
原理分析
1. MSL 由來
發(fā)起連接關(guān)閉方回復(fù)最后一個(gè)fin 的ack软舌,為避免對(duì)方ack 收不到才漆、重發(fā)的或還在中間路由上的fin 把新連接給干掉了,等個(gè)2MSL佛点,4min醇滥。
也就是連接有誰關(guān)閉的那一方有time_wait問題,被關(guān)那方無此問題恋脚。
2. reuse腺办、recycle
通過timestamp的遞增性來區(qū)分是否新連接焰手,新連接的timestamp更大糟描,那么小的timestamp的fin 就不會(huì)fin掉新連接。
3. reuse
通過timestamp 遞增性书妻,客戶端船响、服務(wù)器能夠處理outofbind fin包
4. recycle
對(duì)于服務(wù)端躬拢,同一個(gè)src ip,可能會(huì)是NAT后很多機(jī)器见间,這些機(jī)器timestamp遞增性無可保證聊闯,服務(wù)器會(huì)拒絕非遞增請(qǐng)求連接。
細(xì)節(jié)之處還得好好閱讀tcp 協(xié)議棧源碼了
建議閱讀以下參考:
Coping with the TCP TIME-WAITstate on busy Linux servers
tcp短連接TIME_WAIT問題解決方法大全(3)——tcp_tw_recycle
tcp短連接TIME_WAIT問題解決方法大全(4)——tcp_tw_reuse