參考
TCP_TW_RECYCLE
It enables fast recycling of TIME_WAIT sockets. ... Known to cause some issues with hoststated (load balancing and fail over) if enabled, should be used with caution.
TCP_TW_REUSE
This allows reusing sockets in TIME_WAIT state for new connections when it is safe from protocol viewpoint. Default value is 0 (disabled). It is generally a safer alternative to tcp_tw_recycle
Note: The tcp_tw_reuse setting is particularly useful in environments where numerous short connections are open and left in TIME_WAIT state, such as web servers. Reusing the sockets can be very effective in reducing server load.
NOTE:
net.ipv4.tcp_tw_recycle
has been removed from Linux?4.12.
SOURCE: https://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux
我看到ubuntu18.04版本是linux 4.15
使用TIME_WAIT導致的錯誤后果
**
若TIME_WAIT事件設置過短, 會導致錯誤后果
TIME_WAIT結束過早, 導致之前迷失的第三次握手突然到達, 新連接突然成功
TIME_WAIT結束過早, 若最后的ACK丟失, 卻過早結束TIME_WAIT, 導致新連接發(fā)起連接請求時, 舊連接還未關閉狀態(tài), 拒絕連接
小總結
- 最合適的解決方案是增加更多的四元組數(shù)目, 比如, 服務器可用端口, 或服務器IP, 讓服務器能容納足夠多的TIME-WAIT狀態(tài)連接旅敷。
- 在我們常見的互聯(lián)網(wǎng)架構中(NGINX反代跟NGINX,NGINX跟FPM,F(xiàn)PM跟redis、mysql、memcache等), 減少TIME-WAIT狀態(tài)的TCP連接涕蚤,最有效的是使用長連接宪卿,不要用短連接, 尤其是負載均衡跟web服務器之間. 尤其是鏈家事件中的PHP連不上redis。
TCP_TW_RECYCLE分析1
在4.12之后的內(nèi)核已移除tcp_tw_recycle內(nèi)核參數(shù):
https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git/commit/?id=4396e46187ca5070219b81773c4e65088dac50cc
TCP_TW_RECYCLE分析2
會快速回收socket
相較于tcp_tw_reuse只在需要時重用TIME_WAIT狀態(tài)socket, tcp_tw_recycle處理更激進万栅,它會快速回收TIME_WAIT狀態(tài)的socket佑钾。
內(nèi)核代碼中有定時器來調(diào)用tcp_time_wait函數(shù)來處理TIME_WAIT狀態(tài)的socket,函數(shù)源碼如下:
(省略源碼)
從代碼上可以看到只有當tcp_timestamps和tcp_tw_recycle都開啟時烦粒,才會快速回收休溶。
回收時間
而根據(jù)代碼:
const int rto = (icsk->icsk_rto << 2) - (icsk->icsk_rto >> 1);
可以看到回收的超時時間為3.5 * RTO, RTO是由TCP分段中timestamp選項計算得到的,一般場景下這個時間在幾百毫秒左右扰她。
可主動跳過TIME_WAIT
從上面的
tcp_time_wait
源碼也可以看出, 當TIME_WAIT狀態(tài)的socket數(shù)量超過tcp_max_tw_buckets
選項指定的數(shù)量值時兽掰,會直接關閉socket,進入CLOSED狀態(tài)徒役,內(nèi)核日志中會報錯:
TCP: time wait bucket table overflow
的錯誤孽尽。若把tcp_max_tw_buckets
選項設置為0,則可以直接跳過TIME_WAIT狀態(tài)忧勿。
NAT下服務端引發(fā)的問題
然而杉女,tcp_tw_recycle選項在NAT環(huán)境使用有一些隱患,下面來分析一下鸳吸。
協(xié)議棧收到syn包時會調(diào)用到函數(shù)tcp_v4_conn_request, 該函數(shù)部分源碼如下:
(省略linux內(nèi)核TCP源碼)
從代碼上我們可以看到熏挎,當開啟tcp_timestamps
和tcp_tw_recycle
選項時,60秒內(nèi)來自同一源IP主機的TCP分段的時間戳必須遞增晌砾,否則該分段會被直接丟棄坎拐。
假如多個客戶端從NAT環(huán)境訪問服務器,服務器端看到的對端IP是一樣的养匈,但是TCP分段的時間戳會不一樣哼勇。當時間戳較大的客戶端連接成功后的60秒內(nèi),時間戳較小的客戶端再次連接服務器乖寒,syn包會被服務器直接丟棄猴蹂,導致連接失敗。
tcp_tw_reuse
參考
- tcp_tw_reuse只在連接時起作用
-
被拋棄的tcp_recycle
tcp_tw_reuse設置的是內(nèi)核變量sysctl_tcp_tw_reuse楣嘁,而這個變量僅在tcp_twsk_unique函數(shù)中使用磅轻。而這個函數(shù)的調(diào)用路徑有且僅有一個:tcp_v4_connect->inet_hash_connect->__inet_check_established->twsk_unique->twsk_unique
。
// net/ipv4/tcp_ipv4.c
int tcp_twsk_unique(struct sock *sk, struct sock *sktw, void *twp)
{
/* ……省略…… */
if (tcptw->tw_ts_recent_stamp &&
(!twp || (sock_net(sk)->ipv4.sysctl_tcp_tw_reuse &&
get_seconds() - tcptw->tw_ts_recent_stamp > 1))) {
/* ……省略…… */
return 1;
}
return 0; }
- 也就是說
tcp_tw_reuse
僅在TCP套接字作為客戶端逐虚,調(diào)用connect時起作用聋溜。絕大部分的TCP服務器,應該不會有大量主動連接的動作(或許會連接DB等叭爱,但一般也是長連接)撮躁。因此這個選項對于TCP服務來說,基本上是無用的买雾,完全是沒必要打開把曼,甚至可能還會給一些初級的運維工程師帶來迷惑和干擾杨帽。 - 如果新的時間戳比之前存儲的時間戳更大,那么Linux將會從TIME-WAIT狀態(tài)的存活連接中選取一個嗤军,重新分配給新的連接出去的的TCP連接注盈,這種情況下,TIME-WAIT的連接相當于只需要1秒就可以被復用了叙赚。
SO_LINGER和SO_REUSEADDR
這兩個應該都是setsockopt的參數(shù)
https://blog.csdn.net/u012635648/article/details/80279338
SO_LINGER應該是設置TIME_WAIT時間, 超時則發(fā)送RST強行關閉-
https://zhuanlan.zhihu.com/p/31329253
后來查了查這個選項對應的linux內(nèi)核參數(shù)是tcp_tw_reuse
SO_REUSEADDR對應tcp_tw_reuse
總結
tcp_tw_reuse和tcp_tw_recycle都需要通信雙方開啟net.ipv4.tcp_timestamps(默認開啟的)
net.ipv4.tcp_fin_timeout = 30 表示如果套接字由本端要求關閉老客,這個參數(shù)決定了它保持在FIN-WAIT-2狀態(tài)的時間。
net.ipv4.tcp_keepalive_time = 1200 表示當keepalive起用的時候震叮,TCP發(fā)送keepalive消息的頻度胧砰。缺省是2小時,改為20分鐘
假如是客戶端-負載均衡nginx-服務端架構
- 對于服務端:
- tcp_tw_reuse沒啥用, 因為是用于發(fā)起連接的
- tcp_tw_recycle不要用, 因為在NAT下會有問題
- 對于nginx:
- 以客戶端身份連接服務端時, tcp_tw_reuse能回收端口, 可以考慮用, 但最好還是改成長連接.
- tcp_tw_recycle
常用的參數(shù)
net.ipv4.ip_local_port_range = 9000 6553 # 默認值范圍較小
net.ipv4.tcp_max_tw_buckets = 10000 # 默認值較小苇瓣,還可適當調(diào)小
net.ipv4.tcp_tw_reuse = 1 #
net.ipv4.tcp_fin_timeout = 10 #`