[譯] TCP的SYN隊(duì)列和Accept隊(duì)列

關(guān)于兩個(gè)隊(duì)列

46323_all-1.jpeg

首先我們必須明白么抗,處于“LISTENING”狀態(tài)的TCP socket赘那,有兩個(gè)獨(dú)立的隊(duì)列:

  • SYN隊(duì)列(SYN Queue)
  • Accept隊(duì)列(Accept Queue)

這兩個(gè)術(shù)語(yǔ)有時(shí)也被稱為“reqsk_queue”,“ACK backlog”失息,“l(fā)isten backlog”矮台,甚至“TCP backlog”,但是這篇文章中我們使用上面兩個(gè)術(shù)語(yǔ)以免造成混淆根时。

SYN隊(duì)列

SYN隊(duì)列存儲(chǔ)了收到SYN包的連接(對(duì)應(yīng)內(nèi)核代碼的結(jié)構(gòu)體:struct inet_request_sock)瘦赫。它的職責(zé)是回復(fù)SYN+ACK包,并且在沒(méi)有收到ACK包時(shí)重傳蛤迎,直到超時(shí)确虱。在Linux下,重傳的次數(shù)為:

$ sysctl net.ipv4.tcp_synack_retries
net.ipv4.tcp_synack_retries = 5

文檔中對(duì)tcp_synack_retries的描述如下:

tcp_synack_retries - int整型

    對(duì)于一個(gè)被動(dòng)TCP連接替裆,重傳SYNACKs的次數(shù)校辩。該值不能超過(guò)255窘问。
    默認(rèn)值為5,如果初始RTO是1秒宜咒,那么對(duì)應(yīng)的最后一次重傳是31秒惠赫。
    對(duì)應(yīng)的最后一次超時(shí)是63秒之后。

發(fā)送完SYN+ACK之后故黑,SYN隊(duì)列等待從客戶端發(fā)出的ACK包(也即三次握手的最后一個(gè)包)儿咱。當(dāng)收到ACK包時(shí),首先找到對(duì)應(yīng)的SYN隊(duì)列,再在對(duì)應(yīng)的SYN隊(duì)列中檢查相關(guān)的數(shù)據(jù)看是否匹配,如果匹配哄芜,內(nèi)核將該連接相關(guān)的數(shù)據(jù)從SYN隊(duì)列中移除,創(chuàng)建一個(gè)完整的連接(對(duì)應(yīng)內(nèi)核代碼的結(jié)構(gòu)體:struct inet_sock)钳宪,并將這個(gè)連接加入Accept隊(duì)列。

Accept隊(duì)列

Accept隊(duì)列中存放的是已建立好的連接扳炬,也即等待被上層應(yīng)用程序取走的連接吏颖。當(dāng)進(jìn)程調(diào)用accept(),這個(gè)socket從隊(duì)列中取出恨樟,傳遞給上層應(yīng)用程序半醉。

這就是Linux處理SYN包的一個(gè)簡(jiǎn)單描述。順便一提厌杜,當(dāng)socket開(kāi)啟了TCP_DEFER_ACCEPTTCP_FASTOPEN時(shí),工作方式將會(huì)有細(xì)微不同计螺,本文不做介紹夯尽。

隊(duì)列大小限制

應(yīng)用程序通過(guò)調(diào)用系統(tǒng)調(diào)用listen(2),傳入backlog參數(shù)登馒,來(lái)設(shè)置SYN隊(duì)列和Accept隊(duì)列的最大大小匙握。比如下面這樣,將SYN隊(duì)列和Accept隊(duì)列的最大大小同時(shí)設(shè)置為1024:

listen(sfd, 1024)

注意陈轿,在4.3版本之前的內(nèi)核圈纺,SYN隊(duì)列的大小是用另一種方式計(jì)算。

SYN隊(duì)列的最大大小以前是用net.ipv4.tcp_max_syn_backlog來(lái)配置麦射,但是現(xiàn)在已經(jīng)不再使用了《耆ⅲ現(xiàn)在用net.core.somaxconn來(lái)同時(shí)表示SYN隊(duì)列和Accept隊(duì)列的最大大小。在我們的服務(wù)器上潜秋,我們將它設(shè)置為16k:

$ sysctl net.core.somaxconn
net.core.somaxconn = 16384

隊(duì)列設(shè)置為多大合適

知道了上面這些信息后蛔琅,你可能會(huì)問(wèn),隊(duì)列設(shè)置為多大合適峻呛?

答案是:看情況罗售。對(duì)于大多數(shù)的TCP服務(wù)來(lái)說(shuō)辜窑,這并不太重要。比如寨躁,Go語(yǔ)言1.11版本之前穆碎,并沒(méi)有提供設(shè)置隊(duì)列大小的方法。

盡管如此职恳,也存在一些合理的原因所禀,需要增大隊(duì)列的大小:

  • 當(dāng)建立連接的請(qǐng)求速度確實(shí)很大時(shí)话肖,即使是對(duì)于一個(gè)高性能的服務(wù)來(lái)說(shuō)北秽,SYN隊(duì)列也可能需要設(shè)置的大一些。
  • SYN隊(duì)列的大小最筒,換言之就是等待ACK包的連接數(shù)贺氓。也即與客戶端的平均往返時(shí)間越大,堆積在SYN隊(duì)列中的連接就越多床蜘。對(duì)于那些大部分客戶端都距離服務(wù)器很遠(yuǎn)的場(chǎng)景辙培,比如說(shuō)往返時(shí)間幾百毫秒以上,可以將隊(duì)列大小設(shè)置的大一些邢锯。
  • TCP_DEFER_ACCEPT選項(xiàng)如果打開(kāi)了扬蕊,會(huì)導(dǎo)致socket在SYN-RECV狀態(tài)下維持更長(zhǎng)的時(shí)間,也即增大了處于SYN隊(duì)列中的時(shí)間丹擎。

但是尾抑,將backlog設(shè)置的過(guò)大也會(huì)帶來(lái)不好的影響:

  • SYN隊(duì)列中的每一個(gè)槽位都需要占用一些內(nèi)存。當(dāng)遇到SYN Flood攻擊時(shí)蒂培,我們沒(méi)有必要為這些發(fā)起攻擊的包浪費(fèi)資源再愈。SYN隊(duì)列中的inet_request_sock結(jié)構(gòu)體,在4.14內(nèi)核下护戳,每個(gè)將占用256字節(jié)的內(nèi)存翎冲。

linux下,如果想查看SYN隊(duì)列的當(dāng)前狀態(tài)媳荒,我們可以使用ss命令來(lái)查詢SYN-RECV狀態(tài)的socket抗悍。比如如下執(zhí)行結(jié)果,表示80端口的SYN隊(duì)列中當(dāng)前有119個(gè)元素钳枕,443端口則為78缴渊。

$ ss -n state syn-recv sport = :80 | wc -l
119
$ ss -n state syn-recv sport = :443 | wc -l
78

還可以通過(guò)我們的SystemTap腳本來(lái)觀察這個(gè)數(shù)據(jù):resq.stp

假如程序調(diào)用accept()不夠快?

46323_full-accept-1.jpeg

如果程序調(diào)用accept()不夠快會(huì)發(fā)生什么呢鱼炒?

  • 后續(xù)收到的SYN包疟暖,不會(huì)被SYN隊(duì)列處理
  • 后續(xù)收到的(用于建立連接的)ACK包,不會(huì)被SYN隊(duì)列處理
  • TcpExtListenOverflows / LINUX_MIB_LISTENOVERFLOWS計(jì)數(shù)增加
  • TcpExtListenDrops / LINUX_MIB_LISTENDROPS計(jì)數(shù)增加

發(fā)生這種情況時(shí),我們只能寄希望于程序的處理性能稍后能恢復(fù)正常俐巴,客戶端重新發(fā)送被服務(wù)端丟棄的包骨望。

內(nèi)核的這種表現(xiàn)對(duì)于大部分服務(wù)來(lái)說(shuō)是可接受的。順便一提欣舵,可以通過(guò)調(diào)整net.ipv4.tcp_abort_on_overflow這個(gè)全局參數(shù)來(lái)修改這種表現(xiàn)擎鸠,但是最好還是不要改這個(gè)參數(shù)。

可以通過(guò)查看nstat的計(jì)數(shù)來(lái)觀察Accept隊(duì)列溢出的狀態(tài):

$ nstat -az TcpExtListenDrops
TcpExtListenDrops     49199     0.0

但是這是一個(gè)全局的計(jì)數(shù)缘圈。觀察起來(lái)不夠直觀劣光,比如有時(shí)我們觀察到它在增長(zhǎng),但是所有的服務(wù)程序看起來(lái)都是正常的糟把。此時(shí)我們可以使用ss命令來(lái)觀察單個(gè)監(jiān)聽(tīng)端口的Accept隊(duì)列大芯钗小:

$ ss -plnt sport = :6443|cat
State   Recv-Q Send-Q  Local Address:Port  Peer Address:Port
LISTEN  0      1024                *:6443             *:*

Recv-Q這一列顯示的是處于Accept隊(duì)列中的socket數(shù)量,Send-Q顯示的是隊(duì)列的最大大小遣疯。在上面的例子中雄可,我們發(fā)現(xiàn)并沒(méi)有未被程序accept()的socket,但是我們依然發(fā)現(xiàn)ListenDrops計(jì)數(shù)在增長(zhǎng)缠犀。

這是因?yàn)槲覀兊某绦蛑皇侵芷谛缘亩虝嚎ㄗ〔惶幚硇碌倪B接数苫,而非永久性的不處理,過(guò)段時(shí)間程序又恢復(fù)了正常辨液。這種情況下虐急,用ss命令比較難觀察這種現(xiàn)象,因此我們寫(xiě)了一個(gè)SystemTap腳本滔迈,它會(huì)hook進(jìn)內(nèi)核止吁,把被丟棄的SYN包打印出來(lái):

$ sudo stap -v acceptq.stp
time (us)        acceptq qmax  local addr    remote_addr
1495634198449075  1025   1024  0.0.0.0:6443  10.0.1.92:28585
1495634198449253  1025   1024  0.0.0.0:6443  10.0.1.92:50500
1495634198450062  1025   1024  0.0.0.0:6443  10.0.1.92:65434
...

通過(guò)上面的操作,可以觀察到哪些SYN包被ListenDrops影響了燎悍。從而我們也就可以知道哪些程序在丟失連接敬惦。

英文原文來(lái)自cloudflare的博客,地址如下:
SYN packet handling in the wild间涵。
英文原文在后半部分還介紹了SYN Cookies對(duì)于SYN Flood的影響仁热,我在本文中沒(méi)有翻譯榜揖,感興趣的可以看看原文勾哩。

本文原始地址: https://pengrl.com/p/46323/
聲明: 本文后續(xù)所有修改都會(huì)第一時(shí)間在原始地址更新。本文歡迎任何形式轉(zhuǎn)載举哟,轉(zhuǎn)載時(shí)注明原始出處即可思劳。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市妨猩,隨后出現(xiàn)的幾起案子潜叛,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件威兜,死亡現(xiàn)場(chǎng)離奇詭異销斟,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)椒舵,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)蚂踊,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人笔宿,你說(shuō)我怎么就攤上這事犁钟。” “怎么了泼橘?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,282評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵涝动,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我炬灭,道長(zhǎng)醋粟,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,842評(píng)論 1 295
  • 正文 為了忘掉前任担败,我火速辦了婚禮昔穴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘提前。我一直安慰自己吗货,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,857評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布狈网。 她就那樣靜靜地躺著宙搬,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拓哺。 梳的紋絲不亂的頭發(fā)上勇垛,一...
    開(kāi)封第一講書(shū)人閱讀 51,679評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音士鸥,去河邊找鬼闲孤。 笑死,一個(gè)胖子當(dāng)著我的面吹牛烤礁,可吹牛的內(nèi)容都是我干的讼积。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼脚仔,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼勤众!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起鲤脏,我...
    開(kāi)封第一講書(shū)人閱讀 39,311評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤们颜,失蹤者是張志新(化名)和其女友劉穎吕朵,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體窥突,經(jīng)...
    沈念sama閱讀 45,767評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡努溃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了阻问。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片茅坛。...
    茶點(diǎn)故事閱讀 40,090評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖则拷,靈堂內(nèi)的尸體忽然破棺而出贡蓖,到底是詐尸還是另有隱情,我是刑警寧澤煌茬,帶...
    沈念sama閱讀 35,785評(píng)論 5 346
  • 正文 年R本政府宣布斥铺,位于F島的核電站,受9級(jí)特大地震影響坛善,放射性物質(zhì)發(fā)生泄漏晾蜘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,420評(píng)論 3 331
  • 文/蒙蒙 一眠屎、第九天 我趴在偏房一處隱蔽的房頂上張望剔交。 院中可真熱鬧,春花似錦改衩、人聲如沸岖常。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,988評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)竭鞍。三九已至,卻和暖如春橄镜,著一層夾襖步出監(jiān)牢的瞬間偎快,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,101評(píng)論 1 271
  • 我被黑心中介騙來(lái)泰國(guó)打工洽胶, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留晒夹,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,298評(píng)論 3 372
  • 正文 我出身青樓姊氓,卻偏偏與公主長(zhǎng)得像丐怯,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子他膳,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,033評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容

  • 1响逢、TCP狀態(tài)linux查看tcp的狀態(tài)命令:1)绒窑、netstat -nat 查看TCP各個(gè)狀態(tài)的數(shù)量2)棕孙、lso...
    北辰青閱讀 9,427評(píng)論 0 11
  • 隊(duì)列及參數(shù) server端的半連接隊(duì)列(syn隊(duì)列) 在三次握手協(xié)議中,服務(wù)器維護(hù)一個(gè)半連接隊(duì)列,該隊(duì)列為每個(gè)客戶...
    go4it閱讀 8,268評(píng)論 4 17
  • 在握手階段存在兩個(gè)隊(duì)列:syns queue(半連接隊(duì)列)蟀俊;accept queue(全連接隊(duì)列)钦铺。 流程簡(jiǎn)述如下...
    菜鳥(niǎo)小玄閱讀 1,155評(píng)論 0 0
  • tcp 協(xié)議 是互聯(lián)網(wǎng)中最常用的協(xié)議 , 開(kāi)發(fā)人員基本上天天和它打交道肢预,對(duì)它進(jìn)行深入了解矛洞。 可以幫助我們排查定位b...
    stevenrao閱讀 1,089評(píng)論 0 1
  • 午后的陽(yáng)光正足,溫和的微風(fēng)刮過(guò)楊柳的青枝烫映,綠葉抽出條來(lái)沼本,湖水泛起漣漪。 暖春的陽(yáng)光真是再妙不過(guò)啦锭沟,整個(gè)人躺在太陽(yáng)底...
    沈書(shū)樓閱讀 356評(píng)論 0 0