從Linux源碼看Socket的listen及連接隊列

今天就從Linux源碼的角度看下Server端的Socket在進(jìn)行l(wèi)isten的時候到底做了哪些事情(基于Linux 3.10內(nèi)核)互亮,當(dāng)然由于listen的backlog參數(shù)和半連接hash表以及全連接隊列都相關(guān)怪嫌,在這里也一塊講了筝闹。

Server端Socket需要Listen

眾所周知汗贫,一個Server端Socket的建立澈圈,需要socket域携、bind棺弊、listen晶密、accept四個步驟。 今天筆者就聚焦于Listen這個步驟模她。

代碼如下:

voidstart_server(){// server fdintsockfd_server;// accept fd intsockfd;intcall_err;structsockaddr_insock_addr;......? ? call_err=bind(sockfd_server,(struct sockaddr*)(&sock_addr),sizeof(sock_addr));if(call_err ==-1){fprintf(stdout,"bind error!\n");exit(1);? ? }// 這邊就是我們今天的聚焦點listencall_err=listen(sockfd_server,MAX_BACK_LOG);if(call_err ==-1){fprintf(stdout,"listen error!\n");exit(1);? ? }}

首先我們通過socket系統(tǒng)調(diào)用創(chuàng)建了一個socket稻艰,其中指定了SOCK_STREAM,而且最后一個參數(shù)為0,也就是建立了一個通常所有的TCP Socket侈净。在這里尊勿,我們直接給出TCP Socket所對應(yīng)的ops也就是操作函數(shù)。

?Listen系統(tǒng)調(diào)用

好了畜侦,現(xiàn)在我們直接進(jìn)入Listen系統(tǒng)調(diào)用吧元扔。

#include<sys/socket.h>// 成功返回0,錯誤返回-1,同時錯誤碼設(shè)置在errnointlisten(intsockfd,intbacklog);

注意,這邊的listen調(diào)用是被glibc的INLINE_SYSCALL裝過一層旋膳,其將返回值修正為只有0和-1這兩個選擇澎语,同時將錯誤碼的絕對值設(shè)置在errno內(nèi)。 這里面的backlog是個非常重要的參數(shù)验懊,如果設(shè)置不好擅羞,是個很隱蔽的坑。

對于java開發(fā)者而言义图,基本用的現(xiàn)成的框架减俏,而java本身默認(rèn)的backlog設(shè)置大小只有50。這就會引起一些微妙的現(xiàn)象碱工,這個在本文中會進(jìn)行講解娃承。

接下來奏夫,我們就進(jìn)入Linux內(nèi)核源碼棧吧

listen|->INLINE_SYSCALL(listen......)|->SYSCALL_DEFINE2(listen,int, fd,int, backlog)/* 檢測對應(yīng)的描述符fd是否存在,不存在桶蛔,返回-BADF|->sockfd_lookup_light/* 限定傳過來的backlog最大值不超出 /proc/sys/net/core/somaxconn|->if((unsignedint)backlog > somaxconn) backlog = somaxconn|->sock->ops->listen(sock, backlog) <=> inet_listen

值得注意的是,Kernel對于我們傳進(jìn)來的backlog值做了一次調(diào)整舔示,讓其無法>內(nèi)核參數(shù)設(shè)置中的somaxconn碟婆。

需要C/C++ Linux高級服務(wù)器架構(gòu)師學(xué)習(xí)資料加群563998835(包括C/C++,Linux惕稻,golang技術(shù)俺祠,Nginx公给,ZeroMQ,MySQL蔫缸,Redis腿准,fastdfs,MongoDB拾碌,ZK吐葱,流媒體,CDN校翔,P2P弟跑,K8S,Docker防症,TCP/IP孟辑,協(xié)程,DPDK告希,ffmpeg等)

inet_listen

接下來就是核心調(diào)用程序inet_listen了扑浸。

intinet_listen(struct socket *sock, int backlog){/*Really, if the socket is already in listen state*we can only allow the backlog to be adjusted.*if((sysctl_tcp_fastopen & TFO_SERVER_ENABLE) != 0 &&inet_csk(sk)->icsk_accept_queue.fastopenq== NULL) {fastopen的邏輯if((sysctl_tcp_fastopen & TFO_SERVER_WO_SOCKOPT1) != 0)err=fastopen_init_queue(sk, backlog);elseif ((sysctl_tcp_fastopen &TFO_SERVER_WO_SOCKOPT2)!= 0)err=fastopen_init_queue(sk,((uint)sysctl_tcp_fastopen)>> 16);elseerr=0;if(err)gotoout;}if(old_state!= TCP_LISTEN) {err=inet_csk_listen_start(sk, backlog);}sk->sk_max_ack_backlog=backlog;......}

從這段代碼中,第一個有意思的地方就是,listen這個系統(tǒng)調(diào)用可以重復(fù)調(diào)用燕偶!第二次調(diào)用的時候僅僅只能修改其backlog隊列長度(雖然感覺沒啥必要)喝噪。

首先,我們看下除fastopen之外的邏輯(fastopen以后開單章詳細(xì)討論)指么。也就是最后的inet_csk_listen_start調(diào)用酝惧。

int inet_csk_listen_start(structsock*sk,constint nr_table_entries){......// 這里的nr_table_entries即為調(diào)整過后的backlog// 但是在此函數(shù)內(nèi)部會進(jìn)一步將nr_table_entries = min(backlog,sysctl_max_syn_backlog)這個邏輯int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries);......inet_csk_delack_init(sk);// 設(shè)置socket為listen狀態(tài)sk->sk_state = TCP_LISTEN;// 檢查端口號if(!sk->sk_prot->get_port(sk, inet->inet_num)){// 清除掉dst cachesk_dst_reset(sk);// 將當(dāng)前sock鏈入listening_hash// 這樣榴鼎,當(dāng)SYN到來的時候就能通過__inet_lookup_listen函數(shù)找到這個listen中的socksk->sk_prot->hash(sk);}sk->sk_state = TCP_CLOSE;__reqsk_queue_destroy(&icsk->icsk_accept_queue);// 端口已經(jīng)被占用,返回錯誤碼-EADDRINUSEreturn-EADDRINUSE;}

這里最重要的一個調(diào)用sk->sk_prot->hash(sk),也就是inet_hash,其將當(dāng)前sock鏈入全局的listen hash表晚唇,這樣就可以在SYN包到來的時候?qū)ふ业綄?yīng)的listen sock了巫财。如下圖所示:

如圖中所示,如果開啟了SO_REUSEPORT的話哩陕,可以讓不同的Socket listen(監(jiān)聽)同一個端口平项,這樣就能在內(nèi)核進(jìn)行創(chuàng)建連接的負(fù)載均衡。在Nginx 1.9.1版本開啟了之后悍及,其壓測性能達(dá)到3倍!

半連接隊列hash表和全連接隊列

在筆者一開始翻閱的資料里面,都提到闽瓢。tcp的連接隊列有兩個,一個是sync_queue,另一個accept_queue心赶。但筆者仔細(xì)閱讀了一下源碼扣讼,其實并非如此。事實上缨叫,sync_queue其實是個hash表(syn_table)椭符。另一個隊列是icsk_accept_queue。

所以在本篇文章里面耻姥,將其稱為reqsk_queue(request_socket_queue的簡稱)销钝。 在這里,筆者先給出這兩個queue在三次握手時候的出現(xiàn)時機(jī)咏闪。如下圖所示:

當(dāng)然了曙搬,除了上面提到的qlen和sk_ack_backlog這兩個計數(shù)器之外摔吏,還有一個qlen_young,其作用如下:

qlen_young: 記錄的是剛有SYN到達(dá)鸽嫂,沒有被SYN_ACK重傳定時器重傳過SYN_ACK同時也沒有完成過三次握手的sock數(shù)量

如下圖所示:

至于SYN_ACK的重傳定時器在內(nèi)核中的代碼為下面所示:

staticvoidtcp_synack_timer(structsock *sk){inet_csk_reqsk_queue_prune(sk, TCP_SYNQ_INTERVAL,? TCP_TIMEOUT_INIT, TCP_RTO_MAX);}

這個定時器在半連接隊列不為空的情況下,以200ms(TCP_SYNQ_INTERVAL)為間隔運(yùn)行一次征讲。限于篇幅据某,筆者就在這里不多討論了。

為什么要存在半連接隊列

因為根據(jù)TCP協(xié)議的特點诗箍,會存在半連接這樣的網(wǎng)絡(luò)攻擊存在癣籽,即不停的發(fā)SYN包,而從不回應(yīng)SYN_ACK滤祖。如果發(fā)一個SYN包就讓Kernel建立一個消耗極大的sock筷狼,那么很容易就內(nèi)存耗盡。所以內(nèi)核在三次握手成功之前匠童,只分配一個占用內(nèi)存極小的request_sock埂材,以防止這種攻擊的現(xiàn)象,再配合syn_cookie機(jī)制汤求,盡量抵御這種半連接攻擊的風(fēng)險俏险。

半連接hash表和全連接隊列的限制

由于全連接隊列里面保存的是占用內(nèi)存很大的普通sock严拒,所以Kernel給其加了一個最大長度的限制。這個限制為:

下面三者中的最小值

1.listen系統(tǒng)調(diào)用中傳進(jìn)去的backlog

2./proc/sys/inet/ipv4/tcp_max_syn_backlog

3./proc/sys/net/core/somaxconn?

即min(backlog,tcp_ma_syn_backlog,somaxcon)

如果超過這個somaxconn會被內(nèi)核丟棄竖独,如下圖所示:

這種情況的連接丟棄會發(fā)生比較詭異的現(xiàn)象裤唠。在不設(shè)置tcp_abort_on_overflow的時候,client端無法感知,就會導(dǎo)致即在第一筆調(diào)用的時候才會知道對端連接丟棄了莹痢。

那么种蘸,怎么讓client端在這種情況下感知呢,我們可以設(shè)置一下tcp_abort_on_overflow

echo'1'> tcp_abort_on_overflow

設(shè)置后竞膳,如下圖所示:

當(dāng)然了劈彪,最直接的還是調(diào)大backlog!

listen(fd,2048)echo'2048'>/proc/sys/inet/ipv4/tcp_max_syn_backlogecho'2048'>/proc/sys/net/core/somaxconn

backlog對半連接隊列的影響

這個backlog對半連接隊列也有影響,如下代碼所示:

/* TW buckets are converted to open requests without

* limitations, they conserve resources and peer is

* evidently real one.

*/// 在開啟SYN cookie的情況下顶猜,如果半連接隊列長度超過backlog沧奴,則發(fā)送cookie// 否則丟棄if(inet_csk_reqsk_queue_is_full(sk) && !isn) {want_cookie = tcp_syn_flood_action(sk, skb,"TCP");if(!want_cookie)gotodrop;}/* Accept backlog is full. If we have already queued enough

* of warm entries in syn queue, drop request. It is better than

* clogging syn queue with openreqs with exponentially increasing

* timeout.

*/// 在全連接隊列滿的情況下,如果有young_ack长窄,那么直接丟棄if(sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) >1) {NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS);gotodrop;}

我們在dmesg里面經(jīng)程戏停看到的

PossibleSYN floodingonport8080

就是由于半連接隊列滿以后,Kernel發(fā)送cookie校驗而導(dǎo)致挠日。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末疮绷,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子嚣潜,更是在濱河造成了極大的恐慌冬骚,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,036評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件懂算,死亡現(xiàn)場離奇詭異只冻,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)计技,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,046評論 3 395
  • 文/潘曉璐 我一進(jìn)店門喜德,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人垮媒,你說我怎么就攤上這事舍悯。” “怎么了睡雇?”我有些...
    開封第一講書人閱讀 164,411評論 0 354
  • 文/不壞的土叔 我叫張陵萌衬,是天一觀的道長。 經(jīng)常有香客問我它抱,道長秕豫,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,622評論 1 293
  • 正文 為了忘掉前任抗愁,我火速辦了婚禮馁蒂,結(jié)果婚禮上呵晚,老公的妹妹穿的比我還像新娘。我一直安慰自己沫屡,他們只是感情好饵隙,可當(dāng)我...
    茶點故事閱讀 67,661評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沮脖,像睡著了一般金矛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上勺届,一...
    開封第一講書人閱讀 51,521評論 1 304
  • 那天驶俊,我揣著相機(jī)與錄音,去河邊找鬼免姿。 笑死饼酿,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的胚膊。 我是一名探鬼主播故俐,決...
    沈念sama閱讀 40,288評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼紊婉!你這毒婦竟也來了药版?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,200評論 0 276
  • 序言:老撾萬榮一對情侶失蹤喻犁,失蹤者是張志新(化名)和其女友劉穎槽片,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肢础,經(jīng)...
    沈念sama閱讀 45,644評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡还栓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,837評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了乔妈。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蝙云。...
    茶點故事閱讀 39,953評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡氓皱,死狀恐怖路召,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情波材,我是刑警寧澤股淡,帶...
    沈念sama閱讀 35,673評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站廷区,受9級特大地震影響唯灵,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜隙轻,卻給世界環(huán)境...
    茶點故事閱讀 41,281評論 3 329
  • 文/蒙蒙 一埠帕、第九天 我趴在偏房一處隱蔽的房頂上張望垢揩。 院中可真熱鬧,春花似錦敛瓷、人聲如沸叁巨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,889評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锋勺。三九已至,卻和暖如春狡蝶,著一層夾襖步出監(jiān)牢的瞬間庶橱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,011評論 1 269
  • 我被黑心中介騙來泰國打工贪惹, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留苏章,地道東北人。 一個月前我還...
    沈念sama閱讀 48,119評論 3 370
  • 正文 我出身青樓奏瞬,卻偏偏與公主長得像布近,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子丝格,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,901評論 2 355