問(wèn)題還原
公司有業(yè)務(wù)在蘋(píng)果設(shè)備為客戶(hù)端的設(shè)備上訪問(wèn)時(shí),偶爾會(huì)出現(xiàn)訪問(wèn)超時(shí)的情況,剛開(kāi)始概率還少以為是本地網(wǎng)絡(luò)問(wèn)題,隨之出現(xiàn)概率越來(lái)越多,問(wèn)題就變的越發(fā)嚴(yán)重了
- 開(kāi)始使用iPhone 12以下4G網(wǎng)絡(luò)(iPhone 12以上的設(shè)備才有5G)測(cè)試復(fù)現(xiàn)了這個(gè)問(wèn)題,偶爾性超時(shí),但是使用5G網(wǎng)絡(luò)又沒(méi)有這種情況出現(xiàn),開(kāi)始判斷是設(shè)備問(wèn)題,因?yàn)檫@個(gè)問(wèn)題只出現(xiàn)在了蘋(píng)果設(shè)備上
- 使用iPhone12及以上wifi測(cè)試又復(fù)現(xiàn)了這個(gè)問(wèn)題祖娘,1推測(cè)的設(shè)備問(wèn)題沒(méi)有得到驗(yàn)證
由于我們沒(méi)有更多的iPhone設(shè)備去測(cè)試.所以無(wú)法驗(yàn)證問(wèn)題.所以懷疑是dns的問(wèn)題,然后在客戶(hù)端設(shè)備上抓包確實(shí)有發(fā)現(xiàn)是dns沒(méi)有解析成正常ip的情況,選擇換運(yùn)營(yíng)商(移動(dòng)+電信+聯(lián)通)再試,還是有超時(shí)情況出現(xiàn),這種就不太可能是dns的問(wèn)題,又懷疑是云廠商的問(wèn)題,由于沒(méi)有能拿出更多證據(jù),云廠商無(wú)法配合查詢(xún)
最終也無(wú)法定位到問(wèn)題
終極大招:
由于一直無(wú)法定位問(wèn)題,找到cp公司把相關(guān)人員全部拉進(jìn)一個(gè)群: (客戶(hù)端+網(wǎng)絡(luò)+安全+系統(tǒng))的同學(xué),由于他們有更多的iPhone設(shè)備亲铡,最終發(fā)現(xiàn)mac+ios等等所有和iPhone相關(guān)的設(shè)置都出現(xiàn)超時(shí)情況,而且我們處在不同的地區(qū),自然排除了dns的問(wèn)題,那最后只能通過(guò)客戶(hù)端與服務(wù)器進(jìn)行同時(shí)抓包了
# 服務(wù)器端抓包
# 指定客戶(hù)端ip抓包
tcpdump host xxx -nnnn -v -w /tmp/server_xxx.pcap
# 指定接口抓包
tcpdump -i eth0 host xxx -nnnn -v -w /tmp/server_xxx.pcap
服務(wù)端抓包結(jié)果:
客戶(hù)端需要使用抓包工具,這里就不演示了
破案: 當(dāng)發(fā)生超時(shí)時(shí),服務(wù)端沒(méi)有進(jìn)行tcp三次握手建立連接,服務(wù)端沒(méi)回syn-ack
趕緊查看服務(wù)器內(nèi)核配置
[........]# cat /etc/sysctl.conf |grep net.ipv4.tcp_tw
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 1
這里解釋一下這兩個(gè)參數(shù)什么意思:
- net.ipv4.tcp_tw_reuse = 0 表示開(kāi)啟重用。允許將TIME-WAIT sockets重新用于新的TCP連接,默認(rèn)為0,表示關(guān)閉
- net.ipv4.tcp_tw_recycle = 0 表示開(kāi)啟TCP連接中TIME-WAIT sockets的快速回收,默認(rèn)為0遭商,表示關(guān)閉
- net.ipv4.tcp_timestamps = 1 #默認(rèn)值為1,連接報(bào)的時(shí)間戳
這兩個(gè)參數(shù)是用于服務(wù)器內(nèi)核優(yōu)化高并發(fā),高復(fù)用的一個(gè)調(diào)優(yōu)方法,但是問(wèn)題也就出現(xiàn)在這里
當(dāng)服務(wù)器內(nèi)核參數(shù): net.ipv4.tcp_tw_recycle 和net.ipv4.tcp_timestamps 的值都為1,表示服務(wù)端會(huì)檢查每一個(gè)TCP連接報(bào)文中的時(shí)間戳,當(dāng)時(shí)間戳(timestamps)不是遞增關(guān)系則不會(huì)響應(yīng)這個(gè)報(bào)文
什么意思呢,簡(jiǎn)單點(diǎn)來(lái)說(shuō)就是: 因?yàn)閚et.ipv4.tcp_timestamps=1 標(biāo)記了時(shí)間戳捅伤,如果有一個(gè)用戶(hù)的時(shí)間戳大于這個(gè)鏈接發(fā)出的syn中的時(shí)間戳劫流,服務(wù)器上就會(huì)忽略掉這個(gè)syn,不返會(huì)syn-ack消息,表現(xiàn)為用戶(hù)無(wú)法正常完成tcp3次握手祠汇,從而不能打開(kāi)web頁(yè)面
那問(wèn)題找到了,接下來(lái)就是如何去修改了,在我們需要保證服務(wù)器一定的高并發(fā)的情況下那我們只修改: net.ipv4.tcp_tw_recycle就可以了
[......]# vim /etc/sysctl.conf
net.ipv4.tcp_tw_recycle = 0
# net.ipv4.tcp_tw_recycle為0(關(guān)閉狀態(tài)時(shí))net.ipv4.tcp_timestamps是不生效的,這樣就統(tǒng)一修改一下
net.ipv4.tcp_timestamps = 0
# 配置立即生效
[......]# sysctl -p
到此問(wèn)題解決,在這里反思一下自己幾個(gè)問(wèn)題
- 一開(kāi)始出問(wèn)題的時(shí)候被局限了思維,一直認(rèn)定是設(shè)備問(wèn)題,直到問(wèn)題解決才發(fā)現(xiàn)這個(gè)內(nèi)核參數(shù)和設(shè)備沒(méi)有關(guān)系,那么這里解釋一下之前為什么只有iPhone設(shè)備才出問(wèn)題,因?yàn)檫@個(gè)tcp_timestamps是一個(gè)雙向的選項(xiàng)仍秤,當(dāng)一方不開(kāi)啟時(shí),兩方都將停用timestamps,所以猜測(cè)大概率是安卓等其他設(shè)備沒(méi)有開(kāi)啟這個(gè)timestamps所以服務(wù)器端也不存在這個(gè)檢查,也就不存在這個(gè)syn-ack不響應(yīng)問(wèn)題了
- 知識(shí)存淀太少了,這個(gè)問(wèn)題一開(kāi)始就應(yīng)該想到抓包分析,也不是一味的靠猜測(cè)
- 在內(nèi)核調(diào)優(yōu)時(shí)不應(yīng)該一味在追求高并發(fā)可很,或者是看標(biāo)準(zhǔn)的調(diào)優(yōu)方案而是要結(jié)合實(shí)際情況,