本節(jié)模擬幾種導(dǎo)致 DNS 查詢變慢的場景,如果在實(shí)際環(huán)境中遇到類似現(xiàn)象,可以考慮往這些 方向排查汪诉。
1、機(jī)器未配置 DNS 導(dǎo)致域名查找失敗
現(xiàn)象:網(wǎng)絡(luò)是通的(例如 ping IP 通)谈秫,但是 DNS 查詢總是失敗
可能的原因:機(jī)器沒有配置 DNS 服務(wù)器
解決辦法:修改/etc/resolv.conf扒寄,給機(jī)器配置合適的 DNS 服務(wù)器 有時(shí)新啟動(dòng)的機(jī)器(不管是物理機(jī)、虛擬機(jī)還是容器)沒有設(shè)置 DNS拟烫,導(dǎo)致訪問域名不通该编。我們來復(fù)現(xiàn)一下。
在正常的容器里用 nslookup 工具查看域名對應(yīng)的 IP 地址:
/ # nslookup example.com
Name:? ? ? example.com
Address 1: 93.184.216.34
Address 2: 2606:2800:220:1:248:1893:25c8:1946
可以看到硕淑,我們獲取到了該域名一個(gè) IPv4 地址和一個(gè) IPv6 地址课竣。
將/etc/resolv.conf 里的 DNS 服務(wù)器列表用#注釋掉,模擬沒有配置 DNS 服務(wù)器的場景置媳。
再次測試:
/ # nslookup example.com
nslookup: can't resolve 'example.com': Try again
所以遇到這種問題于樟,可以先去排查/etc/resolv.conf 里面是否配置了 DNS 服務(wù)器。
2拇囊、DNS 服務(wù)太慢
現(xiàn)象:DNS 查詢太慢
可能的原因:配置的 DNS 服務(wù)器不合理
解決辦法:修改/etc/resolv.conf隔披,配置合適的 DNS 服務(wù)器
每個(gè)公司一般都有自維護(hù)的 DNS 服務(wù)器,不僅用來解析內(nèi)網(wǎng) DNS寂拆,而且可以加速解析公網(wǎng)域名 奢米。
dig 是另外一個(gè)功能更強(qiáng)大的 DNS 查詢工具,安裝:
/ # apk update && apk add bind-tools
首先查看使用內(nèi)網(wǎng) DNS纠永,查詢域名的延遲:
/ # dig example.com
...
example.com.? ? ? ? ? ? 15814? IN? ? ? A? ? ? 93.184.216.34
;; Query time: 0 msec
;; SERVER: 192.168.1.11#53(192.168.1.11)
可以看到非橱蕹ぃ快,在 1ms 以內(nèi)尝江。
然后我們測試如果使用 Google 的公網(wǎng) DNS 服務(wù)器 8.8.8.8 [1]涉波,延遲會(huì)是多少。
修改/etc/resolv.conf,將其他 nameserver 注釋掉啤覆,添加一行 nameserver 8.8.8.8苍日。
再次測試:
/ # dig example.com
...
example.com.? ? ? ? ? ? 15814? IN? ? ? A? ? ? 93.184.216.34
;; Query time: 150 msec
;; SERVER: 8.8.8.8#53(8.8.8.8)
延遲變成了 150ms,比原來大了 150 多倍窗声。
因此相恃,對于 DNS 查詢特別慢的場景,首先要查看配置的 DNS 服務(wù)器是否合理笨觅。
3拦耐、hardcode /etc/hosts 導(dǎo)致跳過 DNS 查詢
現(xiàn)象:某域名訪問太慢、某域名總是指向相同 IP(多 IP 情況下)见剩、特定機(jī)器不可訪問 某域名等等
可能的原因:/etc/hosts 有 hardcode 域名及 IP
解決辦法:修改/etc/hosts
前面提到杀糯,大部分公網(wǎng)域名都對應(yīng)多個(gè) IP 地址,因此每次 DNS 查詢拿到的 IP 地址都可能不一 樣苍苞,我們用 ping 來測試一下:
/ # ping baidu.com
PING baidu.com (220.181.57.216): 56 data bytes
64 bytes from 220.181.57.216: seq=0 ttl=45 time=26.895 ms
64 bytes from 220.181.57.216: seq=1 ttl=45 time=26.701 ms
^C
/ # ping baidu.com
PING baidu.com (123.125.115.110): 56 data bytes
64 bytes from 123.125.115.110: seq=0 ttl=43 time=27.587 ms
64 bytes from 123.125.115.110: seq=1 ttl=43 time=27.757 ms
^C
可以看到固翰,兩次 ping 測試(內(nèi)部首先查詢?http://baidu.com?對應(yīng)的 IP 地址)拿到的 IP 地址是不一樣 的。用 nslookup 可以看到它們都是?http://baidu.com?對應(yīng)的 IP 地址:
/ # nslookup baidu.com
Name: baidu.com
Address: 220.181.57.216
Name: baidu.com
Address: 123.125.115.110
/etc/hosts 里面可以直接 harcode 一個(gè)域名對應(yīng)的 IP 地址羹呵,這會(huì)導(dǎo)致機(jī)器跳過 DNS 查詢倦挂,直接拿這個(gè) IP 作 為該域名的 IP。我們來驗(yàn)證一下担巩。
修改/etc/hosts方援,添加一行 123.125.115.110?http://baidu.com,再次 ping 測試
/ # ping baidu.com
PING baidu.com (123.125.115.110): 56 data bytes
64 bytes from 123.125.115.110: seq=0 ttl=43 time=27.861 ms
^C
--- baidu.com ping statistics ---
1 packets transmitted, 1 packets received, 0% packet loss
round-trip min/avg/max = 27.861/27.861/27.861 ms
/ # ping baidu.com
PING baidu.com (123.125.115.110): 56 data bytes
64 bytes from 123.125.115.110: seq=0 ttl=43 time=27.614 ms
^C
這是不管執(zhí)行多少次涛癌,http://baidu.com?對應(yīng)的 IP 地址都不會(huì)變了犯戏。而實(shí)際上,這個(gè) IP 地址并不一定是最優(yōu)的 IP 地址拳话,甚至有可能這 個(gè) IP 不可用先匪,導(dǎo)致訪問?http://baidu.com?失敗。因此弃衍,實(shí)際中要極力避免在/etc/hosts 中 hardcode呀非。
4、DNS 查詢不穩(wěn)定
現(xiàn)象:DNS 查詢不穩(wěn)定镜盯,時(shí)快時(shí)慢
可能的原因:機(jī)器上有 tc 或 iptables 規(guī)則岸裙,導(dǎo)致到 DNS 服務(wù)器的 packet 變慢或丟失
解決辦法:修改或刪除 tc/iptables 規(guī)則
我們用 tc 來模擬網(wǎng)絡(luò)延遲:
/ # apk add iproute2
首先查看有沒有 tc 規(guī)則:
/ # tc -p qdisc ls dev eth0
默認(rèn)沒有任何規(guī)則。
然后我們加一條:每個(gè) packet 延遲 600ms:
/ # tc qdisc add dev eth0 root netem delay 600ms
/ # tc -p qdisc ls dev eth0
/ # qdisc netem 8001: root refcnt 2 limit 1000 delay 600.0ms
測試:
/ # dig example.com
...
example.com.? ? ? ? ? ? 15814? IN? ? ? A? ? ? 93.184.216.34
;; Query time: 600 msec
;; SERVER: 192.168.1.11#53(192.168.1.11)
可以看到速缆,DNS 查詢變成了 600ms降允。
這里我們測試的是固定延遲,這種問題很容易發(fā)現(xiàn)艺糜。我們還可以測試隨機(jī)延遲剧董,或者按 比例延遲等 [2]:
/ # tc qdisc change dev eth0 root netem delay 600ms 10ms 25%
/ # tc qdisc change dev eth0 root netem delay 600ms 20ms distribution normal
此類規(guī)則會(huì)導(dǎo)致 DNS 查詢速度更有隨機(jī)性幢尚。
最后刪除 tc 規(guī)則:
/ # tc qdisc del dev eth0 root
iptables 規(guī)則也會(huì)導(dǎo)致類似的問題。
很多軟件在運(yùn)行之后翅楼,會(huì)在宿主機(jī)上添加 tc 或 iptables 規(guī)則尉剩,例如 OpenStack,K8S 等等 毅臊。因此遇到這種隨機(jī)延遲問題理茎,首先可以查看機(jī)器上是否有 tc 或 iptables 規(guī)則。
5褂微、DNS 反向查詢不穩(wěn)定
線上遇到過這樣一個(gè)問題:從一臺(tái)機(jī)器 ping 一個(gè)內(nèi)網(wǎng)域名,每個(gè) ping 包看起來都會(huì)卡 5 ~ 30s 不等园爷,但是 CTL-C 關(guān)閉 ping 之后宠蚂,打印出來的統(tǒng)計(jì)信息里,既沒有丟包童社,ping 的延遲也很低 (毫秒級(jí))求厕,這就很奇怪。接下來:
dig扰楼,很快呀癣,毫秒級(jí),說明 DNS 查詢沒有問題
dig 能看到域名對應(yīng)的 IP弦赖,直接 ping 這個(gè) IP项栏,發(fā)現(xiàn)是沒有卡頓的
仍然 ping 域名,用 tcpdump 抓包蹬竖,tcpdump -i eth0 hostand icmp沼沈,發(fā)現(xiàn) ping 包都是立即響應(yīng)的,印證了統(tǒng)計(jì)信息里币厕,ping 延遲很低的事實(shí)
根據(jù)以上信息列另,說明 ping 卡頓的問題出在這臺(tái)機(jī)器,而且應(yīng)該就是 ping 程序本身在做什么耗 時(shí)的操作旦装。繼續(xù):
仍然 ping 域名页衙,同時(shí),用 ltrace -p跟蹤 ping 進(jìn)程阴绢,發(fā)現(xiàn)卡在一個(gè)叫 gethostbyaddr()的函數(shù)
查閱文檔店乐,發(fā)現(xiàn)這個(gè)函數(shù)是根據(jù) IP 反向查詢 hostname,需要和 DNS 交互
到這里呻袭,基本確定了是 DNS 服務(wù)器反向查詢的問題响巢,我們用另外幾個(gè)命令行工具驗(yàn)證一下, 以下三個(gè)命令都是根據(jù) IP 反查 hostname:
nslookup
host
dig -x
果然棒妨,以上三個(gè)命令都會(huì)卡住踪古。修改/etc/resolv.conf含长,換一個(gè) DNS 服務(wù)器之后,問題 消失了伏穆。接下來拘泞,就去查 DNS 服務(wù)器的問題吧。