作者:李勇
一.案例背景
在容器云項(xiàng)目剛剛開(kāi)始的時(shí)候肋联,發(fā)現(xiàn)了這樣一個(gè)問(wèn)題:當(dāng)一個(gè)應(yīng)用遷移到 k8s 集群上之后,集群外部的子系統(tǒng)通過(guò) Dubbo 方式調(diào)用它刁俭,直接報(bào)錯(cuò)橄仍,無(wú)法連接。檢查 SOA 的 Zookeeper(在集群之外)發(fā)現(xiàn),應(yīng)用注冊(cè)到 Zookeeper 里的 IP 是容器的 IP侮繁!容器的 IP 對(duì) k8s 集群外不可見(jiàn)氓奈,必然連不通。
二.案例分析
為什么容器注冊(cè)到 SOA 中的會(huì)是容器的 IP鼎天?這在當(dāng)時(shí)我們有些不解,要知道容器發(fā)出的數(shù)據(jù)包出集群時(shí)是要做 SNAT 轉(zhuǎn)換成宿主機(jī)的 IP 的暑竟,所以按說(shuō)在 SOA 注冊(cè)中心看到的應(yīng)該是宿主機(jī)的 IP 才對(duì)斋射。經(jīng)了解才知道,SOA 服務(wù)注冊(cè)采取的是“客戶端發(fā)現(xiàn)”機(jī)制但荤,它并不是站在 SOA 注冊(cè)中心一端看向它發(fā)注冊(cè)請(qǐng)求的機(jī)器來(lái)自于哪個(gè) IP罗岖,而是發(fā)注冊(cè)請(qǐng)求的機(jī)器收集自己的本地網(wǎng)卡 IP,然后把這個(gè) IP 報(bào)送給注冊(cè)中心腹躁,現(xiàn)在應(yīng)用是跑在容器里的桑包,它收集到的自然是容器內(nèi)的本地網(wǎng)卡 IP,也就是容器的 IP纺非。
眾所周知哑了,針對(duì)集群外主機(jī)想訪問(wèn)集群內(nèi)的應(yīng)用,k8s 只提供一種形式:暴露一個(gè) nodeport 類(lèi)型的服務(wù)(使用宿主機(jī) IP + 端口)烧颖,映射轉(zhuǎn)發(fā)到容器中(通過(guò)一系列 iptables 規(guī)則實(shí)現(xiàn))弱左。可現(xiàn)在集群外主機(jī)偏偏要用容器 IP 去找應(yīng)用炕淮,無(wú)疑給我們出了一個(gè)大難題拆火。
k8s 的各種網(wǎng)絡(luò)組件,F(xiàn)lannel涂圆、Calico们镜、Weave等,解決了跨主機(jī)間容器直接使用自身 IP 進(jìn)行通信的問(wèn)題润歉,遺憾的是它們的作用范圍僅限于集群內(nèi)部宿主機(jī)模狭。仔細(xì)研究他們的工作原理,不難發(fā)現(xiàn)有幾個(gè)共同點(diǎn):
1踩衩、容器網(wǎng)絡(luò)模式使用網(wǎng)橋(Bridge)模式胞皱。
2、負(fù)責(zé)容器啟動(dòng)時(shí)的 IP 地址分配九妈,每臺(tái)宿主機(jī)上運(yùn)行的容器都屬于同一個(gè)網(wǎng)段反砌,不同宿主機(jī)上的容器網(wǎng)段必不相同,了解整個(gè)集群內(nèi)的容器網(wǎng)段與宿主機(jī)對(duì)應(yīng)關(guān)系萌朱。
和任何一個(gè)容器 IP 通信時(shí)宴树,根據(jù)其網(wǎng)段查找,數(shù)據(jù)包轉(zhuǎn)發(fā)到對(duì)應(yīng)宿主機(jī)(區(qū)別僅在于有的通過(guò)打 VXLAN 隧道方式轉(zhuǎn)發(fā)晶疼,如 Flannel酒贬,有的使用三層路由方式轉(zhuǎn)發(fā)又憨,如 Calico),然后通過(guò)宿主機(jī)內(nèi)的網(wǎng)橋到達(dá)容器內(nèi)部锭吨。
這些組件的工作原理給了我們很大啟發(fā)蠢莺,不管主機(jī)位于何處,要想直接和容器 IP 通信零如,就得了解集群內(nèi)容器網(wǎng)段與宿主機(jī)對(duì)應(yīng)關(guān)系躏将,沿用此思路我們想到一個(gè)辦法:向集群外發(fā)布到達(dá)各宿主機(jī)容器網(wǎng)段的路由。
三.具體實(shí)施
我們使用 Flannel?作為 k8s 網(wǎng)絡(luò)組件考蕾,F(xiàn)lannel 的特點(diǎn)是每個(gè)宿主機(jī)上的容器網(wǎng)段是固定的祸憋,部署完不會(huì)再變,那我們只需要在宿主機(jī)的網(wǎng)關(guān)設(shè)備上添加靜態(tài)路由就好肖卧。
假設(shè)集群有兩個(gè)節(jié)點(diǎn):
節(jié)點(diǎn) 1
主機(jī)IP:10.132.2.22
netmask:255.255.255.0
Gateway:10.132.2.254
容器網(wǎng)段:10.131.10.0/24
節(jié)點(diǎn) 2
主機(jī)IP:10.132.2.23
netmask:255.255.255.0
Gateway:10.132.2.254
容器網(wǎng)段:10.131.73.0/24
那么我們就在網(wǎng)關(guān)設(shè)備 10.132.2.254 上添加下列路由:
ip route 10.131.101.0/24 10.132.2.22
ip route 10.131.73.0/24 10.132.2.23
如果你的網(wǎng)絡(luò)中運(yùn)行著路由協(xié)議(OSPF蚯窥、EIGRP、IS-IS…)塞帐,把上述靜態(tài)路由重發(fā)布(Route Redistribution)到路由協(xié)議中即可拦赠,沒(méi)有,就只能一跳一跳添加靜態(tài)路由了葵姥。
邏輯拓?fù)浯笾氯缦拢?/p>
細(xì)心的讀者可能會(huì)問(wèn)矛紫,前面說(shuō)到容器數(shù)據(jù)包出集群的時(shí)候要做 SNAT 的,那外部訪問(wèn)容器 IP牌里,如果回包出集群時(shí) SNAT 成宿主機(jī) IP颊咬,那 TCP 三次握手不就無(wú)法建立了么,怎么能通呢牡辽?經(jīng)抓包測(cè)試喳篇,k8s 只有在容器主動(dòng)發(fā)起連接集群外的時(shí)候才做 SNAT,回包不做轉(zhuǎn)換态辛。
這樣我們就將容器網(wǎng)段“透”到了集群之外麸澜,實(shí)現(xiàn)容器網(wǎng)段在機(jī)房?jī)?nèi)全網(wǎng)可達(dá)。
溫馨提示:集群的容器網(wǎng)段范圍在集群搭建前就要統(tǒng)一規(guī)劃好奏黑,不能和機(jī)房任何現(xiàn)有網(wǎng)段沖突炊邦。
四.總結(jié)
此法簡(jiǎn)單有效地實(shí)現(xiàn)了集群內(nèi)外 Dubbo 方式相互調(diào)用,雖然它還不夠優(yōu)雅熟史,每增加一個(gè)計(jì)算節(jié)點(diǎn)就要增加一條靜態(tài)路由馁害,如果集群節(jié)點(diǎn)數(shù)量比較多,維護(hù)就比較麻煩蹂匹,但它實(shí)實(shí)在在的解決了我們的問(wèn)題碘菜,對(duì)業(yè)務(wù)系統(tǒng)遷移容器云工作具有重大意義。
未來(lái)隨著集群規(guī)模加大,我們將考慮采用 Calico 網(wǎng)絡(luò)組件忍啸,Calico 是在每個(gè)宿主機(jī)上運(yùn)行一個(gè)虛擬路由器(VR)仰坦,它們之間跑 BGP 協(xié)議,發(fā)現(xiàn)并公告自己之上的容器網(wǎng)段计雌,只要宿主機(jī)的網(wǎng)關(guān)設(shè)備上支持 BGP悄晃,也參與其中,就可學(xué)到容器網(wǎng)段路由凿滤,發(fā)布到全網(wǎng)妈橄,無(wú)需人工干預(yù)。此外鸭巴,我們還會(huì)考慮引入 SDN 技術(shù)與容器網(wǎng)絡(luò)進(jìn)行對(duì)接的可行性,敬請(qǐng)期待拦盹!