一. 為什么需要 Pod
在一個 Linux 操作系統(tǒng)中昌粤,進(jìn)程是以進(jìn)程組的方式組織在一起的,即一個或多個進(jìn)程的集合召边,一方面是一些進(jìn)程之前存在密切的關(guān)系娱俺,更重要的一點(diǎn)是方便管理。
而容器的本質(zhì)實(shí)際上就是進(jìn)程井濒,經(jīng)過了隔離灶似,限制等一系列操作之后形成了一個獨(dú)立的容器,那么 K8s 則類似于操作系統(tǒng)瑞你。因此同樣地酪惭,K8s 也采用了 Linux 中進(jìn)程組的思想,去組織其中的進(jìn)程——即容器捏悬。Pod 的出現(xiàn)就是為了處理那些存在著密切協(xié)作關(guān)系的撞蚕,需要部署在同一臺機(jī)器上的應(yīng)用的運(yùn)維問題润梯。
Pod 是 K8s 中的原子調(diào)度單位过牙,所有 K8s 在對容器進(jìn)行節(jié)點(diǎn)調(diào)度的時候甥厦,看的其實(shí)是一整個 Pod 而非單個容器。這也就理所當(dāng)然地解決了調(diào)度的時候的資源問題寇钉,因?yàn)?K8s 會保證同屬一個 Pod 的容器必定會在同一個節(jié)點(diǎn)當(dāng)中刀疙,保證了應(yīng)用直接的協(xié)作關(guān)系。
二. Pod 實(shí)現(xiàn)原理
很多地方把容器與虛擬機(jī)作對比扫倡,但其實(shí)對于容器進(jìn)程和 K8s 來說谦秧,Pod 更像是運(yùn)行在節(jié)點(diǎn)機(jī)器上的虛擬機(jī),因?yàn)樗攀枪芸仄渲羞M(jìn)程的關(guān)鍵撵溃。但實(shí)際上疚鲤,K8s 并沒有真正地創(chuàng)建一個 Pod 實(shí)體出來,Pod 一直都只是一個邏輯的概念缘挑。對于 K8s 來說集歇,Pod 其實(shí)就是一組容器,只不過這組容器之間存在著資源共享的關(guān)系语淘。
實(shí)際上诲宇,Pod 里面所有的容器都共享了同一個 Network Namespace,同時也可以共享同一個數(shù)據(jù)卷惶翻。為了達(dá)到這樣的目的姑蓝,K8s 會首先創(chuàng)建一個 pause 容器,又叫 infra 容器吕粗,既然是首先創(chuàng)建的纺荧,那么很顯然,它會作為一個先導(dǎo)的作用颅筋,引導(dǎo)其他容器的加入虐秋,在 pause 容器被創(chuàng)建以后,其他容器則可以通過 Join Network Namespace 的方式垃沦,與它關(guān)聯(lián)在一起客给。 數(shù)據(jù)卷的話,只需要把所有的數(shù)據(jù)卷定義在 Pod 層級即可肢簿。
因?yàn)?pause 容器的作用特殊靶剑,所以它占用的資源非常少,使用的鏡像是 k8s.gcr.io/pause池充,解壓后的大小只有 100~200 KB桩引。而且從名字可以看出來,它是一個永遠(yuǎn)處于暫停狀態(tài)的容器收夸。值得注意的是坑匠,Pod 生命周期只與 pause 容器有關(guān)。
因此我們可以得知卧惜,一個 Pod 只會有一個 IP 地址厘灼,即 Network Namespace 對應(yīng)的 IP 地址夹纫,里面的容器看到的網(wǎng)絡(luò)設(shè)備,網(wǎng)絡(luò)資源也都是相同的设凹。也因?yàn)橛?pause 容器的存在舰讹,容器的網(wǎng)絡(luò)配置只能跟隨 pause 容器的腳步,即是跟隨 Pod 的腳步闪朱,而不能讓容器網(wǎng)絡(luò)自定義為我們自己想要的網(wǎng)絡(luò)配置月匣,因?yàn)楸仨毐WC Pod 里面所有容器的網(wǎng)絡(luò)的統(tǒng)一性。
三. Pod 屬性
由上述可知奋姿,我們可以把 Pod 看做一臺機(jī)器锄开,而容器就是運(yùn)行在這個機(jī)器里面的程序。所以理所當(dāng)然地称诗,與機(jī)器相關(guān)的屬性院刁,網(wǎng)絡(luò),存儲粪狼,安全等屬性都是基于 Pod 級別的退腥。而這些屬性,我們都可以通過編寫 YAML 文件進(jìn)行自定義再榄。
調(diào)度
調(diào)度是 K8s 中至關(guān)重要的一環(huán)狡刘,調(diào)度器會經(jīng)過調(diào)度策略將 Pod 調(diào)度到理想的節(jié)點(diǎn)中。在 YAML 文件中困鸥,有 NodeSelector 和 NodeName 等屬性與調(diào)度息息相關(guān)嗅蔬。
NodeSelector 顧名思義是一種節(jié)點(diǎn)選擇器,經(jīng)過設(shè)置可以指定該 Pod 必須調(diào)度到攜帶了規(guī)定的 Label 的節(jié)點(diǎn)當(dāng)中疾就。
NodeName 即節(jié)點(diǎn)名澜术,當(dāng)調(diào)度器設(shè)置了 NodeName,則表示該 Pod 已經(jīng)完成了調(diào)度猬腰。而我們使用者也可以通過設(shè)置該屬性來讓調(diào)度器誤以為其已經(jīng)被調(diào)度過鸟废,適用于測試和調(diào)試的場景。
配置
在 YAML 文件中我們可以完成 Pod 層級的配置工作姑荷,比如我們通常會使用 HostAliases 屬性來設(shè)置 host盒延,而不是直接去修改 hosts 文件,因?yàn)檫@樣不利于 host 的持久化鼠冕,當(dāng) Pod 刪除重建以后添寺,K8s 會覆蓋掉之前直接在文件中修改的內(nèi)容。
Namespace
Namespace 是與隔離密不可分的屬性懈费,Namespace 包含了很多方面计露,包括網(wǎng)絡(luò)相關(guān)的 Network Namespace,進(jìn)程相關(guān)的 PID Namespace,文件系統(tǒng)相關(guān)的 Mount Namespace 等票罐。
在 K8s 中叉趣,凡是跟容器的 Linux Namespace 相關(guān)的屬性,也一定是 Pod 級別的胶坠。以便在保留必要的隔離和限制能力的同時,讓里面的容器盡可能多地共享 Linux Namespace繁堡。例如 shareProcessNamespace 屬性可以設(shè)置該 Pod 是否共享 PID Namespace沈善,除此之外還有 hostNetwork,hostIPC 等也是同理椭蹄。
容器
Pod 里面最重要的屬性固然是容器了闻牡,在 YAML 中,我們可以對 Pod 中的容器進(jìn)行全方位的配置绳矩,包括Image(鏡像)罩润、Command(啟動命令)、workingDir(容器的工作目錄)翼馆、Ports(容器要開發(fā)的端口)割以、volumeMounts(數(shù)據(jù)卷)等等。除此以外应媚,還有諸如如 Init Containers 可以設(shè)置為 init 容器严沥,它的創(chuàng)建會先于其他所有的容器,ImagePullPolicy 定義了每次創(chuàng)建是否都需要重新拉取一次鏡像等字段
四. Pod 生命周期
Pod 的生命周期中姜,即 status 屬性消玄,包含以下:
- Pending:代表 Pod API 對象已創(chuàng)建完成,但其中的容器還未被順利創(chuàng)建丢胚。
- Running:表示調(diào)度完成且其中的容器至少有一個在運(yùn)行中
- Succeeded:所有容器正常運(yùn)行完畢且已經(jīng)退出翩瓜,如一次性任務(wù)
- Failed:其中的容器至少有一個以不正常狀態(tài)退出
- Unknown:異常狀態(tài),意味著 Pod 的狀態(tài)不能持續(xù)地被 kubelet 匯報給 kube-apiserver携龟,這很有可能是主從節(jié)點(diǎn)間的通信出現(xiàn)了問題
五. 配置管理
在 K8s 中兔跌,有專門的 Projected Volume 用于配置的工作,這些 Volume 是為容器預(yù)先定義好的數(shù)據(jù)峡蟋,可以理解為用于配置的數(shù)據(jù)卷浮定,通過在容器中進(jìn)行掛載,來訪問其中的信息层亿。這些信息都存放于 K8s 的 Etcd 之中桦卒,因此一旦其對應(yīng)的 Etcd 里的數(shù)據(jù)被更新,這些 Volume 里的內(nèi)容匿又,同樣也會被更新方灾。
分為以下兩種:
Secret
以鍵值對形式存放加密數(shù)據(jù),如數(shù)據(jù)庫的 Credential 信息,數(shù)據(jù)需要經(jīng)過 Base64 轉(zhuǎn)碼裕偿,而在真正的生產(chǎn)環(huán)境中洞慎,通常還需要開啟 Secret 的加密插件,以增強(qiáng)數(shù)據(jù)的安全性嘿棘。除此之外還可以指定可用的命名空間劲腿。
ConfigMap
存放鍵值對形式的配置信息,無需加密