Namespace機(jī)制概述
Linux Namespaces機(jī)制提供了一種資源隔離方案卡睦。PID,IPC,Network等系統(tǒng)資源不再是全局性的蝗碎,而是屬于特定的Namespace。每個(gè)Namespace里面的資源對(duì)其他Namespace都是透明的惩淳。要?jiǎng)?chuàng)建新的Namespace男图,只需要在調(diào)用clone時(shí)指定相應(yīng)的flag挠铲。Linux Namespaces機(jī)制為實(shí)現(xiàn)基于容器的虛擬化技術(shù)提供了很好的基礎(chǔ)婴谱,LXC(Linux containers)就是利用這一特性實(shí)現(xiàn)了資源的隔離蟹但。不同container內(nèi)的進(jìn)程屬于不同的Namespace,彼此透明谭羔,互不干擾华糖。下面我們就從clone系統(tǒng)調(diào)用的flag出發(fā),來(lái)介紹各個(gè)Namespace瘟裸。
PID Namespace
當(dāng)調(diào)用clone時(shí)客叉,設(shè)定了CLONE_NEWPID,就會(huì)創(chuàng)建一個(gè)新的PID Namespace话告,clone出來(lái)的新進(jìn)程將成為Namespace里的第一個(gè)進(jìn)程兼搏。一個(gè)PID Namespace為進(jìn)程提供了一個(gè)獨(dú)立的PID環(huán)境,PID Namespace內(nèi)的PID將從1開(kāi)始沙郭,在Namespace內(nèi)調(diào)用fork向族,vfork或clone都將產(chǎn)生一個(gè)在該Namespace內(nèi)獨(dú)立的PID。新創(chuàng)建的Namespace里的第一個(gè)進(jìn)程在該Namespace內(nèi)的PID將為1棠绘,就像一個(gè)獨(dú)立的系統(tǒng)里的init進(jìn)程一樣。該Namespace內(nèi)的孤兒進(jìn)程都將以該進(jìn)程為父進(jìn)程再扭,當(dāng)該進(jìn)程被結(jié)束時(shí)氧苍,該Namespace內(nèi)所有的進(jìn)程都會(huì)被結(jié)束。PID Namespace是層次性泛范,新創(chuàng)建的Namespace將會(huì)是創(chuàng)建該Namespace的進(jìn)程屬于的Namespace的子Namespace让虐。子Namespace中的進(jìn)程對(duì)于父Namespace是可見(jiàn)的,一個(gè)進(jìn)程將擁有不止一個(gè)PID罢荡,而是在所在的Namespace以及所有直系祖先Namespace中都將有一個(gè)PID赡突。系統(tǒng)啟動(dòng)時(shí),內(nèi)核將創(chuàng)建一個(gè)默認(rèn)的PID Namespace区赵,該Namespace是所有以后創(chuàng)建的Namespace的祖先惭缰,因此系統(tǒng)所有的進(jìn)程在該Namespace都是可見(jiàn)的。
IPC Namespace
當(dāng)調(diào)用clone時(shí)笼才,設(shè)定了CLONE_NEWIPC漱受,就會(huì)創(chuàng)建一個(gè)新的IPC Namespace,clone出來(lái)的進(jìn)程將成為Namespace里的第一個(gè)進(jìn)程骡送。一個(gè)IPC Namespace有一組System V IPC objects 標(biāo)識(shí)符構(gòu)成昂羡,這標(biāo)識(shí)符有IPC相關(guān)的系統(tǒng)調(diào)用創(chuàng)建絮记。在一個(gè)IPC Namespace里面創(chuàng)建的IPC object對(duì)該Namespace內(nèi)的所有進(jìn)程可見(jiàn),但是對(duì)其他Namespace不可見(jiàn)虐先,這樣就使得不同Namespace之間的進(jìn)程不能直接通信怨愤,就像是在不同的系統(tǒng)里一樣。當(dāng)一個(gè)IPC Namespace被銷(xiāo)毀蛹批,該Namespace內(nèi)的所有IPC object會(huì)被內(nèi)核自動(dòng)銷(xiāo)毀撰洗。
注意:PID Namespace和IPCNamespace可以組合起來(lái)一起使用,只需在調(diào)用clone時(shí)般眉,同時(shí)指定CLONE_NEWPID和CLONE_NEWIPC了赵,這樣新創(chuàng)建的Namespace既是一個(gè)獨(dú)立的PID空間又是一個(gè)獨(dú)立的IPC空間。不同Namespace的進(jìn)程彼此不可見(jiàn)甸赃,也不能互相通信柿汛,這樣就實(shí)現(xiàn)了進(jìn)程間的隔離。
Mount Namespace
當(dāng)調(diào)用clone時(shí)埠对,設(shè)定了CLONE_NEWNS络断,就會(huì)創(chuàng)建一個(gè)新的mount Namespace。每個(gè)進(jìn)程都存在于一個(gè)mount Namespace里面项玛,mount Namespace為進(jìn)程提供了一個(gè)文件層次視圖貌笨。如果不設(shè)定這個(gè)flag,子進(jìn)程和父進(jìn)程將共享一個(gè)mount Namespace襟沮,其后子進(jìn)程調(diào)用mount或umount將會(huì)影響到所有該Namespace內(nèi)的進(jìn)程锥惋。如果子進(jìn)程在一個(gè)獨(dú)立的mount Namespace里面,就可以調(diào)用mount或umount建立一份新的文件層次視圖开伏。該flag配合pivot_root系統(tǒng)調(diào)用膀跌,可以為進(jìn)程創(chuàng)建一個(gè)獨(dú)立的目錄空間。
Network Namespace
當(dāng)調(diào)用clone時(shí)固灵,設(shè)定了CLONE_NEWNET捅伤,就會(huì)創(chuàng)建一個(gè)新的Network Namespace。一個(gè)Network Namespace為進(jìn)程提供了一個(gè)完全獨(dú)立的網(wǎng)絡(luò)協(xié)議棧的視圖巫玻。包括網(wǎng)絡(luò)設(shè)備接口丛忆,IPv4和IPv6協(xié)議棧,IP路由表仍秤,防火墻規(guī)則熄诡,sockets等等。一個(gè)Network Namespace提供了一份獨(dú)立的網(wǎng)絡(luò)環(huán)境徒扶,就跟一個(gè)獨(dú)立的系統(tǒng)一樣粮彤。一個(gè)物理設(shè)備只能存在于一NetworkNamespace中,可以從一個(gè)Namespace移動(dòng)另一個(gè)Namespace中。虛擬網(wǎng)絡(luò)設(shè)備(virtual network device)提供了一種類(lèi)似管道的抽象导坟,可以在不同的Namespace之間建立隧道屿良。利用虛擬化網(wǎng)絡(luò)設(shè)備,可以建立到其他Namespace中的物理設(shè)備的橋接惫周。當(dāng)一個(gè)Network Namespace被銷(xiāo)毀時(shí)尘惧,物理設(shè)備會(huì)被自動(dòng)移回init NetworNamespace,即系統(tǒng)最開(kāi)始的Namespace递递。
UTS Namespace
當(dāng)調(diào)用clone時(shí)喷橙,設(shè)定了CLONENEWUTS,就會(huì)創(chuàng)建一個(gè)新的UTS Namespace登舞。一個(gè)UTSNamespace就是一組被uname返回的標(biāo)識(shí)符贰逾。新的UTS Namespace中的標(biāo)識(shí)符通過(guò)復(fù)制調(diào)用進(jìn)程所屬的Namespace的標(biāo)識(shí)符來(lái)初始化。Clone出來(lái)的進(jìn)程可以通過(guò)相關(guān)系統(tǒng)調(diào)用改變這些標(biāo)識(shí)符菠秒,比如調(diào)用sethostname來(lái)改變?cè)揘amespace的hostname疙剑。這一改變對(duì)該Namespace內(nèi)的所有進(jìn)程可見(jiàn)。CLONENEWUTS和CLONE_NEWNET一起使用践叠,可以虛擬出一個(gè)有獨(dú)立主機(jī)名和網(wǎng)絡(luò)空間的環(huán)境言缤,就跟網(wǎng)絡(luò)上一臺(tái)獨(dú)立的主機(jī)一樣。