幺內(nèi)核:取消隔離
在軟件工程中,反模式(anti-pattern)指的是一些重復(fù)出現(xiàn)的激蹲、乍一看是有益的扫沼,但最終得不償失的模式。過去缤剧,這個詞僅僅用于形容那些在 Java 這樣的語言中濫用設(shè)計模式馅袁,導(dǎo)致無效代碼膨脹的現(xiàn)象。但隨著時間的流逝荒辕,很多原本我們認(rèn)為是理所當(dāng)然的事汗销,正在成為阻礙我們前進(jìn)的障礙。
傳統(tǒng)上抵窒,我們把操作系統(tǒng)定義為計算機軟硬件之間的橋梁弛针,負(fù)責(zé)操作和分配計算機硬件資源,并調(diào)度用戶計算任務(wù)估脆,為用戶提供服務(wù)钦奋。從計算機這種機器誕生之初,在過去的五疙赠、六十年里付材,符合此種定義的操作系統(tǒng)不斷進(jìn)步,目前仍在幾乎所有的計算機上運行圃阳。但最近的十年里厌衔,事情正在發(fā)生變化。云技術(shù)的進(jìn)步使得許多個人用戶分享同一臺計算機的需求飛速發(fā)展捍岳。所有隨之而來的隔離性富寿、擴展性、移植性锣夹,以及快速啟動和遷移页徐,以及故障時快速恢復(fù)的需求,傳統(tǒng)操作系統(tǒng)已無力承擔(dān)银萍,各種虛擬化軟件隨之而來变勇。
內(nèi)核態(tài)與用戶態(tài)的隔離保證了操作系統(tǒng)的穩(wěn)定運行,但也使得用戶態(tài)享受內(nèi)核服務(wù)需要通過中斷與系統(tǒng)調(diào)用贴唇,開銷比調(diào)用相同功能的函數(shù)大很多搀绣。但在虛擬機中,虛擬機監(jiān)視程序(Hypervisor)必然需要也已經(jīng)提供了更強的的安全保護(hù)戳气,操作系統(tǒng)與應(yīng)用程序之間隔離的重要性就變低了链患,為了這次隔離而付出的性能代價也開始變得越來越不可接受。
具體來說瓶您,隔離體現(xiàn)在特權(quán)級的隔離和地址空間的隔離麻捻。在應(yīng)用程序的視角纲仍,系統(tǒng)調(diào)用(System Call)和函數(shù)調(diào)用(Function Call)并沒有什么不同,甚至如今大部分高級語言中 POSIX 系統(tǒng)調(diào)用都是通過 libc 庫提供的函數(shù)調(diào)用封裝完成的贸毕。但系統(tǒng)調(diào)用的開銷大得多巷折,因為特權(quán)級的切換和地址空間的切換不止需要額外的操作,而且破壞了所有局部性崖咨,造成了各種緩存不命中損失。傳統(tǒng)操作系統(tǒng)的核心技術(shù)油吭,現(xiàn)在成為反模式了击蹲。
于是我們發(fā)明了庫操作系統(tǒng)(Libary OS),去除操作系統(tǒng)的隔離性婉宰,讓操作系統(tǒng)退化成類似 libc 的庫歌豺,通過函數(shù)調(diào)用給應(yīng)用程序提供服務(wù)。現(xiàn)在心包,操作系統(tǒng)和應(yīng)用程序運行在同一個特權(quán)級类咧、同一個地址空間了,由于運行在同一個地址空間蟹腾,操作系統(tǒng)現(xiàn)在只能服務(wù)一個傳統(tǒng)的獨占地址空間的應(yīng)用程序進(jìn)程痕惋。這樣的操作系統(tǒng)內(nèi)核,被稱為?Unikernel娃殖。類比于宏內(nèi)核(Monolithic kernel)值戳、微內(nèi)核(Microkernel),可稱為幺內(nèi)核炉爆。
下表對比了幾類內(nèi)核的特點:
Unikraft:快速專用化
進(jìn)程調(diào)度和地址空間管理是傳統(tǒng)操作系統(tǒng)內(nèi)核中的內(nèi)核堕虹,是一個操作系統(tǒng)實現(xiàn)最重要的部分,然而幺內(nèi)核要摒棄的正是這些芬首。這樣做實際上不僅解開了應(yīng)用程序的性能瓶頸赴捞,也解開了內(nèi)核本身的束縛。如果內(nèi)核一次啟動只服務(wù)一個應(yīng)用程序進(jìn)程郁稍,也不必費心去折騰特權(quán)級和地址空間了赦政,能不能針對這個應(yīng)用程序來定制一個最適用的內(nèi)核呢(外核 Exokernel?的思想)?
外核概念早已有之艺晴,之所以沒有形成主流昼钻,是因為為每個應(yīng)用程序定制內(nèi)核實際上等于沒有內(nèi)核、應(yīng)用程序直接運行在裸機上封寞。只有極特殊的場景才有這樣做的價值(比如航天)然评,對于大部分應(yīng)用程序來說這在工程上是不現(xiàn)實的。但在幺內(nèi)核的發(fā)展背景下狈究,由于操作系統(tǒng)內(nèi)核的極大簡化碗淌,又變?yōu)榭赡艿牧恕?/p>
Unikraft 項目?正是利用現(xiàn)代軟件工程理論實現(xiàn)高度定制化的幺內(nèi)核的一次嘗試。利用清晰的模塊化,Unikraft 可以通過組合子庫(稱為微庫 micro-library)實現(xiàn)定制幺內(nèi)核庫亿眠,然后再應(yīng)用程序直接鏈接在一起(甚至能實現(xiàn)內(nèi)核和應(yīng)用程序的鏈接時優(yōu)化碎罚,對于傳統(tǒng)操作系統(tǒng)是無法想象的),最后直接在裸機或虛擬機中運行纳像。
Rust:Rewrite Everything
Unikraft 是用 C 實現(xiàn)的荆烈,不可避免地遇到了 C 工程性差的問題:大量使用宏和條件編譯等類型不安全、非結(jié)構(gòu)化的工程手段竟趾、難以復(fù)用已有的領(lǐng)域代碼憔购,尤其是驅(qū)動。
用 Rust 重寫所有那些傳統(tǒng)上用 C 語言完成的工作岔帽,早已成為一種潮流玫鸟。低開銷的安全性帶來了一系列直接的安全好處——根據(jù)已有的研究,預(yù)計 ? 的由不安全語言的底層編程習(xí)慣引起的漏洞可以通過僅使用安全語言來消除犀勒,如果這個語言和原本一樣快屎飘,就沒有顧慮了。而且 Rust 還有優(yōu)雅的模塊管理和庫分發(fā)能力以及方便的交叉編譯工具鏈贾费。如果用 Rust 重寫基于 Unikraft 思想的幺內(nèi)核钦购,必然能帶來巨大的優(yōu)勢。
如何實現(xiàn)褂萧?
構(gòu)造一個幺內(nèi)核系統(tǒng)肮雨,本質(zhì)并不是怎么實現(xiàn)系統(tǒng)組件。畢竟軟件一旦碰到硬件就只能跟著硬件走箱玷,實際上完全是身不由己的怨规,在不考慮軟硬協(xié)同設(shè)計的情況下實際上根本不需要設(shè)計。幺內(nèi)核的重點是如何修改應(yīng)用程序才能適應(yīng)這個內(nèi)核锡足。畢竟波丰,為了達(dá)成高性能,應(yīng)用程序和內(nèi)核的交互方式已經(jīng)變了舶得,不再有跨特權(quán)級的系統(tǒng)調(diào)用掰烟。所以首先必須修改 libc 庫,把系統(tǒng)調(diào)用替換成函數(shù)調(diào)用沐批。
接下來纫骑,需要制造一個鏈接方式,將應(yīng)用程序和庫操作系統(tǒng)鏈接成一個可執(zhí)行文件九孩。引導(dǎo)加載程序引導(dǎo)內(nèi)核的方式是固定的先馆,因此這個可執(zhí)行文件必須能被正常的引導(dǎo)流程引導(dǎo)。同時要能以上一步修改過的 libc 要求的方式加載應(yīng)用程序躺彬。如果只修改了系統(tǒng)調(diào)用方式的話煤墙,這基本上意味著用戶會與內(nèi)核地址空間沖突梅惯,因此內(nèi)核必須開啟虛地址空間,只不過從頭到尾只需要這一個虛地址空間而已仿野。
能編譯出可執(zhí)行文件铣减、啟動并加載應(yīng)用程序,下一步才是真正的幺內(nèi)核服務(wù)應(yīng)用程序脚作。這時需要考慮的就是內(nèi)核模塊的解耦合和裝配葫哗。內(nèi)核必須可以方便地插拔模塊,以盡量匹配應(yīng)用程序的需求球涛。這需要一個強大的構(gòu)建系統(tǒng)魄梯,它理解各個內(nèi)核模塊之間的依賴關(guān)系,能夠從需求推導(dǎo)出最小的內(nèi)核模塊集合宾符。另外還依賴對應(yīng)用程序的分析。雖然一般不需要修改應(yīng)用程序源碼灭翔,但應(yīng)用程序必須自述需求魏烫,才能讓構(gòu)建系統(tǒng)完成推導(dǎo)。
課程內(nèi)容
1肝箱、操作系統(tǒng)的定制化和模塊組合
2哄褒、unikernel:定制化的上限,模塊化的下限
3煌张、課程內(nèi)容
1)unikraft:unikernel+自動定制
2)忒修斯:語言內(nèi)隔離性
3)rust:分配器呐赡、解析器和驅(qū)動 crate
4)rcore-os 實踐
4.1)zCore
4.2)rCore
4.3)trapframe
4.4)buddy_system_allocator
4.5)rCore-Tutorial-in-single-workspace
4、課時分配
1)導(dǎo)論:unikraft 試用和論文解讀
2)unikraft libc 庫(nolibc musl-libc)
3)unikraft 模塊解讀
4)忒修斯論文解讀
5)zCore 和庫
5.1)zCore 的架構(gòu):粗粒度模塊
5.2)trapsframe 庫
5.3)buddy_system_allocator 庫
5.4)naive-timer 庫
5.5)rCore 的內(nèi)存分配模塊
6)rCore-Tutorial-in-single-workspace
課程任務(wù)
1骏融、實現(xiàn)一個 RISC-V 上的 libos 或 unikernel
1)libos 定義為內(nèi)核和應(yīng)用程序位于同一個特權(quán)級链嘀;
2)unikernel 定義為內(nèi)核只能運行一個應(yīng)用程序,必須體現(xiàn)內(nèi)核對應(yīng)用程序的定制化適應(yīng)档玻,可以修改應(yīng)用程 序怀泊;
2、分析并設(shè)計或修改一個 Rust lib crate 完成內(nèi)核部分功能
1)必須描述 crate 的適用范圍误趴;
2)crate 必須在至少一個內(nèi)核中能使用霹琼,可以是現(xiàn)有的也可以是新寫的;