9月30日SOSP 2017 paper總結(jié)
Kernel: 關(guān)于OS/系統(tǒng)內(nèi)核
-
NEVE: Nested Virtualization Extensions for ARM
Jin Tack Lim, Christoffer Dall, Shih-Wei Li, Jason Nieh (Columbia University); Marc Zyngier (ARM Ltd)作者介紹
基于ARM架構(gòu)的嵌套虛擬化擴(kuò)展璃搜,作者是來(lái)自哥倫比亞大學(xué)的PHD,主要研究背景是ARM虛擬化展蒂,筆者找到了一作
Jin Track Lim的CV介紹粉私。Key Problem
- 現(xiàn)有的ARM8.0硬件平臺(tái)不支持嵌套虛擬化
- 嵌套虛擬化將會(huì)在ARM8.3上支持
- 基于ARM架構(gòu)的嵌套虛擬化的性能尚不確定
- ARM硬件的虛擬化不同于X86架構(gòu)的虛擬化
Current Approaches
- Cycle-accurate simulators: 太慢捎琐,并且缺少設(shè)備支持
- Simpler architecture models, 如ARM Fast Models: 僅實(shí)現(xiàn)了硬件功能性支持哨毁,并沒有考慮性能開銷
Solution
- 引入半虛擬化進(jìn)行架構(gòu)評(píng)估
- ARM嵌套虛擬化的評(píng)估方法
- 提出一種基于ARM的嵌套虛擬化擴(kuò)展NEVE砸彬,NEVE在虛擬化性能上比現(xiàn)有的解決方案提高了10倍
- NEVE會(huì)集成到在下一代ARM8.4中
-
My VM is Lighter (and Safer) than your Container
Filipe Manco (NEC Europe Ltd.); Costin Lupu (University Politehnica of Bucharest); Florian Schmidt, Jose Mendes, Simon Kuenzer, Sumit Sati, Kenichi Yasukata (NEC Europe Ltd.); Costin Raiciu (University Politehnica of Bucharest); Felipe Huici (NEC Europe Ltd.)作者介紹
提出并實(shí)現(xiàn)了一種比容器(如Docker)更輕量造垛、更安全的VM虛擬機(jī)--LightVM葡秒。作者【默認(rèn)均為一作】是來(lái)自NEC歐洲實(shí)驗(yàn)室的Filipe Manco姻乓,是NEC的軟件工程師和研究員,主要關(guān)注XEN平臺(tái)眯牧,設(shè)計(jì)并實(shí)現(xiàn)了XenStore和Xen Toolstack蹋岩,為XEN開發(fā)了許多基于Unikernel內(nèi)核的應(yīng)用。
Key Problem
- VM safe isolation but not efficient: 隔離性(Isolation)和安全性(Safety)更好学少,但是太重剪个,運(yùn)行效率(Efficiency)很低;
- Container容器版确,efficient but weaker isolation: 運(yùn)行效率很高扣囊,但是隔離性太差;
- 需要在Isolation和Efficiency之間做出權(quán)衡绒疗。
Ideas or Solution
- 利用Unikernel和Tinyx實(shí)現(xiàn)基于XEN的輕量級(jí)VM--LightVM侵歇。其中Unikernel是專用內(nèi)核技術(shù),一個(gè)Unikernel OS只運(yùn)行一個(gè)應(yīng)用吓蘑,將運(yùn)行該應(yīng)用所依賴的應(yīng)用程序惕虑、庫(kù)文件、系統(tǒng)內(nèi)核模塊打包成一個(gè)獨(dú)立的虛擬機(jī)磨镶,并依靠Unikernel調(diào)度和隔離不同的應(yīng)用程序溃蔫。Tinyx是一個(gè)裁剪定制Linux VM鏡像的工具。
- 重新設(shè)計(jì)Xen的控制平面(Xen Toolstack, 虛擬化控制平面是性能瓶頸)琳猫,將VM中心化管理轉(zhuǎn)化為分布式管理伟叛,將VM與Xen hypervisor的交互降到最低。
Performance and Evaluation
- LightVM引導(dǎo)一個(gè)VM僅需要2.3ms(VM Boot Time)沸移,在引導(dǎo)速度上比Docker提高了兩個(gè)數(shù)量級(jí)痪伦;
- 運(yùn)行的VM的數(shù)量不影響 LightVM的boot time侄榴;
- LightVM可以在適當(dāng)?shù)挠布线\(yùn)行數(shù)千個(gè)LightVM guests(虛擬機(jī))雹锣,并且內(nèi)存和CPU使用率相當(dāng)高。
- Multiprogramming a 64 kB Computer Safely and Efficiently
作者介紹
Key Problem
Current Approaches
Ideas or Solution
2017年10月31日SOSP2017 paper總結(jié)
Storage System: 存儲(chǔ)系統(tǒng) || Chair: Frans Kaashoek
-
Strata: A Cross Media File System
Youngjin Kwon, Henrique Fingler, Tyler Hunt, Simon Peter, Emmett Witchel (UT Austin); Thomas Anderson (University of Washington)
源代碼:https://github.com/ut-osa/strata作者介紹
提出了一種跨存儲(chǔ)介質(zhì)的文件系統(tǒng)--Strata癞蚕。作者是來(lái)自德克薩斯大學(xué)奧斯汀分校(The University of Texas at Austin)的CS PHD Youngjin Kwon蕊爵,其導(dǎo)師是Prof. Emmett Witchel和 Prof. Simon Peter教師,Youngjin Kwon的主要研究興趣是操作系統(tǒng)桦山,包括文件系統(tǒng)攒射、新興存儲(chǔ)和內(nèi)存技術(shù)醋旦、系統(tǒng)安全技術(shù)、虛擬化会放。
Key Problem
Applications --> Kernel File System --> Block-level caching --> NVN/SSD/HDD
- 內(nèi)核管理每一個(gè)操作(Kernel mediates every operations): NVM讀寫速度很快饲齐,因此Kernel成為了瓶頸。(NVM is so fast that kernel is the bottleneck.)
- Kernel文件系統(tǒng)下面通常綁定的是單一類型的存儲(chǔ)設(shè)備(Tied to a single type of device): 為了兼顧高性能和低成本咧最,需要協(xié)調(diào)使用多種存儲(chǔ)設(shè)備類型捂人,如NVM(soon), SSD, HDD
- 在DRAM中進(jìn)行緩存(Aggressive caching in DRAM): 僅僅在需要時(shí)寫入存儲(chǔ)設(shè)備,應(yīng)用保持崩潰一致性(Crash consistency)矢沿。
Related Work
- Logging and coherence in file systems: 日志記錄與文件系統(tǒng)的一致性滥搭。
- Multi-layer block stores: 多層塊存儲(chǔ)。
- NVM/SSD optimized block storage/file systems: NVM/SSD優(yōu)化塊存儲(chǔ)捣鲸、文件系統(tǒng)瑟匆。
- Managed storage designs: 可管理存儲(chǔ)設(shè)計(jì)。
- Strong consistency: 強(qiáng)一致性栽惶。
Ideas or Solution
-
LibFS: NVM在用戶級(jí)的日志操作(Log operations to NVM at user-level)愁溜。
- 快速用戶級(jí)訪問(Fast user-level access )
- 順序、同步讀寫(In-order, synchronous IO)
-
KernelFS: 在內(nèi)核摘要和遷移數(shù)據(jù)(Digest and migrate data in kernel)
- 異步摘要(Asynchronous Digest)
- 透明數(shù)據(jù)遷移(Transparent Data Migration)
- 共享文件訪問(Shared file access)
Evaluation
- Performance 高性能: 對(duì)于小數(shù)據(jù)隨機(jī)讀寫(For small, randow IO),能夠進(jìn)行快速用戶級(jí)存儲(chǔ)設(shè)備訪問外厂。
- Low-cost capacity 低成本: 同時(shí)利用NVM/SSD/HDD作為存儲(chǔ)介質(zhì)祝谚,各取所長(zhǎng),各補(bǔ)縮短酣衷。
- 實(shí)現(xiàn)在不同存儲(chǔ)介質(zhì)上的透明數(shù)據(jù)遷移交惯。
- 高效處理設(shè)備IO讀寫。
- Simplicity 簡(jiǎn)單性:崩潰一致性模型(Intuitive crash consistency model)
- 順序穿仪、同步讀寫(In-order, synchronous IO)
- 不需要使用 fsync() 函數(shù)將數(shù)據(jù)從緩存中同步到存儲(chǔ)設(shè)備中(No fsync() required )
-
NOVA-Fortis: A Fault-Tolerant Non-Volatile Main Memory File System
Jian Xu, Lu Zhang, Amirsaman Memaripour, Akshatha Gangadharaiah, Amit Borase, Tamires Brito Da Silva (UC San Diego); Andy Rudoff (Intel); Steven Swanson (UC San Diego)
源代碼:https://github.com/NVSL/linux-nova作者介紹
提出了一種容錯(cuò)性非易失性主內(nèi)存文件系統(tǒng)--NOVA-Fortis席爽,作者是加利福尼亞大學(xué)計(jì)算機(jī)科學(xué)與工程系的PHD Jian Xu (Andiry), 其導(dǎo)師是 Non-Volatile Systems Lab 的 Prof. Steven Swanson啊片, 其主要研究興趣包括操作系統(tǒng)只锻、存儲(chǔ)架構(gòu)、下一代存儲(chǔ)技術(shù)的性能軟件優(yōu)化紫谷,
Key Problem
- 文件系統(tǒng)的容錯(cuò)性非常重要齐饮,但是現(xiàn)有的DAX(Direct Access)文件系統(tǒng)并不支持容錯(cuò)性。
- 新興的快速一致性內(nèi)存能夠?qū)鹘y(tǒng)的DRAM和大量的非易失性主內(nèi)存(non-volatile main memory, NVMM)相結(jié)合笤昨,使存儲(chǔ)性能大幅提升祖驱。但是實(shí)現(xiàn)這種功能需要當(dāng)前系統(tǒng)軟件對(duì)NVMM中的數(shù)據(jù)管理、保護(hù)瞒窒、訪問進(jìn)行根本性的改變捺僻。
Contributions or Solution
- 指出了構(gòu)建容錯(cuò)性NVMM文件系統(tǒng)的挑戰(zhàn)。
- 將原子更新和錯(cuò)誤檢測(cè)、恢復(fù)相結(jié)合匕坯,針對(duì)NVMM數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)了一個(gè)快速?gòu)?fù)制算法--Tick-Tock算法束昵。
- 設(shè)計(jì)并實(shí)現(xiàn)了優(yōu)化的NVMM文件系統(tǒng),兼顧容錯(cuò)性和高性能葛峻。
- 應(yīng)用最先進(jìn)的數(shù)據(jù)保護(hù)技術(shù)到NOVA-Fortis文件系統(tǒng)中锹雏,并適應(yīng)DAX風(fēng)格的mmap().
- 量化分析了NOVA-Fortis FS的漏洞與缺點(diǎn),并開發(fā)了相關(guān)技術(shù)降低這種漏洞缺陷术奖。
- 量化分析NOVA-Fortis 數(shù)據(jù)保護(hù)機(jī)制的性能和存儲(chǔ)負(fù)載逼侦。
Evaluation
- NOVA-Fortis與DAX感知(DAX-aware)的文件系統(tǒng)(沒有可靠性支持)相比,性能上平均提高了1.5倍腰耙。
- NOVA-Fortis與運(yùn)行在NVMM上的可靠榛丢、塊存儲(chǔ)的文件系統(tǒng)相比,性能上平均提高了3倍挺庞。
-
PebblesDB: Building Key-Value Stores using Fragmented Log-Structured Merge Trees
Pandian Raju, Rohan Kadekodi (University of Texas at Austin); Vijay Chidambaram (University of Texas at Austin and VMware Research); Ittai Abraham (VMware Research)
源代碼: https://github.com/utsaslab/pebblesdb作者介紹
提出了一種基于分段日志結(jié)構(gòu)的合并樹構(gòu)建的鍵值存儲(chǔ)引擎--PebblesDB晰赞。作者是來(lái)自德克薩斯大學(xué)奧斯汀分校的CS PHD Pandian Raju,他的主要研究興趣是操作系統(tǒng)选侨、分布式系統(tǒng)掖鱼、大數(shù)據(jù)系統(tǒng)和算法。
Key Problem
- 已有的鍵值存儲(chǔ)如LevelDB援制、RocksDB有非常不錯(cuò)的寫入吞吐量(Write Throughput)戏挡,但是存在嚴(yán)重的寫入放大(Write Amplification, WA)問題。
- 注 WA (Write Amplification)問題:在Flash和SSD中晨仑,實(shí)際物理層面上寫數(shù)據(jù)的量要大于期望寫入的數(shù)據(jù)量褐墅,其值是(實(shí)際寫flash memory的數(shù)據(jù))/ (從host端過來(lái)的想要寫的數(shù)據(jù))。一個(gè)簡(jiǎn)單的例子:當(dāng)要寫入一個(gè)4KB的數(shù)據(jù)時(shí)洪己,最壞的情況是一個(gè)塊Block中已經(jīng)沒有空閑空間了妥凳,但是存在無(wú)效的數(shù)據(jù)可以擦除,所以主控就把所有的數(shù)據(jù)線讀到緩存中答捕,擦除塊空間的數(shù)據(jù)逝钥,在緩存中更新整個(gè)塊的數(shù)據(jù)(將無(wú)效數(shù)據(jù)擦除),再把新數(shù)據(jù)重新寫入拱镐,這個(gè)操作帶來(lái)的寫入放大就是艘款,實(shí)際寫4KB的數(shù)據(jù),造成了整個(gè)塊(共1024KB)的寫入操作沃琅,放大了256倍哗咆;同時(shí)原來(lái)只需要簡(jiǎn)單一步寫入4KB的操作變成了:閃存讀取(1024KB)-->緩存更新(4KB)-->閃存擦除(1024KB)-->閃存寫入(1024),共4步操作,造成延遲大大增加阵难,速度變慢岳枷。因此WA是影響SSD隨機(jī)寫入性能和壽命的關(guān)鍵因素。
Analysis and Reasons
- 現(xiàn)有的K-V存儲(chǔ)均采用LSMT(Log Structured Merge Tree, LSMT)結(jié)構(gòu)呜叫,而LSMT將文件邏輯上分布在樹的不同級(jí)別上空繁,并且文件是排好序的且有不重疊的鍵區(qū)間,在檢索文件時(shí)使用二分檢索朱庆。
- 在LSMT數(shù)據(jù)結(jié)構(gòu)中盛泡,可能多次重復(fù)寫入數(shù)據(jù)到同一級(jí)別中。
- 需要在每個(gè)級(jí)別level中維護(hù)排序娱颊、且不重疊的文件傲诵。
Current Approaches
- Approach to reduce WA:
- 僅僅將文件加入到LSMT的下一級(jí)的結(jié)尾(Just append the file to the end of next level)
- 在LSMT的每一級(jí),存在許多重疊的文件箱硕。
- 這種方法影響讀性能(Affects the read performance)
Ideas or Solution
基于LSMT提出了一種分段日志結(jié)構(gòu)合并樹(Fragmented Log-Structured Merge Tree, FLSMT)算法拴竹,并基于FLSMT算法設(shè)計(jì)實(shí)現(xiàn)了PebblesDB鍵值存儲(chǔ)引擎。
- 使用哨兵(Guards)機(jī)制去維護(hù)部分排序等級(jí)(Partially sorted levels)剧罩,有效減少了搜索空間栓拜,提高了文件讀的性能。
- 在大多數(shù)情況下惠昔,在每一級(jí)僅寫入一次數(shù)據(jù)幕与,降低WA。
WA寫入IO對(duì)比
Security || Chair: Miguel Castro
-
WatchIT: Who Watches Your IT Guy?
Noam Shalev, Idit Keidar (Technion); Yaron Weinsberg (Microsoft); Yosef Moatti, Elad Ben-Yehuda (IBM Research)作者介紹
【斯諾登事件的啟發(fā)】本文針對(duì)系統(tǒng)管理員對(duì)系統(tǒng)資源的操作安全性提出了一種基于容器的隔離保護(hù)方法镇防。作者是來(lái)自以色列理工學(xué)院電器工程系的PHD Noam Shalev【以色列理工學(xué)院號(hào)稱是以色列的‘麻省理工學(xué)院’啦鸣,出了好多個(gè)諾貝爾獎(jiǎng)獲得者】,其主要研究興趣是操作系統(tǒng)来氧、計(jì)算機(jī)安全诫给、機(jī)器學(xué)習(xí)、分布式系統(tǒng)啦扬。
Key Problem
系統(tǒng)管理員對(duì)系統(tǒng)資源有所有的權(quán)限蝙搔,這些權(quán)限可被用于竊取系統(tǒng)數(shù)據(jù),這大大增加了系統(tǒng)中個(gè)人考传、商業(yè)等機(jī)密數(shù)據(jù)被盜取的可能性【斯諾登事件吃型,或者當(dāng)一個(gè)銀行要將內(nèi)部金融系統(tǒng)外包給第三方公司】。因此僚楞,如何使系統(tǒng)管理員在有效可控的范圍之下進(jìn)行系統(tǒng)資源訪問是保證系統(tǒng)安全性的關(guān)鍵勤晚。
Ideas or Solution
- WatchIT: 一種約束個(gè)人對(duì)系統(tǒng)資源訪問和行為監(jiān)控的策略。
- 根據(jù)最小權(quán)限原則和要處理的IT問題(如系統(tǒng)故障或Bug)泉褐,WatchIT預(yù)測(cè)出所需要訪問的系統(tǒng)資源赐写,并創(chuàng)建基于Linux Container的專有容器對(duì)這些資源進(jìn)行隔離,將容器部署并調(diào)試解決IT問題膜赃。
- 管理員僅僅對(duì)專有容器(Perforated Containers)中的系統(tǒng)資源有訪問操作權(quán)限挺邀,Perforated Containers相當(dāng)于一個(gè)管理沙箱(A Sandbox for administrators)。
- 設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)新的文件系統(tǒng)--ITFS【需要略改變Linux Kernel】,有以下特點(diǎn):
- 易于部署(Out of the box deployment)
- 監(jiān)控所有的文件操作(Monitor all file operations)
- 根據(jù)預(yù)定義策略運(yùn)行(Operates by Policy)
- 跟蹤所有的文件系統(tǒng)調(diào)用(Trap file system calls)
- 設(shè)計(jì)并實(shí)現(xiàn)Permission Broker端铛,以解決容器隔離太限制及預(yù)測(cè)錯(cuò)誤導(dǎo)致的無(wú)法fix IT issues的問題泣矛。
- 安裝在host上的服務(wù)
- 能夠代表隔離容器進(jìn)行文件操作: (1). 記錄并監(jiān)控所有的文件操作;(2). 可以改變策略預(yù)定義的隔離容器的資源訪問權(quán)限禾蚕。
Evaluation
- 在IBM研究中心的IT部門數(shù)據(jù)庫(kù)和工作流上進(jìn)行案例部署您朽,證明了WatchIT的可行性。
-
Secure Page Fusion with VUsion
Marco Oliverio (Vrije Universiteit Amsterdam and University of Calabria); Kaveh Razavi, Herbert Bos, Cristiano Giuffrida (Vrije Universiteit Amsterdam)作者介紹
Key Problem
Idea or Solution
Ideas:
- 時(shí)間序列模型去預(yù)測(cè)系統(tǒng)性能開銷
- CDF metric is what?