linux性能四大相關(guān)子系統(tǒng)墨礁,cpu幢竹, 內(nèi)存,磁盤io恩静,網(wǎng)絡(luò)妨退。內(nèi)存的使用貫徹系統(tǒng),任何活的東西都是活在內(nèi)存中蜕企。
內(nèi)存的管理:段式管理+頁(yè)式管理咬荷。
段式管理,Linux中將段基址設(shè)為0轻掩,即兼容了intel的段的要求幸乒,又可以讓不支持分段的架構(gòu)能夠繞過(guò)分段。這使得邏輯地址=線性地址唇牧。
頁(yè)式管理罕扎,是將物理內(nèi)存分成固定大小的frame,然后通過(guò)mmu丐重,在虛擬空間中頁(yè)設(shè)成為同樣大小page腔召,一般是4K。隨著物理內(nèi)存越來(lái)越大扮惦,64位架構(gòu)的普及臀蛛,可支持的內(nèi)存以T計(jì)算,在某些應(yīng)用中,內(nèi)核使用大頁(yè)浊仆,增加緩存命中客峭,減少分配次數(shù),8K抡柿,1M舔琅,2M,4M洲劣。虛擬空間的page通過(guò)mmu映射到物理的frame备蚓,Linux利用(時(shí)間,空間)局部性原理囱稽,只在必要時(shí)才做page到frame的映使射郊尝,而不必系統(tǒng)一啟動(dòng)就將所有物理內(nèi)存映射到虛擬空間。使用分級(jí)的頁(yè)表的方式粗悯,通過(guò)逐級(jí)檢索獲得最終的映射的物理頁(yè)。32位中一般使用2機(jī)頁(yè)表同欠,64位系統(tǒng)可使用3級(jí)样傍、4級(jí)、5級(jí)頁(yè)表铺遂。
當(dāng)代的內(nèi)存管理體系中衫哥,最頂層稱做node,這對(duì)應(yīng)numa體系中(uma中就是常值)襟锐,節(jié)點(diǎn)內(nèi)部?jī)?nèi)存空間撤逢。node內(nèi)部被劃分成zone,一般分DMA zone粮坞, normal zone和high memory蚊荣,一般64位系統(tǒng)不再設(shè)Highmem。
物理內(nèi)存分布:開(kāi)始部分保留莫杈,640K~1M互例,供bios、VGA的ROM使用筝闹,DMA zone一般供設(shè)備啟動(dòng)DMA功能使用媳叨,通常1M~16M,dma需要連續(xù)的物理內(nèi)存关顷。normal zone糊秆,16M~896M,線性映射區(qū)(kmalloc不經(jīng)過(guò)頁(yè)表议双,但線性直接映射確實(shí)在內(nèi)核映射表中)痘番,虛擬地址=物理地址+固定偏移,內(nèi)核將自己代碼段和常用的數(shù)據(jù)結(jié)構(gòu)結(jié)構(gòu)都放在normal zone平痰,以減小虛擬地址到物理地址映射的開(kāi)銷夫偶;high memory 區(qū)域由vmalloc區(qū)界睁,永久映射區(qū)(pkmap)和固定映射區(qū)構(gòu)成,設(shè)備的IO空間通過(guò)ioremap映射在vmalloc區(qū)間兵拢,用戶數(shù)據(jù)翻斟、頁(yè)表在pkmap區(qū)。固定映射區(qū)可以放一些基本不變化的映射说铃,tlb不會(huì)將其換出访惜,總是能命中。而64位系統(tǒng)腻扇,使用48位地址線债热,虛擬地址空間劃分中,將內(nèi)核空間放在高128T幼苛,用戶空間放在低128T窒篱。
系統(tǒng)為了方便管理,減少內(nèi)存的碎片舶沿,使用budysystem和slab來(lái)處理內(nèi)存的分配和回收墙杯。buddysystem是將內(nèi)存分成大小不等的塊,一塊是連續(xù)的頁(yè). 塊大小相同括荡、地址相鄰高镐、屬性一致的認(rèn)定為伙伴,可以合并成一個(gè)更大的塊畸冲。處理分配內(nèi)存請(qǐng)求時(shí)嫉髓,從最接近的order的free list開(kāi)始,如果沒(méi)有空閑塊邑闲,往上在order+1的freelist搜索算行,直至找到可用的空閑塊。如果有剩余苫耸,則以盡可能大的order放入freelist纱意。如果找不到可用的空閑塊,會(huì)觸發(fā)內(nèi)存的回收機(jī)制鲸阔,像臟頁(yè)刷新偷霉,頁(yè)的換出,頁(yè)面遷移等褐筛,然后回收类少;低內(nèi)存情況下還會(huì)觸發(fā)oom killer。buddy system能夠盡量減少大于1個(gè)頁(yè)的內(nèi)存孔洞渔扎,外部碎片硫狞。在申請(qǐng)小塊內(nèi)存,尤其是內(nèi)核在normal zone上分配時(shí),使用slab來(lái)處理残吩,減少內(nèi)部碎片财忽。slab和buddy的思想是一致的,將內(nèi)存以大小固定塊把內(nèi)存組織起來(lái)泣侮,以最接近請(qǐng)求的塊大小分配即彪。slab分為通用slab和專有slab。內(nèi)核把常用的結(jié)構(gòu)以slab cache的方式管理活尊,結(jié)構(gòu)釋放后并不釋放內(nèi)存隶校,將其放在對(duì)應(yīng)的結(jié)構(gòu)的slab cache中。內(nèi)核中的kmalloc蛹锰,申請(qǐng)內(nèi)存深胳,如果大于64K會(huì)進(jìn)入buddysystem分配。如果較小铜犬,就在slab的通用分配器上舞终。slab開(kāi)始是空的,通過(guò)grow的方式癣猾,從buddysystem申請(qǐng)分配內(nèi)存敛劝。
用戶空間的內(nèi)存使用,是在虛擬地址空間上煎谍,以MMU將物理內(nèi)存映射到用戶空間攘蔽。程序分了代碼段龙屉,數(shù)據(jù)段呐粘,bss,stack转捕,mmap區(qū)間(以vma描述)作岖。文件在load時(shí)候,通過(guò)解析解析elf文件五芝,將各段通過(guò)do_mmap映射到到進(jìn)程地址空間痘儡,這些數(shù)據(jù)保存再mm_struct的code_start.code_end這類似變量。在程序開(kāi)始執(zhí)行時(shí)枢步,將虛擬空間映射到物理內(nèi)存上沉删,加載程序各個(gè)段到內(nèi)存,開(kāi)始執(zhí)行醉途。程序申請(qǐng)中動(dòng)態(tài)內(nèi)存申請(qǐng)時(shí)再進(jìn)程的堆空間上完成的矾瑰,通過(guò)brk系統(tǒng)調(diào)用來(lái)實(shí)現(xiàn)。brk系統(tǒng)調(diào)用建立vma(或擴(kuò)展原vma的大邪妗)殴穴,返回虛擬地址,并沒(méi)有建立頁(yè)表建立映射。當(dāng)?shù)谝蛔鰧懖僮鲿r(shí)采幌,才真正建立虛擬地址到物理內(nèi)存的映射劲够。