在現(xiàn)代計算機中续搀,存儲器系統(tǒng)的結(jié)構(gòu)可以用一個存儲器層次(Memory Hierarchy)模型來刻畫。
越位于高層的存儲設(shè)備越接近CPU,他們的容量越小,但是對其中數(shù)據(jù)的訪問速度越快寂汇;而位于底層的存儲設(shè)備正好相反,容量更大捣染,速度更慢骄瓣。
一般意義上的緩存
不同層次間數(shù)據(jù)的傳輸
不難理解為了提高CPU對數(shù)據(jù)操作的速度,應該盡量讓數(shù)據(jù)處于較高的階層耍攘。而在從低層提取數(shù)據(jù)時榕栏,往往是按塊(chunk)提取的,也就是說往往會提取包含此時所需要數(shù)據(jù)的一大塊數(shù)據(jù)蕾各,并把這塊數(shù)據(jù)放到上一層扒磁,再從這上一層中提取那一塊數(shù)據(jù),當然式曲,這次提取的也是一塊數(shù)據(jù)妨托,但是這一塊比較小。
你可能會好奇為什么不只提取那一段有效的數(shù)據(jù)而提取一大塊呢吝羞?有這么幾個原因:1.提取一整塊數(shù)據(jù)而不是單獨的數(shù)據(jù)有利于減少數(shù)據(jù)在總線上傳輸?shù)拇螖?shù)兰伤,提高效率。2.根據(jù)局部性原理(locality)钧排,當前數(shù)據(jù)周圍的數(shù)據(jù)可能CPU在執(zhí)行完當前操作后馬上就會用到敦腔,先提前提到上一層往往能提高效率。3.充分利用上一層資源很重要啊恨溜,留著不用還能生更多存儲器寶寶嗎符衔?
上一層的存儲器暫時存放了下一層的數(shù)據(jù),這就是緩存(cache)的概念筒捺。因此從上面的存儲器階層我們不難發(fā)現(xiàn)柏腻,本地磁盤(local disks)可以作為遠程二級存儲介質(zhì)(remote secondary storage)的緩存纸厉;主存(main memory)可以作為本地磁盤(local disks)的緩存系吭;三級緩存(L3 cache)可以作為主存(main memory)的緩存等等。
命中與不命中
當CPU要從一個存儲設(shè)備中獲取數(shù)據(jù)時颗品,會先看看它上一層的存儲設(shè)備中有沒有所要的數(shù)據(jù)肯尺。這不難理解,因為CPU曾經(jīng)把一大塊的數(shù)據(jù)提到它的上一層存儲設(shè)備中躯枢。當CPU在上一層存儲設(shè)備中找到所要的數(shù)據(jù)時则吟,很幸運,這就是一次訪問命中(hit)锄蹂,這次命中為CPU省了不少訪問下一層存儲設(shè)備的時間氓仲。當然CPU不總是這么走運,很可能在這一層存儲設(shè)備中沒有所需要的數(shù)據(jù),這就是一次不命中(miss)敬扛。不命中帶來的訪問下層存儲器會導致很長的時間懲罰晰洒。
緩存管理
之前說過不同層次間數(shù)據(jù)是以塊為單位移動的锈嫩,訪問數(shù)據(jù)時也存在命中與不命中問題娜谊,這些麻煩的事情都是由誰來管理的呢?不同的層次的管理機制不同右犹,寄存器的緩存邏輯由編譯器管理急侥;L1~L3緩存由硬件管理砌滞,作為硬盤緩存的主存由操作系統(tǒng)和硬件一同管理。
高速緩存
細心的讀者可能發(fā)現(xiàn)了坏怪,有三個家伙的名字里就有緩存贝润,分別是L1 cache, L2 cache, L3 cache。這些存儲介質(zhì)在跑的飛起的CPU和慢吞吞的主存中起到紐帶的作用铝宵,他們被叫做高速緩存题暖。我們先從簡單情況開始,即只有L1的情況捉超。即CPU從主存獲取數(shù)據(jù)胧卤,L1緩存作為主存的緩存。
高速緩存的通用結(jié)構(gòu)
CPU通過地址總線向存儲器傳輸所需數(shù)據(jù)所在的地址拼岳。假設(shè)地址長度有m位枝誊,我們可以像下圖這樣把這個地址分成三部分。
你也許會問為什么取地址中間幾位來作為緩存的組數(shù)而不是最高幾位或最低幾位呢惜纸?看了下面一小節(jié)再回答這個問題叶撒。
下面來討論幾種具體的緩存的實現(xiàn)
直接映射高速緩存(Direct-Mapped Caches)
當E = 1時,就形成了這種緩存結(jié)構(gòu)耐版。它的特點是每組只有一行祠够,這樣子的話0x00|000|xxx和0x01|000|xxx都會映射到第0組的唯一那行,所以當?shù)谝淮伟?x00|000|xxx數(shù)據(jù)加載到緩存的第0行第0組上粪牲,第二次要訪問0x01|000|xxx的數(shù)據(jù)古瓤,就出現(xiàn)了一個不命中,這是就需要用0x01|000|xxx的數(shù)據(jù)替換原數(shù)據(jù)腺阳。
組相聯(lián)高速緩存(Set Associative Caches)
當1 < E < C/B時落君,這里C是緩存容量,成為組相聯(lián)高速緩存亭引。與直接映射高速緩存相比绎速,增加的行可以提高命中率,但是對于不命中的處理相對就復雜了焙蚓,一般來說如果有有效位表明這一行沒被寫給的行纹冤,就寫道這一行洒宝,否則寫到這些行里最后用到的那一行里。
全相聯(lián)高速緩存(Fully Associative Caches)
此時E = C/B萌京,也就是E * B = C待德,而C = S * B * E(你有推導出這個公式嗎?)枫夺,所以S = 1将宪,也就是只有1組。
此時地址被簡單地分成了兩部分橡庞,標志位和塊偏移位较坛。對不命中的處理和組相聯(lián)高速緩存相似。
現(xiàn)在讓我們回到之前的問題扒最。
根據(jù)局部性原理丑勤,地址接近的內(nèi)存單元很可能被訪問的時間也很接近,所以如果用最低幾位吧趣,相鄰的地址空間映射到了不同的組不利于局部性發(fā)揮作用法竞,因為他們本可以映射到同一組,CPU訪問時可以直接命中强挫。如果用最高幾位每一組的行數(shù)就會很多岔霸,會降低查找緩存的效率。
緩存的力量
假設(shè)要從主存中取一段數(shù)據(jù)到CPU俯渤,每次從L1緩存中取數(shù)據(jù)所需的時間為tc呆细,每次從主存中取數(shù)據(jù)的時間為tm,總命中率為h八匠。
那么這次取數(shù)行為所需總時間的數(shù)學期望Ex(t)1= n * (h * tc + (1 - h) * (tc + tm))
如果沒有緩存機制絮爷,所需總時間的數(shù)學期望Ex(t)2 = n * (tc + tm)
通常tc為幾個時鐘周期而tm為幾十到幾百個時鐘周期。Ex(t)1/Ex(t)2 = 1-h + (h * tc) / (tc + tm)約等于1-h梨树,當命中率為0.5時坑夯,速度幾乎提高了一倍!