本文主要來學(xué)習(xí)內(nèi)存屏障和 CPU 緩存知識赏表,以便于我們?nèi)チ私?CPU 對程序性能優(yōu)化做了哪些努力。
首先來看下 CPU 緩存:
CPU 緩存
CPU 緩存是為了提高程序運(yùn)行的性能臼闻,CPU 在很多處理上內(nèi)部架構(gòu)做了很多調(diào)整,比如 CPU 高速緩存,大家都知道因?yàn)橛脖P很慢,可以通過緩存把數(shù)據(jù)加載到內(nèi)存里面桂肌,提高訪問速度数焊,而 CPU 處理也有這個(gè)機(jī)制永淌,盡可能把處理器訪問主內(nèi)存時(shí)間開銷放在 CPU 高速緩存上面,CPU 訪問速度相比內(nèi)存訪問速度又要快好多倍佩耳,這就是目前大多數(shù)處理器都會去利用的機(jī)制遂蛀,利用處理器的緩存以提高性能。
多級緩存
CPU 的緩存分為三級緩存干厚,所以說多核 CPU 會有多個(gè)緩存李滴,我們首先來看下一級緩存(L1 Cache):
L1 Cache
是 CPU 第一層高速緩存,分為數(shù)據(jù)緩存和指令緩存蛮瞄,一般服務(wù)器 CPU 的 L1
緩存的容量通常在 32-4096 KB所坯。
由于 L1
級高速緩存容量的限制,為了再次提高 CPU 的運(yùn)算速度挂捅,在 CPU 外部放置-高速存儲器芹助,即二級緩存(L2 Cache)。
因?yàn)?L1
和 L2
的容量還是有限闲先,因此提出了三級緩存状土,L3
現(xiàn)在的都是內(nèi)置的,它的實(shí)際作用即是伺糠,L3
緩存的應(yīng)用可以進(jìn)一步降低內(nèi)存延遲蒙谓,同時(shí)提升大數(shù)據(jù)量計(jì)算時(shí)處理器的性能,具有較大 L3
緩存的處理器提供更有效的文件系統(tǒng)緩存行為及較短消息和處理器隊(duì)列長度训桶,一般是多核共享一個(gè) L3
緩存累驮。
CPU 在讀取數(shù)據(jù)時(shí),先在 L1 Cache 中尋找舵揭,再從 L2 Cache 尋找谤专,再從 L3 Cache 尋找,然后是內(nèi)存琉朽,再后是外存儲器硬盤尋找毒租。
如下圖所示,CPU 緩存架構(gòu)中,緩存層級越接近 CPU core墅垮,容量越小惕医,速度越快。CPU Cache 由若干緩存行組成算色,緩存行是 CPU Cache 中的最小單位抬伺,一個(gè)緩存行的大小通常是 64 字節(jié),是 2 的倍數(shù)灾梦,不同的機(jī)器上為 32 到 64 字節(jié)不等峡钓,并且它有效地引用主內(nèi)存中的一塊地址。
多 CPU 讀取同樣的數(shù)據(jù)進(jìn)行緩存若河,進(jìn)行不同運(yùn)算之后能岩,最終寫入主內(nèi)存以哪個(gè) CPU 為準(zhǔn)?這就需要緩存同步協(xié)議了:
緩存同步協(xié)議
在這種高速緩存回寫的場景下萧福,有很多 CPU 廠商提出了一些公共的協(xié)議-MESI 協(xié)議拉鹃,它規(guī)定每條緩存有個(gè)狀態(tài)位,同時(shí)定義了下面四個(gè)狀態(tài):
- 修改態(tài)(Modified):此 cache 行已被修改過(臟行),內(nèi)容已不同于主存鲫忍,為此 cache 專有膏燕;
- 專有態(tài)(Exclusive):此 cache 行內(nèi)容同于主存,但不出現(xiàn)于其它 cache 中悟民;
- 共享態(tài)(Shared):此 cache 行內(nèi)容同于主存坝辫,但也出現(xiàn)于其它 cache 中;
- 無效態(tài)(Invalid):此 cache 行內(nèi)容無效(空行)射亏。
多處理器近忙,單個(gè) CPU 對緩存中數(shù)據(jù)進(jìn)行了改動,需要通知給其它 CPU鸦泳,也就是意味著银锻,CPU 處理要控制自己的讀寫操作,還要監(jiān)聽其他 CPU 發(fā)出的通知做鹰,從而保證最終一致击纬。
運(yùn)行時(shí)的指令重排
CPU 對性能的優(yōu)化除了緩存之外還有運(yùn)行時(shí)指令重排,大家可以通過下面的圖了解下:
比如圖中有代碼 x = 10;y = z;
钾麸,這個(gè)代碼的正常執(zhí)行順序應(yīng)該是先將 10 寫入 x
更振,讀取 z
的值,然后將 z
值寫入 y
饭尝,實(shí)際上真實(shí)執(zhí)行步驟肯腕,CPU 執(zhí)行的時(shí)候可能是先讀取 z
的值,將 z
值寫入 y
钥平,最后再將 10 寫入 x
实撒,為什么要做這些修改呢?
因?yàn)楫?dāng) CPU 寫緩存時(shí)發(fā)現(xiàn)緩存區(qū)正被其他 CPU 占用(例如:三級緩存),為了提高 CPU 處理性能知态,可能將后面的讀緩存命令優(yōu)先執(zhí)行捷兰。
指令重排并非隨便重排,是需要遵守 as-if-serial
語義的负敏,as-if-serial
語義的意思是指不管怎么重排序(編譯器和處理器為了提高并行度)贡茅,單線程程序的執(zhí)行結(jié)果不能被改變。編譯器其做,runtime 和處理器都必須遵守 as-if-serial
語義顶考,也就是說編譯器和處理器不會對存在數(shù)據(jù)依賴關(guān)系的操作做重排序。
那么這樣就會有如下兩個(gè)問題:
- CPU 高速緩存下有一個(gè)問題:
緩存中的數(shù)據(jù)與主內(nèi)存的數(shù)據(jù)并不是實(shí)時(shí)同步的妖泄,各 CPU(或 CPU 核心)間緩存的數(shù)據(jù)也不是實(shí)時(shí)同步驹沿。在同一個(gè)時(shí)間點(diǎn),各 CPU 所看到同一內(nèi)存地址的數(shù)據(jù)的值可能是不一致的浮庐。
- CPU 執(zhí)行指令重排序優(yōu)化下有一個(gè)問題:
雖然遵守了 as-if-serial
語義甚负,僅在單 CPU 自己執(zhí)行的情況下能保證結(jié)果正確柬焕。多核多線程中审残,指令邏輯無法分辨因果關(guān)聯(lián),可能出現(xiàn)亂序執(zhí)行斑举,導(dǎo)致程序運(yùn)行結(jié)果錯(cuò)誤搅轿。
如何解決上述的兩個(gè)問題呢,這就需要談到內(nèi)存屏障:
內(nèi)存屏障
處理器提供了兩個(gè)內(nèi)存屏障(Memory Barrier) 指令用于解決上述兩個(gè)問題:
寫內(nèi)存屏障(Store Memory Barrier):在指令后插入 Store Barrier
富玷,能讓寫入緩存中的最新數(shù)據(jù)更新寫入主內(nèi)存璧坟,讓其他線程可見。強(qiáng)制寫入主內(nèi)存赎懦,這種顯示調(diào)用雀鹃,CPU 就不會因?yàn)樾阅芸紤]而去對指令重排。
讀內(nèi)存屏障(Load Memory Barrier):在指令前插入 Load Barrier
励两,可以讓高速緩存中的數(shù)據(jù)失效黎茎,強(qiáng)制從新的主內(nèi)存加載數(shù)據(jù)。強(qiáng)制讀取主內(nèi)存內(nèi)容当悔,讓 CPU 緩存與主內(nèi)存保持一致傅瞻,避免了緩存導(dǎo)致的一致性問題。
Java 中也有類似的機(jī)制盲憎,比如 Synchronized
和 volatile
都采用了內(nèi)存屏障的原理嗅骄。
總結(jié)
本文主要介紹了在提高程序運(yùn)行性能上,CPU 作出了哪些優(yōu)化:緩存和運(yùn)行時(shí)指令重排饼疙,最后還介紹了內(nèi)存屏障相關(guān)知識溺森。
參考