計算機基礎(chǔ): 什么樣的代碼能讓CPU運行的更快调榄？

計算機基礎(chǔ): 什么樣的代碼能讓CPU運行的更快踊赠？

眾所周知，程序在計算機里運行時每庆，程序的指令和數(shù)據(jù)存儲在 內(nèi)存 中筐带。當程序進程獲得CPU時間片時，CPU將會從 內(nèi)存 中"恢復(fù)執(zhí)行現(xiàn)場"缤灵，然后繼續(xù)循環(huán)執(zhí)行程序的指令知道程序進程結(jié)束伦籍。

CPU的執(zhí)行速度與內(nèi)存的讀寫速度不在同一個層級蓝晒，通常一次內(nèi)存訪問需要 200~300 個時鐘周期，而CPU一個時鐘周期可以執(zhí)行 3~9 條指令帖鸦。而一個程序中芝薇，訪問內(nèi)存的指令通常占25%左右，如果不能以某種方式降低訪問內(nèi)存時延的話作儿，那對CPU執(zhí)行來說就是個災(zāi)難剩燥！

因此為了盡可能降低內(nèi)存與CPU之間讀寫差異，CPU內(nèi)部加入了 CPU Cache立倍，也被稱為高速緩存灭红。它體積小但訪問速度極快，根據(jù)數(shù)據(jù)局部性原則口注，常用的數(shù)據(jù)可以復(fù)制到 CPU Cache 從減少CPU對內(nèi)存的訪問变擒。

CPU Cache 分為3層：L1, L2, L3。其中 L1 高速緩存的訪問速度幾乎與寄存器一樣快寝志，只需要 2~4 個時鐘周期娇斑。L2 則為 10~20 個時鐘周期，L3 則為 20~60 個時鐘周期材部。

我們的代碼只有讓 CPU Cache 更多命中緩存毫缆，減少CPU直接從內(nèi)存中讀取數(shù)據(jù)，這樣才能讓CPU跑得更快乐导！

CPU Cache 是如何存儲數(shù)據(jù)的苦丁？

CPU Cache 是由很多個連續(xù)的內(nèi)存塊組成，每個內(nèi)存塊被稱為 Cache Line物臂。Cache Line 的數(shù)量是限定的旺拉，例如在一個64KB的 CPU Cache 中，如果 Cache Line 的大小為 64字節(jié), 那么就只有 1024 條Cache Line棵磷。

常見的 CPU Line 大小為 32蛾狗、64 和 128 字節(jié)。這是一個經(jīng)驗值仪媒，如果 CPU Line 過大沉桌，局部性空間也越大，但是對應(yīng)緩存行數(shù)就會越少算吩。

CPU Line 是如何被替換的留凭？

通常有 LRU 最近最少使用策略 和 隨機替換策略 兩種。

當CPU訪問新數(shù)據(jù)且未命中 CPU Cache 時赌莺，那么則需要選擇一條 CPU Line 來被新數(shù)據(jù)替換

如何查看 CPU Cache 和 CPU Line 的大斜馈？

# 查看 L1 Cache 「數(shù)據(jù)」緩存的容量大小
cat /sys/devices/system/cpu/cpu0/cache/index0/size

# 查看 L1 Cache 「指令」緩存的容量大小
cat /sys/devices/system/cpu/cpu0/cache/index1/size

# 查看 L2 Cache 的容量大小
cat /sys/devices/system/cpu/cpu0/cache/index1/size

# 查看 L3 Cache 的容量大小
cat /sys/devices/system/cpu/cpu0/cache/index1/size

# 查看 Cache Line 的容量大小 (單位：字節(jié))
cat /sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size

什么樣的代碼能讓 CPU Cache 更頻繁的命中緩存艘狭？

我們使用go benchmark測試以下代碼:
func arrayTravelIj(n int) {
  arr := make([][]int, n)
  for i, _ := range arr {
      arr[i] = make([]int, n)
  }

  for i := 0; i < n; i++ {
      for j := 0; j < n; j++ {
          arr[i][j] = 0
      }
  }
}

func arrayTravelJi(n int) {
  arr := make([][]int, n)
  for i, _ := range arr {
      arr[i] = make([]int, n)
  }

  for i := 0; i < n; i++ {
      for j := 0; j < n; j++ {
          arr[j][i] = 0
      }
  }
}

const N = 128

func BenchmarkArrayTravelIj(b *testing.B) {
  for i := 0; i < b.N; i++ {
      arrayTravelIj(N)
  }
}

func BenchmarkArrayTravelJi(b *testing.B) {
  for i := 0; i < b.N; i++ {
      arrayTravelJi(N)
  }
}

# 執(zhí)行: go test -bench=^BenchmarkArrayTravel -benchmem .
# 結(jié)果: 
# cpu: Intel(R) Xeon(R) Gold 6278C CPU @ 2.60GHz
# BenchmarkArrayTravelIj-8           33397             35933 ns/op          134144 B/op        129 allocs/op
# BenchmarkArrayTravelJi-8           18099             66487 ns/op          134144 B/op        129 allocs/op
# PASS
可以看到，明明 內(nèi)存分配次數(shù) 和 運行時的內(nèi)存大小 是一樣的, 但是 BenchmarkArrayTravelIj 比 BenchmarkArrayTravelJi 快了近一倍！

原因就是 BenchmarkArrayTravelIj 訪問數(shù)據(jù)順序是連續(xù)的巢音，而 BenchmarkArrayTravelJi 訪問數(shù)據(jù)順序是跳躍的遵倦。

假如 N=2 ，那么 arr 在內(nèi)存中的存儲順序為 arr[0][0],arr[0][1],arr[1][0],arr[1][1]官撼。當N越來越大時梧躺，由 BenchmarkArrayTravelJi 訪問數(shù)據(jù)順序是跳躍的，那么 CPU Cache 命中率則會越來越低傲绣！

我的測試機器 L1 大小是32K掠哥，Cache Line 大小是64字節(jié)，那么意味著單個 Cache Line 能保存的int元素的數(shù)量是8個秃诵，整個 L1 CPU Cache 能保存的 Cache Line 條數(shù)是 512條续搀。

換算一下就是整個 L1 CPU Cache 能保存的int元素是4096個，所以當N超過64時菠净，隨著N增大禁舷，兩個函數(shù)的執(zhí)行效率也會被越拉越大。

當然毅往，64這個數(shù)字并不嚴謹牵咙，因為除了 CPU Cache 不僅只有 L1, 還有 L2, L3, 而且不同CPU的底層還會有各種硬件的加速內(nèi)存預(yù)取策略

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市攀唯，隨后出現(xiàn)的幾起案子洁桌，更是在濱河造成了極大的恐慌，老刑警劉巖侯嘀，帶你破解...
沈念sama閱讀 206,378評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件战坤，死亡現(xiàn)場離奇詭異，居然都是意外死亡残拐，警方通過查閱死者的電腦和手機途茫，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,356評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來溪食，“玉大人囊卜，你說我怎么就攤上這事〈砦郑” “怎么了栅组？”我有些...
開封第一講書人閱讀 152,702評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長枢析。經(jīng)常有香客問我玉掸，道長，這世上最難降的妖魔是什么醒叁？我笑而不...
開封第一講書人閱讀 55,259評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任司浪，我火速辦了婚禮泊业，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘啊易。我一直安慰自己吁伺，他們只是感情好，可當我...
茶點故事閱讀 64,263評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布租谈。她就那樣靜靜地躺著篮奄，像睡著了一般。火紅的嫁衣襯著肌膚如雪割去。梳的紋絲不亂的頭發(fā)上窟却，一...
開封第一講書人閱讀 49,036評論 1贊 285
城市分裂傳說
那天，我揣著相機與錄音呻逆，去河邊找鬼夸赫。笑死，一個胖子當著我的面吹牛页慷，可吹牛的內(nèi)容都是我干的憔足。我是一名探鬼主播，決...
沈念sama閱讀 38,349評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼酒繁，長吁一口氣：“原來是場噩夢啊……” “哼滓彰！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起州袒，我...
開封第一講書人閱讀 36,979評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤揭绑，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后郎哭，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體他匪，經(jīng)...
沈念sama閱讀 43,469評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,938評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年夸研，在試婚紗的時候發(fā)現(xiàn)自己被綠了邦蜜。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,059評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡亥至，死狀恐怖悼沈，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情姐扮，我是刑警寧澤絮供，帶...
沈念sama閱讀 33,703評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站茶敏，受9級特大地震影響壤靶，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜惊搏，卻給世界環(huán)境...
茶點故事閱讀 39,257評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一贮乳、第九天我趴在偏房一處隱蔽的房頂上張望忧换。院中可真熱鬧，春花似錦塘揣、人聲如沸包雀。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,262評論 0贊 19
一樁弒父案亲铡，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至葡兑，卻和暖如春奖蔓，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背讹堤。一陣腳步聲響...
開封第一講書人閱讀 31,485評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工吆鹤，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人洲守。一個月前我還...
沈念sama閱讀 45,501評論 2贊 354
代替公主和親
正文我出身青樓疑务，卻偏偏與公主長得像，于是被迫代替她去往敵國和親梗醇。傳聞我的和親對象是個殘疾皇子知允，可洞房花燭夜當晚...
茶點故事閱讀 42,792評論 2贊 345

計算機基礎(chǔ): 什么樣的代碼能讓CPU運行的更快？

計算機基礎(chǔ): 什么樣的代碼能讓CPU運行的更快调榄？

計算機基礎(chǔ): 什么樣的代碼能讓CPU運行的更快踊赠？

`CPU Cache` 是如何存儲數(shù)據(jù)的苦丁？

`CPU Line` 是如何被替換的留凭？

如何查看 `CPU Cache` 和 `CPU Line` 的大斜馈？

什么樣的代碼能讓 `CPU Cache` 更頻繁的命中緩存艘狭？

推薦閱讀更多精彩內(nèi)容

計算機基礎(chǔ): 什么樣的代碼能讓CPU運行的更快调榄？

計算機基礎(chǔ): 什么樣的代碼能讓CPU運行的更快踊赠？

CPU Cache 是如何存儲數(shù)據(jù)的苦丁？

CPU Line 是如何被替換的留凭？

如何查看 CPU Cache 和 CPU Line 的大斜馈？

什么樣的代碼能讓 CPU Cache 更頻繁的命中緩存艘狭？

推薦閱讀更多精彩內(nèi)容

`CPU Cache` 是如何存儲數(shù)據(jù)的苦丁？

`CPU Line` 是如何被替換的留凭？

如何查看 `CPU Cache` 和 `CPU Line` 的大斜馈？

什么樣的代碼能讓 `CPU Cache` 更頻繁的命中緩存艘狭？