計算機組成原理筆記
ch01 馮·諾依曼體系結(jié)構(gòu)
計算機基本硬件組成:
- CPU
- Memory
- Mother Board
- Chipset
- SouthBridge 控制 CPU 和外部 I/O 設(shè)備的通信
- NorthBridge 控制 CPU 和內(nèi)存辜贵、顯卡的通信悯蝉,但實際已不存在了,在 CPU 內(nèi)部實現(xiàn)
- Bus
- Chipset
- I/O 設(shè)備:顯示器托慨,鼠標(biāo)鼻由、鍵盤
- Graphic Card
- GPU
- 硬盤
馮·諾依曼體系結(jié)構(gòu):
計算機的抽象概念,也叫存儲程序計算機榴芳。
- 可編程嗡靡。計算器是不可編程的,因為在硬件層面寫死了邏輯窟感。
- 存儲
First Draft 描述的計算機結(jié)構(gòu):
- Processing Unit 處理器單元
- ALC(Arithmetic Logic Unit) 算數(shù)邏輯單元
- Processor Register 處理器寄存器
- Control Unit 控制器單元
- Instruction Register 指令寄存器
- Program Counter 程序計數(shù)器
- 內(nèi)存
- 外部存儲
- 輸入輸出設(shè)備 網(wǎng)卡既是輸入設(shè)備又是輸出設(shè)備
任何一臺計算機的任何一個部件都可以歸到運算器、控制器歉井、存儲器柿祈、輸入設(shè)備和輸出設(shè)備中,而所有的現(xiàn)代計算機也都是基于這個基礎(chǔ)架構(gòu)來設(shè)計開發(fā)的哩至。
所有的計算機程序躏嚎,也都可以抽象為從輸入設(shè)備讀取輸入信息,通過運算器和控制器來執(zhí)行存儲在存儲器里的程序菩貌,最終把結(jié)果輸出到輸出設(shè)備中卢佣。而我們所有撰寫的無論高級還是低級語言的程序,也都是基于這樣一個抽象框架來進行運作的
馮·諾依曼體系結(jié)構(gòu)確立了計算機硬件的基礎(chǔ)架構(gòu)箭阶。
ch03 性能是什么
- Response time
- Throughput/Bandwidth
Linux 下有一個叫 time 的命令虚茶,它會返回三個值,第一個是 real time仇参,也就是我們說的 Wall Clock Time嘹叫,也就是運行程序整個過程中流逝掉的時間;第二個是 user time诈乒,也就是 CPU 在運行你的程序罩扇,在用戶態(tài)運行指令的時間;第三個是 sys time怕磨,是 CPU 在運行你的程序喂饥,在操作系統(tǒng)內(nèi)核里運行指令的時間。而程序?qū)嶋H花費的 CPU 執(zhí)行時間(CPU Time)肠鲫,就是 user time 加上 sys time员帮。程序?qū)嶋H占用的 CPU 時間一般比 Elapsed Time 要少不少。
即使我們已經(jīng)拿到了 CPU 時間滩届,我們也不一定可以直接“比較”出兩個程序的性能差異集侯。即使在同一臺計算機上被啼,CPU 可能滿載運行也可能降頻運行,降頻運行的時候自然花的時間會多一些棠枉。除了 CPU 之外浓体,時間這個性能指標(biāo)還會受到主板、內(nèi)存這些其他相關(guān)硬件的影響辈讶。
程序的 CPU 執(zhí)行時間 = 指令數(shù)×CPI×Clock Cycle Time
想要解決性能問題命浴,其實就是要優(yōu)化這三者。
- 時鐘周期時間贱除,就是計算機主頻生闲,這個取決于計算機硬件。我們所熟知的摩爾定律就一直在不停地提高我們計算機的主頻月幌。比如說碍讯,我最早使用的 80386 主頻只有 33MHz,現(xiàn)在手頭的筆記本電腦就有 2.8GHz扯躺,在主頻層面捉兴,就提升了將近 100 倍。
- 每條指令的平均時鐘周期數(shù) CPI录语,就是一條指令到底需要多少 CPU Cycle倍啥。在后面講解 CPU 結(jié)構(gòu)的時候,我們會看到澎埠,現(xiàn)代的 CPU 通過流水線技術(shù)(Pipeline)虽缕,讓一條指令需要的 CPU Cycle 盡可能地少。因此蒲稳,對于 CPI 的優(yōu)化氮趋,也是計算機組成和體系結(jié)構(gòu)中的重要一環(huán)。
- 指令數(shù)弟塞,代表執(zhí)行我們的程序到底需要多少條指令凭峡、用哪些指令。這個很多時候就把挑戰(zhàn)交給了編譯器决记。同樣的代碼摧冀,編譯成計算機指令時候,就有各種不同的表示方式
ch04 功耗
想要計算得快系宫,一方面索昂,我們要在 CPU 里,同樣的面積里面扩借,多放一些晶體管椒惨,也就是增加密度;另一方面潮罪,我們要讓晶體管“打開”和“關(guān)閉”得更快一點康谆,也就是提升主頻领斥。而這兩者,都會增加功耗沃暗,帶來耗電和散熱的問題月洛。
一個 CPU 的功率,可以用這樣一個公式來表示:功耗 ~= 1/2 ×負(fù)載電容×電壓的平方×開關(guān)頻率×晶體管數(shù)量
從奔騰 4 開始孽锥,Intel 意識到通過提升主頻比較“難”去實現(xiàn)性能提升嚼黔,邊開始推出 Core Duo 這樣的多核 CPU,通過提升“吞吐率”而不是“響應(yīng)時間”惜辑,來達(dá)到目的唬涧。
阿姆達(dá)爾定律:優(yōu)化后的執(zhí)行時間 = 受優(yōu)化影響的執(zhí)行時間 / 加速倍數(shù) + 不受影響的執(zhí)行時間
在“摩爾定律”和“并行計算”之外,在整個計算機組成層面盛撑,還有這樣幾個原則性的性能提升方法碎节。
- 加速大概率事件。最典型的就是撵彻,過去幾年流行的深度學(xué)習(xí)钓株,整個計算過程中,99% 都是向量和矩陣計算陌僵,于是,工程師們通過用 GPU 替代 CPU创坞,大幅度提升了深度學(xué)習(xí)的模型訓(xùn)練過程碗短。本來一個 CPU 需要跑幾小時甚至幾天的程序,GPU 只需要幾分鐘就好了题涨。Google 更是不滿足于 GPU 的性能偎谁,進一步地推出了 TPU。
- 通過流水線提高性能「俣拢現(xiàn)代的工廠里的生產(chǎn)線叫“流水線”巡雨。我們可以把裝配 iPhone 這樣的任務(wù)拆分成一個個細(xì)分的任務(wù),讓每個人都只需要處理一道工序席函,最大化整個工廠的生產(chǎn)效率铐望。類似的,我們的 CPU 其實就是一個“運算工廠”茂附。我們把 CPU 指令執(zhí)行的過程進行拆分正蛙,細(xì)化運行,也是現(xiàn)代 CPU 在主頻沒有辦法提升那么多的情況下营曼,性能仍然可以得到提升的重要原因之一乒验。
- 通過預(yù)測提高性能。通過預(yù)先猜測下一步該干什么蒂阱,而不是等上一步運行的結(jié)果锻全,提前進行運算狂塘,也是讓程序跑得更快一點的辦法。典型的例子就是在一個循環(huán)訪問數(shù)組的時候鳄厌,憑經(jīng)驗荞胡,你也會猜到下一步我們會訪問數(shù)組的下一項。后面要講的“分支和冒險”部翘、“局部性原理”這些 CPU 和存儲系統(tǒng)設(shè)計方法硝训,其實都是在利用我們對于未來的“預(yù)測”,提前進行相應(yīng)的操作新思,來提升我們的程序性能窖梁。
ch05 指令
計算機指令集 Instruction Set
// test.c
int main()
{
int a = 1;
int b = 2;
a = a + b;
}
gcc -g -c test.c
objdump -disassemble -source test.o
gcc -g 表示創(chuàng)建符號表,關(guān)閉優(yōu)化夹囚,保留源碼信息源譬,-c 表示生成中間文件深寥。
objdump 用于反匯編