計算機架構基本知識(預備篇)

一卦停、馮羅伊曼計算機架構

馮諾伊曼計算機架構.jpg

在該結構中,處理器從存儲器中去除指令、解碼,然后執(zhí)行該命令.
對于下面的C程序

void test{
  int array[100];
  int i = 0;
  for (i=0; i< 100; i++){
    array[i] = i * 10;
    }
}

處理器的實現流程:

  • 數組array的地址倍裝入某個內存訪問寄存器;參數i被放入到另一個寄器.
  • 循環(huán)推出條件為100, 這個退出條件既可以裝入一個寄存器,也可以編碼的方式,成為指令六的一個字面值
  • 計算機重復執(zhí)行這幾條指令,循環(huán)100次.
    上述過程中,我們需要取來并執(zhí)行“控制指令”恼蓬、“訪存指令”, “計算指令”.


    現代CPU緩存組成結構.png

    現代CPU會使用更復雜的緩存結構來處理加速這個過程.
    一級緩存大小16K或32K,工作速度也通常能達到或接近CPU的時鐘速度,二級緩存通常約為256K,三級緩存大得多,通常幾兆字節(jié)大小.
    (計算機中惊完,時鐘速度(clock speed)指的是振蕩器設置的處理器節(jié)拍,也就是由振蕩器產生的每秒脈沖次數)

二处硬、現代計算機

1小槐、克雷

Cray2系統(tǒng)中,多CPU共享同一個內存空間,是一臺基于響亮的計算機.在向量機中,一個操作同時處理多個操作數.諸如MMX荷辕、SSE和AVX這樣的處理器擴展部分以及GPU設備,它們的核心都是向量處理器.

2、連接機(Connection Machine, CM)

例子:
我們處理一個RGB圖像的顏色.問題是將藍色值將為0.
假設內存不是交替地存儲各個像素點的顏色值,而是被分成紅控嗜、綠骡显、藍三條.在傳統(tǒng)處理器中,會用一個循環(huán)來將藍色內存條中每個像素值減1.這個操作對每個數據項都是相同的,即每次循環(huán)迭代,我們都要對指令流進行取址、譯碼壁顶、執(zhí)行三個操作.
連接機采用的是單指令多數據(single Instruction, Multiple Data,SIMD)型并行處理.這種技術典型的有三種,如單指令多數據流擴展指令(Streaming SIMD Extension, SSE)溜歪、多媒體擴展(Multi-Media eXtension, MMX)以及高級矢量擴展(Advanced Vector eXtensions, AVX),被廣泛應用于現代處理器中.
先定義好一個數據范圍,然后讓處理器在這個數據范圍內進行某種操作.盡管SSE和MMX是基于一個處理器核的,但連接機卻擁有64K個處理器核,每個核都在器數據集上執(zhí)行SIMD指令.

3、Cell處理器

IBM Cell處理器芯片布局.png

主要思想使用一個常規(guī)處理器作為監(jiān)管處理器,該處理器與大量的高速流處理器相連.在Cell處理器中,常規(guī)的PowerPC(PPC)處理器擔任與流處理器和外部世界的接口.而SIMD流處理器,IBM成為SPE,則為常規(guī)處理器的管理下,處理數據集.


Cell處理器的流水線.png

系統(tǒng)運行的最快速度等于最慢節(jié)點的運行速度.

4调衰、多點計算

計算領域中,經常能遇見“收益遞減規(guī)律”(The law of disminishing returns).即便在單一方面投入再多,結果也沒有太大改變.解決辦法是在各個影響因素健選擇一個平衡點,多次復制它.
這樣就涉及到一個集群技術,如下圖.

典型的集群層次結構.png

現代GPU的體系結構也完全相同.一個GPU內有許多流處理簇(Steaming Multiprocessor, SM),他們類似CPU的核.這些SM與共享存儲(一級存儲)連接在一起,然后由于相當于SM間互聯開關的耳機緩存相連.數據先是存儲在全局存儲中,然后倍主機去除并使用.出留一部分自己處理外,主機將剩余的數據通過PCI-E互聯開關直接送完另一個GPU的存儲空間.PCI-E互聯開關的傳輸速度比任何一個互聯網絡快許多倍.
(PCI Express是新一代的總線接口.早在2001年的春季窖式,英特爾公司就提出了要用新一代的技術取代PCI總線和多種芯片的內部連接萝喘,并稱之為第三代I/O總線技術.)
類似集群的GPU簇.png

5阁簸、單核解決方案的消亡

現代處理器的問題之一是它們已經達到了4G Hz左右的時鐘速度極限.目前而言,處理器在這個極限點上工作會產生太多的熱量,從而需要特殊的哼丈、昂貴的冷卻措施.產生熱量的原因是隨著時鐘頻率的提升,功耗增大.事實上,在電壓不變的情況下,一個CPU的電力功耗大約是時鐘頻率的三次方.這種不斷增加的無效的電能消耗,意味著你要么不能充分為處理器提供電力,要么不能夠有效冷卻處理器,已經達到電子設備或者芯片的散熱極限,即所謂的功耗墻(power wall).

三、英偉達和CUDA

1饶米、CUDA

英偉達的GPU,再從G200架構到費米型架構,浮點計算性能實現了每秒3千億次(300 gigaflops)的飛躍.相比之下,英特爾公司從Core2架構升級到Nehalem架構僅有小幅的改進.傳統(tǒng)CPU的目標實質性穿行代碼.他們包含一些特殊硬件,例如,分支預測單元檬输、多級緩存等,所有這些都是針對穿行代碼的執(zhí)行.但GPU只有完全按照并行模式運行時才能發(fā)揮它的峰值性能.


CPU和GPU峰值性能.png

CUDA是C語言的一種擴展,它允許使用標準C來進行GPU代碼變成.這個代碼即適用于主機處理器(CPU),也適用于設備處理器(GPU).主機處理器負責派生出執(zhí)行在GPU設備處理器上的多線程任務(CUDA稱器為內核程序).GPU舍友內部調度器來把這些內核程序分配到相應的GPU硬件上.假設這些任務有足夠的并行度,隨著GPU中流處理器簇數量的增加,程序運算速度就會提升.
因此,使用GPU有一個初始條件,我們必須從一開始就考慮是否能夠把大量的工作并行化.
隨著CUDA一起引入的,還有Tesla系列板卡,這些并不是圖形卡,而是專用于科學計算的計算卡.

2丧慈、CUDA的替代選擇

OpenCL是一個開放的主卫、免版稅的標準,有英偉達、AMD和其他廠商所支持.OpenCL的商標持有者是蘋果公司,它制定出一個允許使用多種計算設備的開放標準.
DirectCompute是微軟開發(fā)的可替代CUDA和OpenCL的產品.它是集成在Windows操作系統(tǒng),特別是DirectX 11 API上的專用產品.

3完域、CPU的替代選擇

主要的并行程序設計擴展語言有MPI和OpenMP,在Linux下開發(fā)時,還有Pthreads.
Windows操作系統(tǒng)下有Windows線程模型和OpenMP.
MPI(Message Passing Interface)可能是目前使用最廣泛的消息傳遞接口.
OpenMP(Open Multi-Processing)是專門面向單個節(jié)點或單個計算機系統(tǒng)而設計的并行計算平臺.在使用OpenMP時,程序員需要利用編譯器指令精確寫出并行運算指令.然后編譯器更具可用的處理器核數,自動將問題氛圍N部分.
pthreads是一個主要應用于Linux的多線程應用程序庫.
另外還有ZeroMQ(0MQ), Hadoop

4瘩将、編譯指令和庫

很多編譯器廠商,如PGI、CAPS以及著名的Cray,都支持最近發(fā)布的針對GPU的OpenACC編譯器指令集.在本質上,這些都是OpenMP的復制.他們都需要程序員在程序中插入編譯器指令標注出“應該在GPU上執(zhí)行”的代碼區(qū)域.然后編譯器就做些簡單的工作,即從GPU上移入或移出數據乌妙、調用內核程序等.

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末藤韵,一起剝皮案震驚了整個濱河市熊经,隨后出現的幾起案子欲险,更是在濱河造成了極大的恐慌匹涮,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件喜每,死亡現場離奇詭異带兜,居然都是意外死亡,警方通過查閱死者的電腦和手機刚照,發(fā)現死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門无畔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來吠冤,“玉大人,你說我怎么就攤上這事闸昨”》纾” “怎么了?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵循诉,是天一觀的道長。 經常有香客問我茄猫,道長困肩,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任勇劣,我火速辦了婚禮比默,結果婚禮上,老公的妹妹穿的比我還像新娘命咐。我一直安慰自己,他們只是感情好榛臼,可當我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布讽坏。 她就那樣靜靜地躺著例证,像睡著了一般迷捧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上漠秋,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天庆锦,我揣著相機與錄音,去河邊找鬼艇搀。 笑死,一個胖子當著我的面吹牛焰雕,可吹牛的內容都是我干的芳杏。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼吝秕,長吁一口氣:“原來是場噩夢啊……” “哼空幻!你這毒婦竟也來了?” 一聲冷哼從身側響起则剃,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎棍现,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體士袄,經...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡娄柳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年艘绍,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挎挖。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡蕉朵,死狀恐怖,靈堂內的尸體忽然破棺而出始衅,到底是詐尸還是另有隱情缭保,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布蛉拙,位于F島的核電站彻亲,受9級特大地震影響,放射性物質發(fā)生泄漏苞尝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一轴脐、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧大咱,春花似錦、人聲如沸碴巾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽煮仇。三九已至,卻和暖如春刨仑,著一層夾襖步出監(jiān)牢的瞬間绞呈,已是汗流浹背间景。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留圾亏,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓志鹃,卻偏偏與公主長得像曹铃,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子陕见,可洞房花燭夜當晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內容