一卦停、馮羅伊曼計算機架構
在該結構中,處理器從存儲器中去除指令、解碼,然后執(zhí)行該命令.
對于下面的C程序
void test{
int array[100];
int i = 0;
for (i=0; i< 100; i++){
array[i] = i * 10;
}
}
處理器的實現流程:
- 數組array的地址倍裝入某個內存訪問寄存器;參數i被放入到另一個寄器.
- 循環(huán)推出條件為100, 這個退出條件既可以裝入一個寄存器,也可以編碼的方式,成為指令六的一個字面值
-
計算機重復執(zhí)行這幾條指令,循環(huán)100次.
上述過程中,我們需要取來并執(zhí)行“控制指令”恼蓬、“訪存指令”, “計算指令”.
現代CPU會使用更復雜的緩存結構來處理加速這個過程.
一級緩存大小16K或32K,工作速度也通常能達到或接近CPU的時鐘速度,二級緩存通常約為256K,三級緩存大得多,通常幾兆字節(jié)大小.
(計算機中惊完,時鐘速度(clock speed)指的是振蕩器設置的處理器節(jié)拍,也就是由振蕩器產生的每秒脈沖次數)
二处硬、現代計算機
1小槐、克雷
Cray2系統(tǒng)中,多CPU共享同一個內存空間,是一臺基于響亮的計算機.在向量機中,一個操作同時處理多個操作數.諸如MMX荷辕、SSE和AVX這樣的處理器擴展部分以及GPU設備,它們的核心都是向量處理器.
2、連接機(Connection Machine, CM)
例子:
我們處理一個RGB圖像的顏色.問題是將藍色值將為0.
假設內存不是交替地存儲各個像素點的顏色值,而是被分成紅控嗜、綠骡显、藍三條.在傳統(tǒng)處理器中,會用一個循環(huán)來將藍色內存條中每個像素值減1.這個操作對每個數據項都是相同的,即每次循環(huán)迭代,我們都要對指令流進行取址、譯碼壁顶、執(zhí)行三個操作.
連接機采用的是單指令多數據(single Instruction, Multiple Data,SIMD)型并行處理.這種技術典型的有三種,如單指令多數據流擴展指令(Streaming SIMD Extension, SSE)溜歪、多媒體擴展(Multi-Media eXtension, MMX)以及高級矢量擴展(Advanced Vector eXtensions, AVX),被廣泛應用于現代處理器中.
先定義好一個數據范圍,然后讓處理器在這個數據范圍內進行某種操作.盡管SSE和MMX是基于一個處理器核的,但連接機卻擁有64K個處理器核,每個核都在器數據集上執(zhí)行SIMD指令.
3、Cell處理器
主要思想使用一個常規(guī)處理器作為監(jiān)管處理器,該處理器與大量的高速流處理器相連.在Cell處理器中,常規(guī)的PowerPC(PPC)處理器擔任與流處理器和外部世界的接口.而SIMD流處理器,IBM成為SPE,則為常規(guī)處理器的管理下,處理數據集.
系統(tǒng)運行的最快速度等于最慢節(jié)點的運行速度.
4调衰、多點計算
計算領域中,經常能遇見“收益遞減規(guī)律”(The law of disminishing returns).即便在單一方面投入再多,結果也沒有太大改變.解決辦法是在各個影響因素健選擇一個平衡點,多次復制它.
這樣就涉及到一個集群技術,如下圖.
現代GPU的體系結構也完全相同.一個GPU內有許多流處理簇(Steaming Multiprocessor, SM),他們類似CPU的核.這些SM與共享存儲(一級存儲)連接在一起,然后由于相當于SM間互聯開關的耳機緩存相連.數據先是存儲在全局存儲中,然后倍主機去除并使用.出留一部分自己處理外,主機將剩余的數據通過PCI-E互聯開關直接送完另一個GPU的存儲空間.PCI-E互聯開關的傳輸速度比任何一個互聯網絡快許多倍.
(PCI Express是新一代的總線接口.早在2001年的春季窖式,英特爾公司就提出了要用新一代的技術取代PCI總線和多種芯片的內部連接萝喘,并稱之為第三代I/O總線技術.)
5阁簸、單核解決方案的消亡
現代處理器的問題之一是它們已經達到了4G Hz左右的時鐘速度極限.目前而言,處理器在這個極限點上工作會產生太多的熱量,從而需要特殊的哼丈、昂貴的冷卻措施.產生熱量的原因是隨著時鐘頻率的提升,功耗增大.事實上,在電壓不變的情況下,一個CPU的電力功耗大約是時鐘頻率的三次方.這種不斷增加的無效的電能消耗,意味著你要么不能充分為處理器提供電力,要么不能夠有效冷卻處理器,已經達到電子設備或者芯片的散熱極限,即所謂的功耗墻(power wall).
三、英偉達和CUDA
1饶米、CUDA
英偉達的GPU,再從G200架構到費米型架構,浮點計算性能實現了每秒3千億次(300 gigaflops)的飛躍.相比之下,英特爾公司從Core2架構升級到Nehalem架構僅有小幅的改進.傳統(tǒng)CPU的目標實質性穿行代碼.他們包含一些特殊硬件,例如,分支預測單元檬输、多級緩存等,所有這些都是針對穿行代碼的執(zhí)行.但GPU只有完全按照并行模式運行時才能發(fā)揮它的峰值性能.
CUDA是C語言的一種擴展,它允許使用標準C來進行GPU代碼變成.這個代碼即適用于主機處理器(CPU),也適用于設備處理器(GPU).主機處理器負責派生出執(zhí)行在GPU設備處理器上的多線程任務(CUDA稱器為內核程序).GPU舍友內部調度器來把這些內核程序分配到相應的GPU硬件上.假設這些任務有足夠的并行度,隨著GPU中流處理器簇數量的增加,程序運算速度就會提升.
因此,使用GPU有一個初始條件,我們必須從一開始就考慮是否能夠把大量的工作并行化.
隨著CUDA一起引入的,還有Tesla系列板卡,這些并不是圖形卡,而是專用于科學計算的計算卡.
2丧慈、CUDA的替代選擇
OpenCL是一個開放的主卫、免版稅的標準,有英偉達、AMD和其他廠商所支持.OpenCL的商標持有者是蘋果公司,它制定出一個允許使用多種計算設備的開放標準.
DirectCompute是微軟開發(fā)的可替代CUDA和OpenCL的產品.它是集成在Windows操作系統(tǒng),特別是DirectX 11 API上的專用產品.
3完域、CPU的替代選擇
主要的并行程序設計擴展語言有MPI和OpenMP,在Linux下開發(fā)時,還有Pthreads.
Windows操作系統(tǒng)下有Windows線程模型和OpenMP.
MPI(Message Passing Interface)可能是目前使用最廣泛的消息傳遞接口.
OpenMP(Open Multi-Processing)是專門面向單個節(jié)點或單個計算機系統(tǒng)而設計的并行計算平臺.在使用OpenMP時,程序員需要利用編譯器指令精確寫出并行運算指令.然后編譯器更具可用的處理器核數,自動將問題氛圍N部分.
pthreads是一個主要應用于Linux的多線程應用程序庫.
另外還有ZeroMQ(0MQ), Hadoop
4瘩将、編譯指令和庫
很多編譯器廠商,如PGI、CAPS以及著名的Cray,都支持最近發(fā)布的針對GPU的OpenACC編譯器指令集.在本質上,這些都是OpenMP的復制.他們都需要程序員在程序中插入編譯器指令標注出“應該在GPU上執(zhí)行”的代碼區(qū)域.然后編譯器就做些簡單的工作,即從GPU上移入或移出數據乌妙、調用內核程序等.