OpenMP2.5
有底層API后童谒,就已經可以實現(xiàn)并行編程塞帐;然而拦赠,很多時候串行算法已經成型,如果繼續(xù)使用原有的底層API葵姥,還將面臨轉換和調試的問題荷鼠。OpenMP正是為了解決這樣的問題。
一榔幸、OpenMP的介紹
1.概覽
- 提供線程級別的并行模型
- 基于共享內存的模型
- 本身只是提供一種規(guī)范
具體的實現(xiàn)由各個系統(tǒng)和編譯器負責實現(xiàn)
2.本質
- 一套多線程的API
- 面向程序員的高層接口
- 提供一系列的編譯和預處理的指導語句
- 主要提供Fortran允乐、C、C++的多線程支持
- 以SMP的物理結構完成多線程的實現(xiàn)
3.實現(xiàn)層次
- 編譯時的指導語句
- 庫函數(shù)的支持
- 環(huán)境變量的支持
- OpenMP的標準可以實現(xiàn)在任何編譯器上
不同的編譯器支持程度不同
4.歷史
(略)
5.OpenMP的目標
標準化
- 在不同的語言和架構上都可以以相同的方式編寫多核程序
簡潔有效
- 編譯器的指導語句盡可能地少
易用性
- 允許程序逐步并行化
- 使對串行程序的修改盡可能地少
可移植性
- 多種語言
- 不同平臺
6.OpenMP編程模型
共享內存削咆、基于線程的并行模型
顯式并行
Fork-Join模型
- 程序啟動后是單線程
- 達到需要并行的部分(并行區(qū))時喳篇,產生多個線程同時運行
- 所有線程同時執(zhí)行完后互相等待,一起結束
基于編譯器指導語句
支持嵌套并行
動態(tài)線程的創(chuàng)建與銷毀
線程的數(shù)量可以由OpenMP自適應
I/O
- OpenMP并沒有指定I/O的接口态辛,仍然按原有的方式進行讀寫
- 因此并行區(qū)中的讀寫會面臨沖突的問題麸澜,需要程序員自己解決
內存模型
7.OpenMP的層次
- SMP的硬件結構
- 系統(tǒng)的線程支持與OpenMP的運行時庫
- 編譯器指導語句、庫函數(shù)和環(huán)境變量
- 應用程序和最終用戶
8.示例代碼
#include <omp.h>
void main()
{
#pragma omp parallel //編譯指導語句奏黑,將大括號括起的范圍內做成一個并行區(qū)
{
int ID=omp_get_thread_num();
printf("hello(%d)",ID);
printf("world(%d)\n",ID);
}
}
編譯時炊邦,需要增加參數(shù)-fopenmp
(gcc)、-mp
(pgi)熟史、/Qopenmp
(Intel)馁害、/openmp
(Visual Studio,或直接在項目屬性中添加OpenMP支持)
更一般的形式
#include <omp.h>
int main()
{
int v1,v2,v3;
//Serial code
#pragma omp parallel private(v1,v2) shared(v3)
{
//
//Join
}
//Back to serial code
}
- 大括號必須緊跟編譯指導語句書寫
- 語法格式是固定的
二蹂匹、創(chuàng)建線程
1.Fork-Join結構
- 主線程按那些創(chuàng)建一組線程執(zhí)行并行任務
- 并行區(qū)完全可以嵌套
- 并行區(qū)中碘菜,主線程擔任一個線程的工作
- 子并行區(qū)中,仍有相應概念上的主線程
2.指定線程的個數(shù)
雖然線程個數(shù)可以由OpenMP自動指定,但是也可以手動設置
omp_set_num_threads(4);
這使得此函數(shù)之后的每個并行區(qū)都是4個線程同時運行
也可以使用指導語句忍啸,這樣只對一個并行區(qū)生效
`#pragma omp parallel num_threads(4)`
三仰坦、同步方式
1.臨界區(qū)
多線程同時只能由一個進入臨界區(qū)執(zhí)行
float res;
#pragma omp parallel
{
float B;
int i,id,nthrds;
id=omp_get_thread_num(); //當前線程的ID
nthrds=omp_get_num_threads(); //當前的線程個數(shù)
for(i=id,i<niters;i+=thrds) //巧妙的for循環(huán),盡可能將循環(huán)任務平均地分配到各線程中去
{
B=big_job(i);
#pragma omp critical
consume(B,res);
}
}
2.原子操作
原子操作不會被多線程打斷
然而原子操作和臨界區(qū)的功能是一樣的计雌,因為有復合語句的存在悄晃,原子操作的功能實際上還要弱一些
原子操作中不能使用復合語句,也不能進行函數(shù)調用
#pragma omp parallel
{
double tmp,B;
B=DOIT();
tmp=big_ugly(B);
#pragma omp atomic
X+=tmp;
}
- 提供原子操作的意義在于效率
使用原子操作的效率凿滤,比使用臨界區(qū)要高很多妈橄,因為可以調用一些系統(tǒng)底層的特殊功能來實現(xiàn)原子操作
3.路障同步
4.同步次序
5.flush
6.鎖
四、并行循環(huán)
1.SPMD與worksharing
- 工作共享創(chuàng)建了一個Single Program Multiple Data的程序結構
- 使得多個線程以看起來一樣的代碼完成不同的工作
2.分配循環(huán)用的worksharing
#pragma omp for
for(i=0;i<N;i++)
{
something();
}
- i將自動地成為每個線程的私有變量
- 默認得到{0,1,2,3},{4,5,6,7},...這樣的循環(huán)劃分方法
可以調整翁脆,但無法任意劃分
3.worksharing的結構特點
- worksharing結構不會創(chuàng)建線程
僅僅對執(zhí)行做分配 - worksharing結構在入口沒有路障同步眷蚓,但出口處有
而且都是隱式的
4.worksharing結構的限制
- 必須放在并行區(qū)內
- 待分配的任務無法執(zhí)行一部分,要么整個分配反番,要么不分配
- 分配時有固定的次序溪椎,不支持自定義的次序
也不會隨機分配
5.worksharing結構的類型
- section可以進行手動分配
- single可以分配給單個線程
6.parallel與worksharing的組合
double res[MAX];
int i;
#pragma omp parallel for
for(i=0;i<MAX;i++)
res[i]=huge();
7.規(guī)約
- OpenMP提供的特殊、常見數(shù)據(jù)類型的支持
編譯指導語句的基本格式
`#pragma omp directive-name [clause,...] newline`
規(guī)約指導語句
`reduction(op:list)`
歸約操作的操作符和初始值
- 由OpenMP規(guī)定
- 無法自行定義
五恬口、同步
1.Barrier
#pragma omp barrier //手動的路障同步
#pragma omp for nowait //指明取消末尾的隱式路障同步
- 直到所有線程執(zhí)行到此位置才繼續(xù)執(zhí)行
- 離開臨界區(qū)時有隱式的路障同步
2.Master結構
- 標記一個代碼塊只被一個線程執(zhí)行
- 其它線程簡單跳過
- 默認沒有路障同步校读,需要顯式指定
3.Single結構
- 此結構中的內容只有一個線程執(zhí)行
- 可能由任何一個線程執(zhí)行,未必是master線程
- 出口處有隱式的路障同步
4.ordered
- 只加在for循環(huán)后
- 表明for循環(huán)存在次序依賴
標記出的語句將按照for循環(huán)的串行迭代序被執(zhí)行 - 對性能將產生很大的影響
5.鎖
簡單鎖
可以認為是簡單的布爾變量
omp_*_lock
- init
- set
- unset
- test
- destroy
嵌套鎖
與簡單鎖不同祖能,可以被同一個進程反復地加鎖歉秫,解鎖時也要進行相應數(shù)量的解鎖
omp_*_nest_lock
- init
- set
- unset
- test
- destroy
簡單鎖的例子
#include <omp.h>
omp_lock_t lock;
omp_init_lock(&lck);
#pragma omp parallel private(tmp,id)
{
id=omp_get_thread_num();
tmp=do_lots_of_work(id);
omp_set_lock(&lock);
omp_unset_lock(&lock);
}
omp_destroy_lock(&lock);
六、OpenMP的庫函數(shù)
1.修改养铸、設置線程數(shù)量
omp_set_num_threads(int)
-
omp_get_num_threads()
獲取此韓式調用時的線程數(shù)量 -
omp_get_thread_num()
獲取當前線程的線程號 -
omp_get_max_threads()
獲取下一個開辟的并行區(qū)每個線程要開啟的線程數(shù)
2.是否在并行區(qū)域內
omp_in_parallel()
3.是否允許系統(tǒng)動態(tài)調整線程數(shù)量
omp_set_dynamic(int)
omp_get_dynamic()
4.系統(tǒng)處理器數(shù)量
omp_num_procs()
5.環(huán)境變量
環(huán)境變量的優(yōu)先級比庫函數(shù)要低一些
- OMP_NUM_THREADS
- OMP_SCHEDULE
設置for循環(huán)是橫切或豎切
七雁芙、數(shù)據(jù)環(huán)境
1.默認存儲屬性
- 共享內存的編程模型
- 全局變量在線程間共享
- 靜態(tài)變量是共享的
- 堆內存是共享的
動態(tài)分配的內存
默認情況下的私有變量
- 并行區(qū)內定義的變量
2.private子句
- 為變量創(chuàng)建每個線程一份的副本
- 未經初始化的變量,在OpenMP中的初始值未被定義
主流平臺上钞螟,private變量的修改對外圍沒有改變 - 外部變量作為私有變量兔甘,對定義為私有變量的變量的修改,修改誰并沒有明確的定義
實際平臺上的主流編譯器都修改全局變量
3.firstprivate與lastprivate子句
- 和private子句幾乎相同
- firstprivate
私有變量的初值定義為全局變量原先的值 - lastprivate
出并行區(qū)時鳞滨,全局變量的值將被改變
通常執(zhí)行的最后一條更新的值反映到全局變量中
4.default子句
default(PRIVATE|SHARED|NONE)
-
default(SHARED)
是默認存在的洞焙,因此不需寫出來
#pragma omp task
除外 - 在C中,
default(PRIVATE)
不被支持 -
default(NONE)
將不為變量設定默認值
此時必須為每個變量顯式指定屬性
良好的自虐的編程實踐~
通常只在需要編譯器提醒哪個變量沒有指定屬性時才使用
5.threadprivate子句
int counter=0;
#pragma omp threadprivate(counter)
- 定義為
threadprivate
的變量是可以穿越多個并行區(qū)的
變量的值以線程號一一對應
copyin子句
int a=100;
#pragma omp threadprivate copyin(a)
- 可以將全局變量的值拷貝進對應的私有變量
copyprivate子句
- 只能在single中使用
- 在路障同步點處由執(zhí)行single的線程拷貝到所有其它線程
指針的傳遞
- 在線程之間拯啦,指針不要隨便亂傳
#pragma omp parallel private(x) shared(p0,p1)
x=...;
p0=&x;
在另一個線程中使用p0指針會造成不可預料的后果
八澡匪、Schedule子句
1.section子句
#pragma omp parallel
{
#pragma omp sections
{
#pragma omp section
calculation1();
#pragma omp section
calculation2();
#pragma omp section
calculation3();
}
}
- 這些任務由系統(tǒng)自由分配給不同線程運行
- 任務數(shù)與線程數(shù)相等時,分配顯然
- 任務數(shù)多于線程數(shù)時
先用任務把線程占滿褒链,哪個線程執(zhí)行完在分配剩下的任務 - 任務數(shù)少于線程數(shù)時
其它線程等待
2.schedule子句
`schedule(mode[,chunk])`
實際上大多數(shù)編譯器除了static唁情,另外三種都沒實現(xiàn)
靜態(tài)調度
- 所有分配方式在編碼時寫死
- 默認的分配方式
- chunk默認為最大值(迭代數(shù)/線程數(shù))
chunk是循環(huán)任務分塊的大小
如果需要循環(huán)縱切,chunk設置為1即可 - 靜態(tài)調度的分配方式是非常明確的甫匹,第一個chunk給線程0甸鸟,以此類推
動態(tài)調度
- 每個chunk可以動態(tài)分配給某個線程了
guided調度
- chunk定義的是塊的最小值
- 實際上可以更大
runtime調度
- 全部參數(shù)交由編譯器決定
九惦费、內存模型
1.弱一致性
- 在代碼中,讀寫順序在不改變語義的情況下是可以改變的
- 以S表示數(shù)據(jù)同步操作
OpenMP中保證抢韭,S->W薪贫、S->R、R->S篮绰、W->S、S->S
在OpenMP中就是flush操作
2.flush
a=...;
<other computaion>
#pragma omp flush(a)
- 變量值在內存中的改變最早發(fā)生在寫操作季惯,最晚在數(shù)據(jù)同步操作時進行
隱式數(shù)據(jù)同步
其它所有同步都會自動帶上數(shù)據(jù)同步
十吠各、OpenMP 3.0與任務
1.任務
- 其它結構的工作量都是靜態(tài)的,但task的任務是可以動態(tài)分的
2.例子
for(int i=0;i<N;i+=a[i])
task(a[i]);
- 此循環(huán)不能使用
#pragma omp for
- 想要并行就必須使用task
3.task的結構
`#pragma omp task [clause[[,],clause]...]`
- 子句可以加入
if
勉抓、untitled
與所有數(shù)據(jù)環(huán)境
并行的鏈表舉例
#pragma omp parallel
{
#pragma omp single private(p) //由一個線程進行預處理贾漏,其它線程什么都不做
{
p=listhead;
while(p)
{
#pragma omp task
process(p); //將鏈表內多個結點的處理并行進行,
//占用并行區(qū)內原本閑置的線程
p=next(p);
}
}
}
4.untied子句
- 創(chuàng)建的任務藕筋,默認將會與某個線程綁定纵散,只能由某個線程來完成
-
untied
可以用來解除這樣的綁定
舉例
#pragma omp single
{
#pragma omp task untied
for(i=0;i<ONEZILLION;i++)
#pragma omp task
process(item[i]);
}
- 如果不作為united的任務,源源不斷的新任務將撐爆內存
- untied允許任務的創(chuàng)建在其它線程間遷移
5.if子句
- 如果表達式為
false
隐圾,整個編譯指導語句無效 - 默認為
if(true)