淺談Opem_MP

OpenMP2.5

有底層API后童谒，就已經可以實現(xiàn)并行編程塞帐；然而拦赠，很多時候串行算法已經成型，如果繼續(xù)使用原有的底層API葵姥，還將面臨轉換和調試的問題荷鼠。OpenMP正是為了解決這樣的問題。

一榔幸、OpenMP的介紹

1.概覽

提供線程級別的并行模型
基于共享內存的模型
本身只是提供一種規(guī)范
具體的實現(xiàn)由各個系統(tǒng)和編譯器負責實現(xiàn)

2.本質

一套多線程的API
面向程序員的高層接口
提供一系列的編譯和預處理的指導語句
主要提供Fortran允乐、C、C++的多線程支持
以SMP的物理結構完成多線程的實現(xiàn)

3.實現(xiàn)層次

編譯時的指導語句
庫函數(shù)的支持
環(huán)境變量的支持
OpenMP的標準可以實現(xiàn)在任何編譯器上
不同的編譯器支持程度不同

4.歷史

（略）

5.OpenMP的目標

標準化

在不同的語言和架構上都可以以相同的方式編寫多核程序

簡潔有效

編譯器的指導語句盡可能地少

易用性

允許程序逐步并行化
使對串行程序的修改盡可能地少

可移植性

多種語言
不同平臺

6.OpenMP編程模型

共享內存削咆、基于線程的并行模型

顯式并行

Fork-Join模型

程序啟動后是單線程
達到需要并行的部分（并行區(qū)）時喳篇，產生多個線程同時運行
所有線程同時執(zhí)行完后互相等待，一起結束

基于編譯器指導語句

支持嵌套并行

動態(tài)線程的創(chuàng)建與銷毀

線程的數(shù)量可以由OpenMP自適應

I/O

OpenMP并沒有指定I/O的接口态辛，仍然按原有的方式進行讀寫
因此并行區(qū)中的讀寫會面臨沖突的問題麸澜，需要程序員自己解決

內存模型

7.OpenMP的層次

SMP的硬件結構
系統(tǒng)的線程支持與OpenMP的運行時庫
編譯器指導語句、庫函數(shù)和環(huán)境變量
應用程序和最終用戶

8.示例代碼

    #include <omp.h>
    
    void main()
    {
        #pragma omp parallel            //編譯指導語句奏黑，將大括號括起的范圍內做成一個并行區(qū)
        {
            int ID=omp_get_thread_num();
            printf("hello(%d)",ID);
            printf("world(%d)\n",ID);
        }
    }

編譯時炊邦，需要增加參數(shù)-fopenmp（gcc）、-mp（pgi）熟史、/Qopenmp（Intel）馁害、/openmp（Visual Studio，或直接在項目屬性中添加OpenMP支持）

更一般的形式

    #include <omp.h>
    int main()
    {
        int v1,v2,v3;
        //Serial code
        #pragma omp parallel private(v1,v2) shared(v3)
        {
            //
            //Join
        }
        //Back to serial code
    }

大括號必須緊跟編譯指導語句書寫
語法格式是固定的

二蹂匹、創(chuàng)建線程

1.Fork-Join結構

主線程按那些創(chuàng)建一組線程執(zhí)行并行任務
并行區(qū)完全可以嵌套
- 并行區(qū)中碘菜，主線程擔任一個線程的工作
- 子并行區(qū)中，仍有相應概念上的主線程

2.指定線程的個數(shù)

雖然線程個數(shù)可以由OpenMP自動指定，但是也可以手動設置

omp_set_num_threads(4);

這使得此函數(shù)之后的每個并行區(qū)都是4個線程同時運行

也可以使用指導語句忍啸，這樣只對一個并行區(qū)生效

`#pragma omp parallel num_threads(4)`

三仰坦、同步方式

1.臨界區(qū)

多線程同時只能由一個進入臨界區(qū)執(zhí)行

    float res;
    #pragma omp parallel
    {
        float B;
        int i,id,nthrds;
        id=omp_get_thread_num();        //當前線程的ID
        nthrds=omp_get_num_threads();   //當前的線程個數(shù)
        for(i=id,i<niters;i+=thrds)     //巧妙的for循環(huán)，盡可能將循環(huán)任務平均地分配到各線程中去
        {
            B=big_job(i);
            #pragma omp critical
                consume(B,res);
        }
    }

2.原子操作

原子操作不會被多線程打斷
然而原子操作和臨界區(qū)的功能是一樣的计雌，因為有復合語句的存在悄晃，原子操作的功能實際上還要弱一些
原子操作中不能使用復合語句，也不能進行函數(shù)調用

    #pragma omp parallel
    {
        double tmp,B;
        B=DOIT();
        tmp=big_ugly(B);
        #pragma omp atomic
            X+=tmp;
    }

提供原子操作的意義在于效率
使用原子操作的效率凿滤，比使用臨界區(qū)要高很多妈橄，因為可以調用一些系統(tǒng)底層的特殊功能來實現(xiàn)原子操作

3.路障同步

4.同步次序

5.flush

6.鎖

四、并行循環(huán)

1.SPMD與worksharing

工作共享創(chuàng)建了一個Single Program Multiple Data的程序結構
使得多個線程以看起來一樣的代碼完成不同的工作

2.分配循環(huán)用的worksharing

    #pragma omp for
        for(i=0;i<N;i++)
        {
            something();
        }

i將自動地成為每個線程的私有變量
默認得到{0,1,2,3},{4,5,6,7},...這樣的循環(huán)劃分方法
可以調整翁脆，但無法任意劃分

3.worksharing的結構特點

worksharing結構不會創(chuàng)建線程
僅僅對執(zhí)行做分配
worksharing結構在入口沒有路障同步眷蚓，但出口處有
而且都是隱式的

4.worksharing結構的限制

必須放在并行區(qū)內
待分配的任務無法執(zhí)行一部分，要么整個分配反番，要么不分配
分配時有固定的次序溪椎，不支持自定義的次序
也不會隨機分配

5.worksharing結構的類型

section可以進行手動分配
single可以分配給單個線程

6.parallel與worksharing的組合

    double res[MAX];
    int i;
    #pragma omp parallel for
        for(i=0;i<MAX;i++)
            res[i]=huge();

7.規(guī)約

OpenMP提供的特殊、常見數(shù)據(jù)類型的支持

編譯指導語句的基本格式

`#pragma omp directive-name [clause,...] newline`

規(guī)約指導語句

`reduction(op:list)`

歸約操作的操作符和初始值

由OpenMP規(guī)定
無法自行定義

五恬口、同步

1.Barrier

    #pragma omp barrier             //手動的路障同步
    #pragma omp for nowait          //指明取消末尾的隱式路障同步

直到所有線程執(zhí)行到此位置才繼續(xù)執(zhí)行
離開臨界區(qū)時有隱式的路障同步

2.Master結構

標記一個代碼塊只被一個線程執(zhí)行
其它線程簡單跳過
默認沒有路障同步校读，需要顯式指定

3.Single結構

此結構中的內容只有一個線程執(zhí)行
可能由任何一個線程執(zhí)行，未必是master線程
出口處有隱式的路障同步

4.ordered

只加在for循環(huán)后
表明for循環(huán)存在次序依賴
標記出的語句將按照for循環(huán)的串行迭代序被執(zhí)行
對性能將產生很大的影響

5.鎖

簡單鎖

可以認為是簡單的布爾變量
omp_*_lock

init
set
unset
test
destroy

嵌套鎖

與簡單鎖不同祖能，可以被同一個進程反復地加鎖歉秫，解鎖時也要進行相應數(shù)量的解鎖
omp_*_nest_lock

init
set
unset
test
destroy

簡單鎖的例子

    #include <omp.h>
    omp_lock_t lock;
    omp_init_lock(&lck);
    
    #pragma omp parallel private(tmp,id)
    {
        id=omp_get_thread_num();
        tmp=do_lots_of_work(id);
        omp_set_lock(&lock);
        omp_unset_lock(&lock);
    }
    omp_destroy_lock(&lock);

六、OpenMP的庫函數(shù)

1.修改养铸、設置線程數(shù)量

omp_set_num_threads(int)
omp_get_num_threads()
獲取此韓式調用時的線程數(shù)量
omp_get_thread_num()
獲取當前線程的線程號
omp_get_max_threads()
獲取下一個開辟的并行區(qū)每個線程要開啟的線程數(shù)

2.是否在并行區(qū)域內

omp_in_parallel()

3.是否允許系統(tǒng)動態(tài)調整線程數(shù)量

omp_set_dynamic(int)
omp_get_dynamic()

4.系統(tǒng)處理器數(shù)量

omp_num_procs()

5.環(huán)境變量

環(huán)境變量的優(yōu)先級比庫函數(shù)要低一些

OMP_NUM_THREADS
OMP_SCHEDULE
設置for循環(huán)是橫切或豎切

七雁芙、數(shù)據(jù)環(huán)境

1.默認存儲屬性

共享內存的編程模型
全局變量在線程間共享
靜態(tài)變量是共享的
堆內存是共享的
動態(tài)分配的內存

默認情況下的私有變量

并行區(qū)內定義的變量

2.private子句

為變量創(chuàng)建每個線程一份的副本
未經初始化的變量，在OpenMP中的初始值未被定義
主流平臺上钞螟，private變量的修改對外圍沒有改變
外部變量作為私有變量兔甘，對定義為私有變量的變量的修改，修改誰并沒有明確的定義
實際平臺上的主流編譯器都修改全局變量

3.firstprivate與lastprivate子句

和private子句幾乎相同
firstprivate
私有變量的初值定義為全局變量原先的值
lastprivate
出并行區(qū)時鳞滨，全局變量的值將被改變
通常執(zhí)行的最后一條更新的值反映到全局變量中

4.default子句

default(PRIVATE|SHARED|NONE)

default(SHARED)是默認存在的洞焙，因此不需寫出來
#pragma omp task除外
在C中，default(PRIVATE)不被支持
default(NONE)將不為變量設定默認值
此時必須為每個變量顯式指定屬性
良好的自虐的編程實踐~
通常只在需要編譯器提醒哪個變量沒有指定屬性時才使用

5.threadprivate子句

    int counter=0;
    #pragma omp threadprivate(counter)

定義為threadprivate的變量是可以穿越多個并行區(qū)的
變量的值以線程號一一對應

copyin子句

    int a=100;
    #pragma omp threadprivate copyin(a)

可以將全局變量的值拷貝進對應的私有變量

copyprivate子句

只能在single中使用
在路障同步點處由執(zhí)行single的線程拷貝到所有其它線程

指針的傳遞

在線程之間拯啦，指針不要隨便亂傳

        #pragma omp parallel private(x) shared(p0,p1)
        x=...;
        p0=&x;

在另一個線程中使用p0指針會造成不可預料的后果

八澡匪、Schedule子句

1.section子句

    #pragma omp parallel
    {
        #pragma omp sections
        {
            #pragma omp section
            calculation1();
            #pragma omp section
            calculation2();
            #pragma omp section
            calculation3();
        }
    }

這些任務由系統(tǒng)自由分配給不同線程運行
任務數(shù)與線程數(shù)相等時，分配顯然
任務數(shù)多于線程數(shù)時
先用任務把線程占滿褒链，哪個線程執(zhí)行完在分配剩下的任務
任務數(shù)少于線程數(shù)時
其它線程等待

2.schedule子句

`schedule(mode[,chunk])`

實際上大多數(shù)編譯器除了static唁情，另外三種都沒實現(xiàn)

靜態(tài)調度

所有分配方式在編碼時寫死
默認的分配方式
chunk默認為最大值（迭代數(shù)/線程數(shù)）
chunk是循環(huán)任務分塊的大小
如果需要循環(huán)縱切，chunk設置為1即可
靜態(tài)調度的分配方式是非常明確的甫匹，第一個chunk給線程0甸鸟，以此類推

動態(tài)調度

每個chunk可以動態(tài)分配給某個線程了

guided調度

chunk定義的是塊的最小值
實際上可以更大

runtime調度

全部參數(shù)交由編譯器決定

九惦费、內存模型

1.弱一致性

在代碼中，讀寫順序在不改變語義的情況下是可以改變的
以S表示數(shù)據(jù)同步操作
OpenMP中保證抢韭，S->W薪贫、S->R、R->S篮绰、W->S、S->S
在OpenMP中就是flush操作

2.flush

    a=...;
    <other computaion>
    #pragma omp flush(a)

變量值在內存中的改變最早發(fā)生在寫操作季惯，最晚在數(shù)據(jù)同步操作時進行

隱式數(shù)據(jù)同步

其它所有同步都會自動帶上數(shù)據(jù)同步

十吠各、OpenMP 3.0與任務

1.任務

其它結構的工作量都是靜態(tài)的，但task的任務是可以動態(tài)分的

2.例子

    for(int i=0;i<N;i+=a[i])
        task(a[i]);

此循環(huán)不能使用#pragma omp for
想要并行就必須使用task

3.task的結構

`#pragma omp task [clause[[,],clause]...]`

子句可以加入if勉抓、untitled與所有數(shù)據(jù)環(huán)境

并行的鏈表舉例

    #pragma omp parallel
    {
        #pragma omp single private(p)   //由一個線程進行預處理贾漏，其它線程什么都不做
        {
            p=listhead;
            while(p)
            {
                #pragma omp task
                process(p);             //將鏈表內多個結點的處理并行進行，
                                        //占用并行區(qū)內原本閑置的線程
                p=next(p);
            }
        }
    }

4.untied子句

創(chuàng)建的任務藕筋，默認將會與某個線程綁定纵散，只能由某個線程來完成
untied可以用來解除這樣的綁定

舉例

    #pragma omp single
    {
        #pragma omp task untied
        for(i=0;i<ONEZILLION;i++)
            #pragma omp task
            process(item[i]);
    }

如果不作為united的任務，源源不斷的新任務將撐爆內存
untied允許任務的創(chuàng)建在其它線程間遷移

5.if子句

如果表達式為false隐圾，整個編譯指導語句無效
默認為if(true)

最后編輯于：2017.12.08 07:39:53

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末伍掀，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子暇藏，更是在濱河造成了極大的恐慌蜜笤，老刑警劉巖，帶你破解...
沈念sama閱讀 219,110評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件盐碱，死亡現(xiàn)場離奇詭異把兔，居然都是意外死亡，警方通過查閱死者的電腦和手機瓮顽，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,443評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門县好，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人暖混，你說我怎么就攤上這事缕贡。” “怎么了拣播？”我有些...
開封第一講書人閱讀 165,474評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵善绎，是天一觀的道長。經常有香客問我诫尽，道長禀酱，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,881評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任牧嫉，我火速辦了婚禮剂跟，結果婚禮上减途，老公的妹妹穿的比我還像新娘。我一直安慰自己曹洽，他們只是感情好鳍置，可當我...
茶點故事閱讀 67,902評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著送淆，像睡著了一般税产。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上偷崩，一...
開封第一講書人閱讀 51,698評論 1贊 305
城市分裂傳說
那天辟拷，我揣著相機與錄音，去河邊找鬼阐斜。笑死衫冻，一個胖子當著我的面吹牛，可吹牛的內容都是我干的谒出。我是一名探鬼主播隅俘，決...
沈念sama閱讀 40,418評論 3贊 419
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼笤喳！你這毒婦竟也來了为居？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,332評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤杀狡，失蹤者是張志新（化名）和其女友劉穎颜骤，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捣卤，經...
沈念sama閱讀 45,796評論 1贊 316
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡忍抽，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,968評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了董朝。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鸠项。...
茶點故事閱讀 40,110評論 1贊 351
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖子姜，靈堂內的尸體忽然破棺而出祟绊，到底是詐尸還是另有隱情，我是刑警寧澤哥捕，帶...
沈念sama閱讀 35,792評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布牧抽，位于F島的核電站，受9級特大地震影響遥赚，放射性物質發(fā)生泄漏扬舒。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,455評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一凫佛、第九天我趴在偏房一處隱蔽的房頂上張望讲坎。院中可真熱鬧孕惜，春花似錦、人聲如沸晨炕。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,003評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽瓮栗。三九已至削罩，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間费奸，已是汗流浹背弥激。一陣腳步聲響...
開封第一講書人閱讀 33,130評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留货邓，地道東北人秆撮。一個月前我還...
沈念sama閱讀 48,348評論 3贊 373
代替公主和親
正文我出身青樓四濒，卻偏偏與公主長得像换况，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子盗蟆，可洞房花燭夜當晚...
茶點故事閱讀 45,047評論 2贊 355