CUDA筆記（二）內(nèi)存操作

typedef struct
{
    int a;
    int b;
    int c;
    int d;
} MY_TYPE_T;

typedef INTERLEAVED_T MY_TYPE_T[1024]; 

typedef int ARRAY_T[1024];

typedef struct
{
    ARRAY_T a;
    ARRAY_T b;
    ARRAY_T c;
    ARRAY_T d;
}NON_INTERLEAVED_T;

__host__ void add_test_non_interleaved_cpu(NON_INTERLEAVED_T * const host_dest_ptr, const NON_INTERLEAVED_T * const host_src_ptr, const int iter, const num_elements)
{
    for(int index = 0; index < num_elements; index++)
    {
        for(int i = 0; i < iter; i++)
        {
            host_dest_ptr->a[index] += host_src_ptr->a[index];
            host_dest_ptr->b[index] += host_src_ptr->b[index];
            host_dest_ptr->c[index] += host_src_ptr->c[index];
            host_dest_ptr->d[index] += host_src_ptr->d[index];
        }
    }
}

__host__ void add_test_interleaved_cpu(INTERLEAVED_T * const host_dest_ptr, const INTERLEAVED_T * const host_src_ptr, const int iter, const num_elements)
{
    for(int index = 0; index < num_elements; index++)
    {
        for(int i = 0; i < iter; i++)
        {
            host_dest_ptr[index].a += host_src_ptr[index].a;
            host_dest_ptr[index].b += host_src_ptr[index].b;
            host_dest_ptr[index].c += host_src_ptr[index].c;
            host_dest_ptr[index].d += host_src_ptr[index].d;
        }
    }
}

這兩個(gè)加和函數(shù)明顯類似纵装，每個(gè)函數(shù)都對(duì)列表中的所有元素迭代iter次，從源數(shù)據(jù)結(jié)構(gòu)中讀取一個(gè)值据某，然后加和到目標(biāo)數(shù)據(jù)結(jié)構(gòu)中橡娄。利用CPU系統(tǒng)時(shí)間統(tǒng)計(jì)這兩個(gè)函數(shù)分別運(yùn)行的時(shí)間可以發(fā)現(xiàn)
“非交錯(cuò)內(nèi)存訪問(wèn)方式的執(zhí)行時(shí)間比交錯(cuò)訪問(wèn)方式的時(shí)間多出3~4倍⊙⒆眩”
這是意料之中的挽唉，因?yàn)樵诮诲e(cuò)訪問(wèn)的例子中滤祖，CPU訪問(wèn)元素a的同時(shí)會(huì)將結(jié)構(gòu)體中元素b、c和d讀入緩存中瓶籽，使他們?cè)谙嗤木彺嫘兄薪惩Ｈ欢墙诲e(cuò)版本則需要對(duì)4個(gè)獨(dú)立的物理內(nèi)存進(jìn)行訪問(wèn)，也就是說(shuō)存儲(chǔ)事務(wù)的數(shù)目為交錯(cuò)版本的4倍塑顺，并且CPU使用的預(yù)讀策略不會(huì)起作用汤求。
我們?cè)倏匆幌翯PU版本的代碼：

__global__ void add_non_test_interleaved_kernel(NON_INTERLEAVED_T * const gpu_dest_ptr, const NON_INTERLEAVED_T * const gpu_src_ptr, const int iter, const int num_elements)
{
    const int tid = (blockIdx.x * blockDim.x) + threadIdx.x;
    if(tid < num_elements)
    {
        for(int i = 0; i < iter; i++)
        {
            gpu_dest_ptr->a[tid] += gpu_src_ptr->a[tid];
            gpu_dest_ptr->b[tid] += gpu_src_ptr->b[tid];
            gpu_dest_ptr->c[tid] += gpu_src_ptr->c[tid];
            gpu_dest_ptr->d[tid] += gpu_src_ptr->d[tid];
        }
    }
} 

__global__ void add_test_interleaved_kernel(INTERLEAVED_T * const gpu_dest_ptr, const INTERLEAVED_T * const gpu_src_ptr, const int iter, const num_elements)
{
    const int tid = (blockIdx.x * blockDim.x) + threadIdx.x;
    if(tid < num_elements)
    {
        for(int i = 0; i < iter; i++)
        {
            gpu_dest_ptr[tid].a += gpu_src_ptr[tid].a;
            gpu_dest_ptr[tid].b += gpu_src_ptr[tid].b;
            gpu_dest_ptr[tid].c += gpu_src_ptr[tid].c;
            gpu_dest_ptr[tid].d += gpu_src_ptr[tid].d;
        }
    }
}

   這兩個(gè)函數(shù)與CPU版本的類似，不過(guò)在GPU上严拒，每個(gè)線程迭代iter計(jì)算一個(gè)元素扬绪。利用GPU系統(tǒng)統(tǒng)計(jì)分別統(tǒng)計(jì)這兩個(gè)函數(shù)運(yùn)行的時(shí)間，可以發(fā)現(xiàn)與CPU版本不同裤唠，在GPU上
    “交錯(cuò)內(nèi)存訪問(wèn)方式的執(zhí)行時(shí)間比非交錯(cuò)內(nèi)存訪問(wèn)方式的時(shí)間多出3~4倍挤牛。”

因?yàn)樵贕PU上种蘸，相比于交錯(cuò)的訪問(wèn)方式墓赴，非交錯(cuò)訪問(wèn)使我們得到了4個(gè)合并的訪問(wèn)（所有線程訪問(wèn)連續(xù)的對(duì)齊的內(nèi)存塊），保持全局內(nèi)存帶寬最優(yōu)航瞭。因此诫硕，在使用GPU全局內(nèi)存時(shí)，我們要注意連續(xù)合并的內(nèi)存訪問(wèn)方式沧奴，從而擁有全局內(nèi)存帶寬最優(yōu)化。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末长窄，一起剝皮案震驚了整個(gè)濱河市滔吠，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌挠日，老刑警劉巖疮绷，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異嚣潜，居然都是意外死亡冬骚，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門懂算，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)只冻，“玉大人，你說(shuō)我怎么就攤上這事计技∠驳拢” “怎么了？”我有些...
開封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵垮媒，是天一觀的道長(zhǎng)舍悯。經(jīng)常有香客問(wèn)我航棱，道長(zhǎng)，這世上最難降的妖魔是什么萌衬？我笑而不...
開封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任饮醇，我火速辦了婚禮，結(jié)果婚禮上秕豫，老公的妹妹穿的比我還像新娘朴艰。我一直安慰自己，他們只是感情好馁蒂，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布呵晚。她就那樣靜靜地躺著，像睡著了一般沫屡。火紅的嫁衣襯著肌膚如雪饵隙。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天沮脖，我揣著相機(jī)與錄音金矛，去河邊找鬼。笑死勺届，一個(gè)胖子當(dāng)著我的面吹牛驶俊，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播免姿，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼饼酿，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了胚膊？” 一聲冷哼從身側(cè)響起故俐，我...
開封第一講書人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎紊婉，沒(méi)想到半個(gè)月后药版，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡喻犁，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年槽片，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肢础。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡还栓，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出传轰，到底是詐尸還是另有隱情蝙云，我是刑警寧澤，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布路召，位于F島的核電站勃刨，受9級(jí)特大地震影響波材，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜身隐，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一廷区、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧贾铝，春花似錦隙轻、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案玖绿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至叁巨，卻和暖如春斑匪，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背锋勺。一陣腳步聲響...
開封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工蚀瘸，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人庶橱。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓贮勃，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親苏章。傳聞我的和親對(duì)象是個(gè)殘疾皇子寂嘉，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353