CUDA筆記(二)內(nèi)存操作

typedef struct
{
    int a;
    int b;
    int c;
    int d;
} MY_TYPE_T;

typedef INTERLEAVED_T MY_TYPE_T[1024]; 

typedef int ARRAY_T[1024];

typedef struct
{
    ARRAY_T a;
    ARRAY_T b;
    ARRAY_T c;
    ARRAY_T d;
}NON_INTERLEAVED_T;
__host__ void add_test_non_interleaved_cpu(NON_INTERLEAVED_T * const host_dest_ptr, const NON_INTERLEAVED_T * const host_src_ptr, const int iter, const num_elements)
{
    for(int index = 0; index < num_elements; index++)
    {
        for(int i = 0; i < iter; i++)
        {
            host_dest_ptr->a[index] += host_src_ptr->a[index];
            host_dest_ptr->b[index] += host_src_ptr->b[index];
            host_dest_ptr->c[index] += host_src_ptr->c[index];
            host_dest_ptr->d[index] += host_src_ptr->d[index];
        }
    }
}

__host__ void add_test_interleaved_cpu(INTERLEAVED_T * const host_dest_ptr, const INTERLEAVED_T * const host_src_ptr, const int iter, const num_elements)
{
    for(int index = 0; index < num_elements; index++)
    {
        for(int i = 0; i < iter; i++)
        {
            host_dest_ptr[index].a += host_src_ptr[index].a;
            host_dest_ptr[index].b += host_src_ptr[index].b;
            host_dest_ptr[index].c += host_src_ptr[index].c;
            host_dest_ptr[index].d += host_src_ptr[index].d;
        }
    }
}

這兩個(gè)加和函數(shù)明顯類似纵装,每個(gè)函數(shù)都對(duì)列表中的所有元素迭代iter次,從源數(shù)據(jù)結(jié)構(gòu)中讀取一個(gè)值据某,然后加和到目標(biāo)數(shù)據(jù)結(jié)構(gòu)中橡娄。利用CPU系統(tǒng)時(shí)間統(tǒng)計(jì)這兩個(gè)函數(shù)分別運(yùn)行的時(shí)間可以發(fā)現(xiàn)
“非交錯(cuò)內(nèi)存訪問(wèn)方式的執(zhí)行時(shí)間比交錯(cuò)訪問(wèn)方式的時(shí)間多出3~4倍⊙⒆眩”
這是意料之中的挽唉,因?yàn)樵诮诲e(cuò)訪問(wèn)的例子中滤祖,CPU訪問(wèn)元素a的同時(shí)會(huì)將結(jié)構(gòu)體中元素b、c和d讀入緩存中瓶籽,使他們?cè)谙嗤木彺嫘兄薪惩H欢墙诲e(cuò)版本則需要對(duì)4個(gè)獨(dú)立的物理內(nèi)存進(jìn)行訪問(wèn),也就是說(shuō)存儲(chǔ)事務(wù)的數(shù)目為交錯(cuò)版本的4倍塑顺,并且CPU使用的預(yù)讀策略不會(huì)起作用汤求。
我們?cè)倏匆幌翯PU版本的代碼:

__global__ void add_non_test_interleaved_kernel(NON_INTERLEAVED_T * const gpu_dest_ptr, const NON_INTERLEAVED_T * const gpu_src_ptr, const int iter, const int num_elements)
{
    const int tid = (blockIdx.x * blockDim.x) + threadIdx.x;
    if(tid < num_elements)
    {
        for(int i = 0; i < iter; i++)
        {
            gpu_dest_ptr->a[tid] += gpu_src_ptr->a[tid];
            gpu_dest_ptr->b[tid] += gpu_src_ptr->b[tid];
            gpu_dest_ptr->c[tid] += gpu_src_ptr->c[tid];
            gpu_dest_ptr->d[tid] += gpu_src_ptr->d[tid];
        }
    }
} 

__global__ void add_test_interleaved_kernel(INTERLEAVED_T * const gpu_dest_ptr, const INTERLEAVED_T * const gpu_src_ptr, const int iter, const num_elements)
{
    const int tid = (blockIdx.x * blockDim.x) + threadIdx.x;
    if(tid < num_elements)
    {
        for(int i = 0; i < iter; i++)
        {
            gpu_dest_ptr[tid].a += gpu_src_ptr[tid].a;
            gpu_dest_ptr[tid].b += gpu_src_ptr[tid].b;
            gpu_dest_ptr[tid].c += gpu_src_ptr[tid].c;
            gpu_dest_ptr[tid].d += gpu_src_ptr[tid].d;
        }
    }
}
   這兩個(gè)函數(shù)與CPU版本的類似,不過(guò)在GPU上严拒,每個(gè)線程迭代iter計(jì)算一個(gè)元素扬绪。利用GPU系統(tǒng)統(tǒng)計(jì)分別統(tǒng)計(jì)這兩個(gè)函數(shù)運(yùn)行的時(shí)間,可以發(fā)現(xiàn)與CPU版本不同裤唠,在GPU上
    “交錯(cuò)內(nèi)存訪問(wèn)方式的執(zhí)行時(shí)間比非交錯(cuò)內(nèi)存訪問(wèn)方式的時(shí)間多出3~4倍挤牛。”

因?yàn)樵贕PU上种蘸,相比于交錯(cuò)的訪問(wèn)方式墓赴,非交錯(cuò)訪問(wèn)使我們得到了4個(gè)合并的訪問(wèn)(所有線程訪問(wèn)連續(xù)的對(duì)齊的內(nèi)存塊),保持全局內(nèi)存帶寬最優(yōu)航瞭。因此诫硕,在使用GPU全局內(nèi)存時(shí),我們要注意連續(xù)合并的內(nèi)存訪問(wèn)方式沧奴,從而擁有全局內(nèi)存帶寬最優(yōu)化。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末长窄,一起剝皮案震驚了整個(gè)濱河市滔吠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌挠日,老刑警劉巖疮绷,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異嚣潜,居然都是意外死亡冬骚,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門懂算,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)只冻,“玉大人,你說(shuō)我怎么就攤上這事计技∠驳拢” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵垮媒,是天一觀的道長(zhǎng)舍悯。 經(jīng)常有香客問(wèn)我航棱,道長(zhǎng),這世上最難降的妖魔是什么萌衬? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任饮醇,我火速辦了婚禮,結(jié)果婚禮上秕豫,老公的妹妹穿的比我還像新娘朴艰。我一直安慰自己,他們只是感情好馁蒂,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布呵晚。 她就那樣靜靜地躺著,像睡著了一般沫屡。 火紅的嫁衣襯著肌膚如雪饵隙。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天沮脖,我揣著相機(jī)與錄音金矛,去河邊找鬼。 笑死勺届,一個(gè)胖子當(dāng)著我的面吹牛驶俊,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播免姿,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼饼酿,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了胚膊?” 一聲冷哼從身側(cè)響起故俐,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎紊婉,沒(méi)想到半個(gè)月后药版,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡喻犁,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年槽片,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肢础。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡还栓,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出传轰,到底是詐尸還是另有隱情蝙云,我是刑警寧澤,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布路召,位于F島的核電站勃刨,受9級(jí)特大地震影響波材,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜身隐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一廷区、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧贾铝,春花似錦隙轻、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至叁巨,卻和暖如春斑匪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背锋勺。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工蚀瘸, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人庶橱。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓贮勃,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親苏章。 傳聞我的和親對(duì)象是個(gè)殘疾皇子寂嘉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353