2019-02-15 | 使用 Nsight 進(jìn)行CUDA-C/C++開發(fā)簡(jiǎn)易教程

0. 寫在前面

有一位朋友請(qǐng)教我這個(gè)軟件如何使用,正趕上我吃飯请敦,這位朋友說過段時(shí)間再說也行星瘾,于是我就準(zhǔn)備程序完成了這篇簡(jiǎn)易教程。

  • 運(yùn)行環(huán)境:
    XUbuntu 18.04 操作系統(tǒng)尺棋,CUDA版本為 9.1,設(shè)備為 Gforce GTX-850M。
  • 教程內(nèi)容包括:
    1. 新建CUDA C/C++ 項(xiàng)目
    2. 添加代碼(計(jì)算矩陣相乘)
    3. 編譯膘螟、鏈接成福、執(zhí)行
    4. 分析程序性能
  • 教程概覽
    1. Nsight Eclipse Edition 簡(jiǎn)介
    2. 使用方法(教程內(nèi)容)
    3. 附錄 - 程序完整源碼
  • 特別聲明
    此教程所用測(cè)試代碼取自網(wǎng)絡(luò),原文鏈接如下荆残,如若侵犯作者版權(quán)奴艾,請(qǐng)聯(lián)系刪帖。
    作者:MingChaoSun
    原文:https://blog.csdn.net/sunmc1204953974/article/details/51098028

1. Nsight Eclipse Edition 簡(jiǎn)介

NVIDIA?Nsight?Eclipse Edition是一個(gè)功能全面的IDE内斯,由Eclipse平臺(tái)提供支持蕴潦,提供一體化的集成環(huán)境,用于編輯俘闯,構(gòu)建潭苞,調(diào)試和分析CUDA-C應(yīng)用程序。Nsight Eclipse Edition支持豐富的商業(yè)和免費(fèi)插件真朗。
點(diǎn)擊跳轉(zhuǎn)到 Nsight Eclipse Edition 介紹頁此疹。

2. 使用方法

2.1 打開 Nsight Eclipse Edition

Nsight Eclipse Edition 可以通過兩種方式打開:

$ nsight # 通過終端命令打開

或者新建桌面圖標(biāo),通過單擊相應(yīng)圖標(biāo)啟動(dòng)程序遮婶。下圖為 Nsight Eclipse Edition主界面蝗碎。

  • 左側(cè)區(qū)域?yàn)楣芾韰^(qū),在這里可以管理整個(gè)項(xiàng)目屬性旗扑;
  • 中間區(qū)域?yàn)楣ぷ鲄^(qū)蹦骑,比如編寫代碼、查看程序分析結(jié)果等臀防;
  • 右側(cè)區(qū)域?yàn)榇缶V區(qū)眠菇,可以查看項(xiàng)目的頭文件、宏定義清钥、函數(shù)名等內(nèi)容琼锋。
    ps: 上面三個(gè)區(qū)域是我自己想出來的名字,如果讀者覺得不恰當(dāng)祟昭,可以留言討論缕坎,謝謝。
Nsight Eclipse Edition

2.2 新建 CUDA-C/C++ 項(xiàng)目

  • 方法:菜單欄 -> File -> New -> CUDA C/C++ Project
    最后篡悟,我們將見到如下圖所示的窗口谜叹。在這里可以設(shè)置 Project name(項(xiàng)目名稱)、Location(項(xiàng)目路徑)搬葬、Project type(項(xiàng)目類型)等內(nèi)容
    新建 CUDA-C/C++ 項(xiàng)目

2.3 添加代碼

  • 方法:在 Nsight Eclipse Edition 主界面管理區(qū)單擊鼠標(biāo)右鍵荷腊,然后選擇右鍵菜單中的New,再選擇在出現(xiàn)在下級(jí)菜單中的Source File急凰,如下圖所示女仰。
添加代碼-1

完成上述操作后,出現(xiàn)下面窗口。

  • 在這里疾忍,可以設(shè)置Source folder(源代碼文件文件夾) Source file(源代碼文件文件名乔外,不帶擴(kuò)展名) Template(使用模板)。
  • 本教程中一罩,源代碼文件文件名為main杨幼,未使用模板。
添加代碼-2

2.4 編寫代碼

在中間的工作區(qū)編寫相關(guān)代碼聂渊。

編寫代碼

2.5 編譯差购、鏈接、執(zhí)行

  • 通過工具欄汉嗽,方法:點(diǎn)擊工具欄按鈕(下圖中左起第一個(gè))欲逃,即可進(jìn)行。
    Run
  • 通過菜單欄進(jìn)行诊胞,方法:菜單欄 -> Project -> Build All 或 Build Project

2.6 分析程序

  • 通過工具欄暖夭,方法:點(diǎn)擊工具欄按鈕(下圖中左起第二個(gè)),即可進(jìn)行撵孤。
Profile

比如此教程所用程序的性能分析如下圖所示。

分析程序

3. 附錄 - 程序完整源碼

#include <stdio.h>
#include <stdlib.h>
#include <time.h>

//CUDA RunTime API
#include <cuda_runtime.h>

#define THREAD_NUM 256

#define MATRIX_SIZE 1000

const int blocks_num = MATRIX_SIZE * (MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;

//打印設(shè)備信息
void printDeviceProp(const cudaDeviceProp &prop) {
    printf("Device Name : %s.\n", prop.name);
    printf("totalGlobalMem : %d.\n", prop.totalGlobalMem);
    printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock);
    printf("regsPerBlock : %d.\n", prop.regsPerBlock);
    printf("warpSize : %d.\n", prop.warpSize);
    printf("memPitch : %d.\n", prop.memPitch);
    printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);
    printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[0],
            prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
    printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0],
            prop.maxGridSize[1], prop.maxGridSize[2]);
    printf("totalConstMem : %d.\n", prop.totalConstMem);
    printf("major.minor : %d.%d.\n", prop.major, prop.minor);
    printf("clockRate : %d.\n", prop.clockRate);
    printf("textureAlignment : %d.\n", prop.textureAlignment);
    printf("deviceOverlap : %d.\n", prop.deviceOverlap);
    printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);
}

//CUDA 初始化
bool InitCUDA() {
    int count;

    //取得支持Cuda的裝置的數(shù)目
    cudaGetDeviceCount(&count);

    if (count == 0) {
        fprintf(stderr, "There is no device.\n");

        return false;
    }

    int i;

    for (i = 0; i < count; i++) {

        cudaDeviceProp prop;
        cudaGetDeviceProperties(&prop, i);
        //打印設(shè)備信息
        printDeviceProp(prop);

        if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
            if (prop.major >= 1) {
                break;
            }
        }
    }

    if (i == count) {
        fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
        return false;
    }

    cudaSetDevice(i);

    return true;

}

//生成隨機(jī)矩陣
void matgen(float* a, int n) {
    int i, j;

    for (i = 0; i < n; i++) {
        for (j = 0; j < n; j++) {

            a[i * n + j] = (float) rand() / RAND_MAX
                    + (float) rand() / (RAND_MAX * RAND_MAX);

        }
    }
}

// __global__ 函數(shù) 并行計(jì)算矩陣乘法
__global__ static void matMultCUDA(const float* a, const float* b, float* c,
        int n, clock_t* time) {

    //表示目前的 thread 是第幾個(gè) thread(由 0 開始計(jì)算)
    const int tid = threadIdx.x;

    //表示目前的 thread 屬于第幾個(gè) block(由 0 開始計(jì)算)
    const int bid = blockIdx.x;

    //從 bid 和 tid 計(jì)算出這個(gè) thread 應(yīng)該計(jì)算的 row 和 column
    const int idx = bid * THREAD_NUM + tid;
    const int row = idx / n;
    const int column = idx % n;

    int i;

    //記錄運(yùn)算開始的時(shí)間
    clock_t start;

    //只在 thread 0(即 threadIdx.x = 0 的時(shí)候)進(jìn)行記錄竭望,每個(gè) block 都會(huì)記錄開始時(shí)間及結(jié)束時(shí)間
    if (tid == 0)
        time[bid] = clock();

    //計(jì)算矩陣乘法
    if (row < n && column < n) {
        float t = 0;

        for (i = 0; i < n; i++) {
            t += a[row * n + i] * b[i * n + column];
        }
        c[row * n + column] = t;
    }

    //計(jì)算時(shí)間,記錄結(jié)果邪码,只在 thread 0(即 threadIdx.x = 0 的時(shí)候)進(jìn)行,每個(gè) block 都會(huì)記錄開始時(shí)間及結(jié)束時(shí)間
    if (tid == 0) {
        time[bid + blocks_num] = clock();
    }
}

int main() {

    //CUDA 初始化
    if (!InitCUDA())
        return 0;

    //定義矩陣
    float *a, *b, *c, *d;

    int n = MATRIX_SIZE;

    //分配內(nèi)存
    a = (float*) malloc(sizeof(float) * n * n);
    b = (float*) malloc(sizeof(float) * n * n);
    c = (float*) malloc(sizeof(float) * n * n);
    d = (float*) malloc(sizeof(float) * n * n);

    //設(shè)置隨機(jī)數(shù)種子
    srand(0);

    //隨機(jī)生成矩陣
    matgen(a, n);
    matgen(b, n);

    /*把數(shù)據(jù)復(fù)制到顯卡內(nèi)存中*/
    float *cuda_a, *cuda_b, *cuda_c;

    clock_t* time;

    //cudaMalloc 取得一塊顯卡內(nèi)存
    cudaMalloc((void**) &cuda_a, sizeof(float) * n * n);
    cudaMalloc((void**) &cuda_b, sizeof(float) * n * n);
    cudaMalloc((void**) &cuda_c, sizeof(float) * n * n);
    cudaMalloc((void**) &time, sizeof(clock_t) * blocks_num * 2);

    //cudaMemcpy 將產(chǎn)生的矩陣復(fù)制到顯卡內(nèi)存中
    //cudaMemcpyHostToDevice - 從內(nèi)存復(fù)制到顯卡內(nèi)存
    //cudaMemcpyDeviceToHost - 從顯卡內(nèi)存復(fù)制到內(nèi)存
    cudaMemcpy(cuda_a, a, sizeof(float) * n * n, cudaMemcpyHostToDevice);
    cudaMemcpy(cuda_b, b, sizeof(float) * n * n, cudaMemcpyHostToDevice);

    // 在CUDA 中執(zhí)行函數(shù) 語法:函數(shù)名稱<<<block 數(shù)目, thread 數(shù)目, shared memory 大小>>>(參數(shù)...);
    matMultCUDA<<<blocks_num, THREAD_NUM, 0>>>(cuda_a, cuda_b, cuda_c, n, time);

    /*把結(jié)果從顯示芯片復(fù)制回主內(nèi)存*/

    clock_t time_use[blocks_num * 2];

    //cudaMemcpy 將結(jié)果從顯存中復(fù)制回內(nèi)存
    cudaMemcpy(c, cuda_c, sizeof(float) * n * n, cudaMemcpyDeviceToHost);
    cudaMemcpy(&time_use, time, sizeof(clock_t) * blocks_num * 2,
            cudaMemcpyDeviceToHost);

    //Free
    cudaFree(cuda_a);
    cudaFree(cuda_b);
    cudaFree(cuda_c);
    cudaFree(time);

    //把每個(gè) block 最早的開始時(shí)間咬清,和最晚的結(jié)束時(shí)間相減闭专,取得總運(yùn)行時(shí)間
    clock_t min_start, max_end;

    min_start = time_use[0];

    max_end = time_use[blocks_num];

    for (int i = 1; i < blocks_num; i++) {
        if (min_start > time_use[i])
            min_start = time_use[i];

        if (max_end < time_use[i + blocks_num])
            max_end = time_use[i + blocks_num];
    }

    //核函數(shù)運(yùn)行時(shí)間
    clock_t final_time = max_end - min_start;

    //CPU矩陣乘法,存入矩陣d
    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            double t = 0;

            for (int k = 0; k < n; k++) {

                t += a[i * n + k] * b[k * n + j];

            }

            d[i * n + j] = t;

        }
    }

    //驗(yàn)證正確性與精確性

    float max_err = 0;

    float average_err = 0;

    for (int i = 0; i < n; i++) {
        for (int j = 0; j < n; j++) {
            if (d[i * n + j] != 0) {
                //fabs求浮點(diǎn)數(shù)x的絕對(duì)值
                float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);

                if (max_err < err)
                    max_err = err;

                average_err += err;
            }
        }
    }

    printf("Max error: %g Average error: %g\n", max_err, average_err / (n * n));

    printf("gputime: %d\n", final_time);

    return 0;

}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末旧烧,一起剝皮案震驚了整個(gè)濱河市影钉,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌掘剪,老刑警劉巖平委,帶你破解...
    沈念sama閱讀 207,248評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異夺谁,居然都是意外死亡廉赔,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,681評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門匾鸥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蜡塌,“玉大人,你說我怎么就攤上這事勿负×蟀” “怎么了?”我有些...
    開封第一講書人閱讀 153,443評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)琅摩。 經(jīng)常有香客問我铁孵,道長(zhǎng),這世上最難降的妖魔是什么迫吐? 我笑而不...
    開封第一講書人閱讀 55,475評(píng)論 1 279
  • 正文 為了忘掉前任库菲,我火速辦了婚禮,結(jié)果婚禮上志膀,老公的妹妹穿的比我還像新娘熙宇。我一直安慰自己,他們只是感情好溉浙,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,458評(píng)論 5 374
  • 文/花漫 我一把揭開白布烫止。 她就那樣靜靜地躺著,像睡著了一般戳稽。 火紅的嫁衣襯著肌膚如雪馆蠕。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,185評(píng)論 1 284
  • 那天惊奇,我揣著相機(jī)與錄音互躬,去河邊找鬼。 笑死颂郎,一個(gè)胖子當(dāng)著我的面吹牛吼渡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播乓序,決...
    沈念sama閱讀 38,451評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼寺酪,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了替劈?” 一聲冷哼從身側(cè)響起寄雀,我...
    開封第一講書人閱讀 37,112評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎陨献,沒想到半個(gè)月后盒犹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,609評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡湿故,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,083評(píng)論 2 325
  • 正文 我和宋清朗相戀三年阿趁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坛猪。...
    茶點(diǎn)故事閱讀 38,163評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡脖阵,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出墅茉,到底是詐尸還是另有隱情命黔,我是刑警寧澤呜呐,帶...
    沈念sama閱讀 33,803評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站悍募,受9級(jí)特大地震影響蘑辑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜坠宴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,357評(píng)論 3 307
  • 文/蒙蒙 一洋魂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧喜鼓,春花似錦副砍、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,357評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至隅忿,卻和暖如春心剥,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背背桐。 一陣腳步聲響...
    開封第一講書人閱讀 31,590評(píng)論 1 261
  • 我被黑心中介騙來泰國(guó)打工优烧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人链峭。 一個(gè)月前我還...
    沈念sama閱讀 45,636評(píng)論 2 355
  • 正文 我出身青樓匙隔,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親熏版。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,925評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容

  • CUDA從入門到精通(零):寫在前面 本文原版鏈接: 在老板的要求下捍掺,本博主從2012年上高性能計(jì)算課程開始接觸C...
    Pitfalls閱讀 3,600評(píng)論 1 3
  • 總有人說:“做人難挺勿,做好人更難”曲横,曾經(jīng)我十分贊同,但現(xiàn)在我卻不想做好人了不瓶。 “走禾嫉,去吃炸串吧” “來,走一個(gè)” “...
    暮色薔薇閱讀 676評(píng)論 4 2
  • 春天蚊丐,大地上都是喜事熙参。 鞋印÷蟊福花徑孽椰。書信昭娩。農(nóng)具。微笑…… 在這四月黍匾,都通向美好栏渺。 ...
    青苔痕閱讀 341評(píng)論 0 0
  • 獨(dú)享: 《書·說命下》:“爾尚明保予,罔俾 阿衡 壶笼,專美有 商 神僵。” 獨(dú)占: 《禮記·雜記上》:“乘人專道而行覆劈”@瘢”...
    Peregrination閱讀 684評(píng)論 0 0
  • 似乎是名額終于定下來了~~~終于可以解放一下下了 到底要去哪?難道我真的就這樣放棄去北大责语,上交這種一流名校的機(jī)會(huì)炮障,...
    風(fēng)中的魚兒閱讀 309評(píng)論 0 0