0. 寫在前面
有一位朋友請(qǐng)教我這個(gè)軟件如何使用,正趕上我吃飯请敦,這位朋友說過段時(shí)間再說也行星瘾,于是我就準(zhǔn)備程序完成了這篇簡(jiǎn)易教程。
- 運(yùn)行環(huán)境:
XUbuntu 18.04 操作系統(tǒng)尺棋,CUDA版本為 9.1,設(shè)備為 Gforce GTX-850M。- 教程內(nèi)容包括:
- 新建CUDA C/C++ 項(xiàng)目
- 添加代碼(計(jì)算矩陣相乘)
- 編譯膘螟、鏈接成福、執(zhí)行
- 分析程序性能
- 教程概覽
- Nsight Eclipse Edition 簡(jiǎn)介
- 使用方法(教程內(nèi)容)
- 附錄 - 程序完整源碼
- 特別聲明
此教程所用測(cè)試代碼取自網(wǎng)絡(luò),原文鏈接如下荆残,如若侵犯作者版權(quán)奴艾,請(qǐng)聯(lián)系刪帖。
作者:MingChaoSun
原文:https://blog.csdn.net/sunmc1204953974/article/details/51098028
1. Nsight Eclipse Edition 簡(jiǎn)介
NVIDIA?Nsight?Eclipse Edition是一個(gè)功能全面的IDE内斯,由Eclipse平臺(tái)提供支持蕴潦,提供一體化的集成環(huán)境,用于編輯俘闯,構(gòu)建潭苞,調(diào)試和分析CUDA-C應(yīng)用程序。Nsight Eclipse Edition支持豐富的商業(yè)和免費(fèi)插件真朗。
點(diǎn)擊跳轉(zhuǎn)到 Nsight Eclipse Edition 介紹頁此疹。
2. 使用方法
2.1 打開 Nsight Eclipse Edition
Nsight Eclipse Edition 可以通過兩種方式打開:
$ nsight # 通過終端命令打開
或者新建桌面圖標(biāo),通過單擊相應(yīng)圖標(biāo)
啟動(dòng)程序遮婶。下圖為 Nsight Eclipse Edition主界面蝗碎。
- 左側(cè)區(qū)域?yàn)楣芾韰^(qū),在這里可以管理整個(gè)項(xiàng)目屬性旗扑;
- 中間區(qū)域?yàn)楣ぷ鲄^(qū)蹦骑,比如編寫代碼、查看程序分析結(jié)果等臀防;
- 右側(cè)區(qū)域?yàn)榇缶V區(qū)眠菇,可以查看項(xiàng)目的頭文件、宏定義清钥、函數(shù)名等內(nèi)容琼锋。
ps: 上面三個(gè)區(qū)域是我自己想出來的名字,如果讀者覺得不恰當(dāng)祟昭,可以留言討論缕坎,謝謝。
2.2 新建 CUDA-C/C++ 項(xiàng)目
- 方法:菜單欄 -> File -> New -> CUDA C/C++ Project
最后篡悟,我們將見到如下圖所示的窗口谜叹。在這里可以設(shè)置Project name
(項(xiàng)目名稱)、Location
(項(xiàng)目路徑)搬葬、Project type
(項(xiàng)目類型)等內(nèi)容
2.3 添加代碼
- 方法:在 Nsight Eclipse Edition 主界面管理區(qū)單擊
鼠標(biāo)右鍵
荷腊,然后選擇右鍵菜單中的New
,再選擇在出現(xiàn)在下級(jí)菜單中的Source File
急凰,如下圖所示女仰。
完成上述操作后,出現(xiàn)下面窗口。
- 在這里疾忍,可以設(shè)置
Source folder
(源代碼文件文件夾)Source file
(源代碼文件文件名乔外,不帶擴(kuò)展名)Template
(使用模板)。 - 本教程中一罩,源代碼文件文件名為
main
杨幼,未使用模板。
2.4 編寫代碼
在中間的工作區(qū)編寫相關(guān)代碼聂渊。
2.5 編譯差购、鏈接、執(zhí)行
-
通過工具欄
汉嗽,方法:點(diǎn)擊工具欄按鈕(下圖中左起第一個(gè))欲逃,即可進(jìn)行。
-
通過菜單欄進(jìn)行
诊胞,方法:菜單欄 -> Project -> Build All 或 Build Project
2.6 分析程序
- 通過工具欄暖夭,方法:點(diǎn)擊工具欄按鈕(下圖中左起第二個(gè)),即可進(jìn)行撵孤。
比如此教程所用程序的性能分析如下圖所示。
3. 附錄 - 程序完整源碼
#include <stdio.h>
#include <stdlib.h>
#include <time.h>
//CUDA RunTime API
#include <cuda_runtime.h>
#define THREAD_NUM 256
#define MATRIX_SIZE 1000
const int blocks_num = MATRIX_SIZE * (MATRIX_SIZE + THREAD_NUM - 1) / THREAD_NUM;
//打印設(shè)備信息
void printDeviceProp(const cudaDeviceProp &prop) {
printf("Device Name : %s.\n", prop.name);
printf("totalGlobalMem : %d.\n", prop.totalGlobalMem);
printf("sharedMemPerBlock : %d.\n", prop.sharedMemPerBlock);
printf("regsPerBlock : %d.\n", prop.regsPerBlock);
printf("warpSize : %d.\n", prop.warpSize);
printf("memPitch : %d.\n", prop.memPitch);
printf("maxThreadsPerBlock : %d.\n", prop.maxThreadsPerBlock);
printf("maxThreadsDim[0 - 2] : %d %d %d.\n", prop.maxThreadsDim[0],
prop.maxThreadsDim[1], prop.maxThreadsDim[2]);
printf("maxGridSize[0 - 2] : %d %d %d.\n", prop.maxGridSize[0],
prop.maxGridSize[1], prop.maxGridSize[2]);
printf("totalConstMem : %d.\n", prop.totalConstMem);
printf("major.minor : %d.%d.\n", prop.major, prop.minor);
printf("clockRate : %d.\n", prop.clockRate);
printf("textureAlignment : %d.\n", prop.textureAlignment);
printf("deviceOverlap : %d.\n", prop.deviceOverlap);
printf("multiProcessorCount : %d.\n", prop.multiProcessorCount);
}
//CUDA 初始化
bool InitCUDA() {
int count;
//取得支持Cuda的裝置的數(shù)目
cudaGetDeviceCount(&count);
if (count == 0) {
fprintf(stderr, "There is no device.\n");
return false;
}
int i;
for (i = 0; i < count; i++) {
cudaDeviceProp prop;
cudaGetDeviceProperties(&prop, i);
//打印設(shè)備信息
printDeviceProp(prop);
if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
if (prop.major >= 1) {
break;
}
}
}
if (i == count) {
fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
return false;
}
cudaSetDevice(i);
return true;
}
//生成隨機(jī)矩陣
void matgen(float* a, int n) {
int i, j;
for (i = 0; i < n; i++) {
for (j = 0; j < n; j++) {
a[i * n + j] = (float) rand() / RAND_MAX
+ (float) rand() / (RAND_MAX * RAND_MAX);
}
}
}
// __global__ 函數(shù) 并行計(jì)算矩陣乘法
__global__ static void matMultCUDA(const float* a, const float* b, float* c,
int n, clock_t* time) {
//表示目前的 thread 是第幾個(gè) thread(由 0 開始計(jì)算)
const int tid = threadIdx.x;
//表示目前的 thread 屬于第幾個(gè) block(由 0 開始計(jì)算)
const int bid = blockIdx.x;
//從 bid 和 tid 計(jì)算出這個(gè) thread 應(yīng)該計(jì)算的 row 和 column
const int idx = bid * THREAD_NUM + tid;
const int row = idx / n;
const int column = idx % n;
int i;
//記錄運(yùn)算開始的時(shí)間
clock_t start;
//只在 thread 0(即 threadIdx.x = 0 的時(shí)候)進(jìn)行記錄竭望,每個(gè) block 都會(huì)記錄開始時(shí)間及結(jié)束時(shí)間
if (tid == 0)
time[bid] = clock();
//計(jì)算矩陣乘法
if (row < n && column < n) {
float t = 0;
for (i = 0; i < n; i++) {
t += a[row * n + i] * b[i * n + column];
}
c[row * n + column] = t;
}
//計(jì)算時(shí)間,記錄結(jié)果邪码,只在 thread 0(即 threadIdx.x = 0 的時(shí)候)進(jìn)行,每個(gè) block 都會(huì)記錄開始時(shí)間及結(jié)束時(shí)間
if (tid == 0) {
time[bid + blocks_num] = clock();
}
}
int main() {
//CUDA 初始化
if (!InitCUDA())
return 0;
//定義矩陣
float *a, *b, *c, *d;
int n = MATRIX_SIZE;
//分配內(nèi)存
a = (float*) malloc(sizeof(float) * n * n);
b = (float*) malloc(sizeof(float) * n * n);
c = (float*) malloc(sizeof(float) * n * n);
d = (float*) malloc(sizeof(float) * n * n);
//設(shè)置隨機(jī)數(shù)種子
srand(0);
//隨機(jī)生成矩陣
matgen(a, n);
matgen(b, n);
/*把數(shù)據(jù)復(fù)制到顯卡內(nèi)存中*/
float *cuda_a, *cuda_b, *cuda_c;
clock_t* time;
//cudaMalloc 取得一塊顯卡內(nèi)存
cudaMalloc((void**) &cuda_a, sizeof(float) * n * n);
cudaMalloc((void**) &cuda_b, sizeof(float) * n * n);
cudaMalloc((void**) &cuda_c, sizeof(float) * n * n);
cudaMalloc((void**) &time, sizeof(clock_t) * blocks_num * 2);
//cudaMemcpy 將產(chǎn)生的矩陣復(fù)制到顯卡內(nèi)存中
//cudaMemcpyHostToDevice - 從內(nèi)存復(fù)制到顯卡內(nèi)存
//cudaMemcpyDeviceToHost - 從顯卡內(nèi)存復(fù)制到內(nèi)存
cudaMemcpy(cuda_a, a, sizeof(float) * n * n, cudaMemcpyHostToDevice);
cudaMemcpy(cuda_b, b, sizeof(float) * n * n, cudaMemcpyHostToDevice);
// 在CUDA 中執(zhí)行函數(shù) 語法:函數(shù)名稱<<<block 數(shù)目, thread 數(shù)目, shared memory 大小>>>(參數(shù)...);
matMultCUDA<<<blocks_num, THREAD_NUM, 0>>>(cuda_a, cuda_b, cuda_c, n, time);
/*把結(jié)果從顯示芯片復(fù)制回主內(nèi)存*/
clock_t time_use[blocks_num * 2];
//cudaMemcpy 將結(jié)果從顯存中復(fù)制回內(nèi)存
cudaMemcpy(c, cuda_c, sizeof(float) * n * n, cudaMemcpyDeviceToHost);
cudaMemcpy(&time_use, time, sizeof(clock_t) * blocks_num * 2,
cudaMemcpyDeviceToHost);
//Free
cudaFree(cuda_a);
cudaFree(cuda_b);
cudaFree(cuda_c);
cudaFree(time);
//把每個(gè) block 最早的開始時(shí)間咬清,和最晚的結(jié)束時(shí)間相減闭专,取得總運(yùn)行時(shí)間
clock_t min_start, max_end;
min_start = time_use[0];
max_end = time_use[blocks_num];
for (int i = 1; i < blocks_num; i++) {
if (min_start > time_use[i])
min_start = time_use[i];
if (max_end < time_use[i + blocks_num])
max_end = time_use[i + blocks_num];
}
//核函數(shù)運(yùn)行時(shí)間
clock_t final_time = max_end - min_start;
//CPU矩陣乘法,存入矩陣d
for (int i = 0; i < n; i++) {
for (int j = 0; j < n; j++) {
double t = 0;
for (int k = 0; k < n; k++) {
t += a[i * n + k] * b[k * n + j];
}
d[i * n + j] = t;
}
}
//驗(yàn)證正確性與精確性
float max_err = 0;
float average_err = 0;
for (int i = 0; i < n; i++) {
for (int j = 0; j < n; j++) {
if (d[i * n + j] != 0) {
//fabs求浮點(diǎn)數(shù)x的絕對(duì)值
float err = fabs((c[i * n + j] - d[i * n + j]) / d[i * n + j]);
if (max_err < err)
max_err = err;
average_err += err;
}
}
}
printf("Max error: %g Average error: %g\n", max_err, average_err / (n * n));
printf("gputime: %d\n", final_time);
return 0;
}