經(jīng)過上一回的努力雳锋,我們終于將 GPU 計(jì)算的時(shí)間縮減到同 CPU 一個(gè)數(shù)量級黄绩,但是發(fā)現(xiàn)內(nèi)存和顯存之間的 memcpy 成了最主要的性能損耗。
一玷过、固定內(nèi)存
這里有一個(gè)驚人的事實(shí)爽丹,從分頁的虛擬內(nèi)存中的地址復(fù)制到顯存,需要經(jīng)過兩次復(fù)制习劫,中間需要復(fù)制到非分頁的固定內(nèi)存地址诽里。同時(shí),CUDA 還提供了 cudaMallocHost
以分配固定內(nèi)存灸眼,我們可以申請這樣的內(nèi)存并將其地址賦予 golang 中的 slice焰宣,在 golang 端直接寫這個(gè)地址捕仔,將其拷貝到顯存以達(dá)到縮減 memcpy 時(shí)間的目的。
const size_t NTB = 256;
const size_t EXT = 8;
#define divCeil(a, b) (((a) + (b) - 1) / (b))
struct Ctx {
float *x, *y;
float *xd, *yd, *rd;
size_t n;
};
extern "C" __declspec(dllexport) void init(Ctx **p, size_t n) {
Ctx *ctx = (Ctx *)malloc(sizeof(Ctx));
ctx->n = n;
size_t sz = sizeof(float) * n;
cudaMallocHost(&(ctx->x), sz);
cudaMallocHost(&(ctx->y), sz);
cudaMalloc(&(ctx->xd), sz);
cudaMalloc(&(ctx->yd), sz);
cudaMallocManaged(&(ctx->rd), sizeof(float) * divCeil(n, NTB) / EXT);
*p = ctx;
}
extern "C" __declspec(dllexport) void getInputs(Ctx *ctx, float **px, float **py) {
*px = ctx->x;
*py = ctx->y;
}
extern "C" __declspec(dllexport) void deinit(Ctx *ctx) {
cudaFreeHost(ctx->x);
cudaFreeHost(ctx->y);
cudaFree(ctx->xd);
cudaFree(ctx->yd);
cudaFree(ctx->rd);
free(ctx);
}
__global__ void devDot(float *x, float *y, size_t n, float *r) {
__shared__ float rb[NTB];
size_t itb = threadIdx.x;
size_t i = blockIdx.x * blockDim.x * EXT + itb;
float s = 0.0;
for (size_t j = 0; j < EXT && i < n; j++, i += blockDim.x) {
s += x[i] * y[i];
}
rb[itb] = s;
__syncthreads();
for (size_t i = NTB >> 1; i != 0; i >>= 1) {
if (itb < i) rb[itb] += rb[itb + i];
__syncthreads();
}
if (0 == itb) r[blockIdx.x] = rb[0];
}
extern "C" __declspec(dllexport) void dot(Ctx *ctx, float *r) {
size_t sz = sizeof(float) * ctx->n;
cudaMemcpy(ctx->xd, ctx->x, sz, cudaMemcpyHostToDevice);
cudaMemcpy(ctx->yd, ctx->y, sz, cudaMemcpyHostToDevice);
size_t nb = divCeil(ctx->n, NTB) / EXT;
float *rd = ctx->rd;
devDot<<<nb, NTB>>>(ctx->xd, ctx->yd, ctx->n, rd);
cudaDeviceSynchronize();
float s = 0.0;
for (size_t i = 0; i < nb; i++) s += rd[i];
*r = s;
}
package main
import (
"math/rand"
"reflect"
"syscall"
"time"
"unsafe"
)
const N = 1 << 20
type Lib struct {
dll *syscall.DLL
deinitProc *syscall.Proc
dotProc *syscall.Proc
handler uintptr
X, Y []float32
}
func LoadLib() (*Lib, error) {
l := &Lib{}
var err error
defer func() {
if nil != err {
l.Release()
}
}()
if l.dll, err = syscall.LoadDLL("cuda.dll"); nil != err {
return nil, err
}
if l.deinitProc, err = l.dll.FindProc("deinit"); nil != err {
return nil, err
}
if l.dotProc, err = l.dll.FindProc("dot"); nil != err {
return nil, err
}
proc, err := l.dll.FindProc("init")
if nil != err {
return nil, err
}
proc.Call(uintptr(unsafe.Pointer(&l.handler)), uintptr(N))
proc, err = l.dll.FindProc("getInputs")
if nil != err {
return nil, err
}
xh := (*reflect.SliceHeader)(unsafe.Pointer(&l.X))
yh := (*reflect.SliceHeader)(unsafe.Pointer(&l.Y))
xh.Len, xh.Cap, yh.Len, yh.Cap = N, N, N, N
proc.Call(l.handler,
uintptr(unsafe.Pointer(&xh.Data)), uintptr(unsafe.Pointer(&yh.Data)))
return l, nil
}
func (l *Lib) Release() {
if nil != l.deinitProc && 0 != l.handler {
l.deinitProc.Call(l.handler)
}
if nil != l.dll {
l.dll.Release()
}
}
func (l *Lib) Dot() float32 {
var r float32
l.dotProc.Call(l.handler, uintptr(unsafe.Pointer(&r)))
return r
}
func main() {
lib, err := LoadLib()
if nil != err {
println(err.Error())
return
}
defer lib.Release()
rand.Seed(time.Now().Unix())
x, y := lib.X, lib.Y
for i := 0; i < N; i++ {
x[i], y[i] = rand.Float32(), rand.Float32()
}
t := time.Now()
var r float32
for i := 0; i < 100; i++ {
r = 0
for i := 0; i < N; i++ {
r += x[i] * y[i]
}
}
println(time.Now().Sub(t).Microseconds())
println(r)
t = time.Now()
for i := 0; i < 100; i++ {
r = lib.Dot()
}
println(time.Now().Sub(t).Microseconds())
println(r)
}
CPU 版仍約 120ms悄蕾,GPU 版進(jìn)一步下降到約 174ms帆调,其中 cudaMemcpy
下降到約 134ms
二番刊、內(nèi)存映射
CUDA 還提供了避免拷貝的內(nèi)存映射影锈,使用 cudaHostAlloc
分配固定內(nèi)存并映射到顯存,使核函數(shù)能夠訪問
c 端有改動(dòng)的代碼如下:
struct Ctx {
float *x, *y, *r;
size_t n;
};
extern "C" __declspec(dllexport) void init(Ctx **p, size_t n) {
Ctx *ctx = (Ctx *)malloc(sizeof(Ctx));
ctx->n = n;
size_t sz = sizeof(float) * n;
cudaHostAlloc(&(ctx->x), sz, cudaHostAllocMapped);
cudaHostAlloc(&(ctx->y), sz, cudaHostAllocMapped);
cudaMallocManaged(&(ctx->r), sizeof(float) * divCeil(n, NTB) / EXT);
*p = ctx;
}
extern "C" __declspec(dllexport) void deinit(Ctx *ctx) {
cudaFreeHost(ctx->x);
cudaFreeHost(ctx->y);
cudaFree(ctx->r);
free(ctx);
}
extern "C" __declspec(dllexport) void dot(Ctx *ctx, float *r) {
size_t nb = divCeil(ctx->n, NTB) / EXT;
float *rd = ctx->r;
devDot<<<nb, NTB>>>(ctx->x, ctx->y, ctx->n, rd);
cudaDeviceSynchronize();
float s = 0.0;
for (size_t i = 0; i < nb; i++) s += rd[i];
*r = s;
}
CPU 版仍約 120ms潜必,GPU 版進(jìn)一步下降到約 156ms,其中 cudaMemcpy
已不再需要佛吓,而 devDot
卻上升到約 125ms,因?yàn)楹驮L問顯存相比维雇,訪問內(nèi)存產(chǎn)生嚴(yán)重的性能損耗
三、統(tǒng)一尋址
CUDA 6.0 開始提供統(tǒng)一尋址機(jī)制逸贾,使用 cudaMallocManaged
分配統(tǒng)一尋址的內(nèi)存铝侵,透明地在內(nèi)存和顯存間進(jìn)行映像触徐,兩邊都能訪問
c 端有改動(dòng)的代碼如下:
extern "C" __declspec(dllexport) void init(Ctx **p, size_t n) {
Ctx *ctx = (Ctx *)malloc(sizeof(Ctx));
ctx->n = n;
size_t sz = sizeof(float) * n;
cudaMallocManaged(&(ctx->x), sz);
cudaMallocManaged(&(ctx->y), sz);
cudaMallocManaged(&(ctx->r), sizeof(float) * divCeil(n, NTB) / EXT);
*p = ctx;
}
extern "C" __declspec(dllexport) void deinit(Ctx *ctx) {
cudaFree(ctx->x);
cudaFree(ctx->y);
cudaFree(ctx->r);
free(ctx);
}
喜訊撞鹉!喜訊!GPU 終于贏了享郊!CPU 版仍約 120ms崔慧,GPU 版進(jìn)一步下降到約 86ms,其中 devDot
約 9.577ms温自,與 CPU 版的比值約為 7.98%皇钞,比上一篇稍慢一點(diǎn)。cudaMemcpy
也不存在了馆里,而主要的性能損耗變成了之前毫不顯眼的 cudaLaunchKernel
等 CUDA 運(yùn)行時(shí)鸠踪。
Licensed under CC BY-SA 4.0