作為專門為科學(xué)計(jì)算設(shè)計(jì)的編程語(yǔ)言晚凿,Julia 在分布式瞧剖、GPU 甚至 TPU 計(jì)算方面提供了許多豐富易用的特性。我們首先來(lái)嘗試一下在 Julia 中如何進(jìn)行 GPU 并行計(jì)算晕城。
安裝一些 Julia 的 CUDA GPU 計(jì)算包
using Pkg
Pkg.add("CuArrays")
Pkg.add("CUDAdrv")
Pkg.add("CUDAnative")
Pkg.add("GPUArrays")
Pkg.test("CUDAnative")
[ Info: Testing using device GeForce GTX 960M
Test Summary: | Pass Total
CUDAnative | 253 253
Testing CUDAnative tests passed
首先電腦上必須安裝了 CUDA 驅(qū)動(dòng)。
GPUArrays 是為 Julia GPU 計(jì)算提供基礎(chǔ),它實(shí)現(xiàn)了一個(gè)專門用于高度并行硬件的抽象數(shù)組担租。它包含了設(shè)置 GPU、啟動(dòng) Julia GPU 函數(shù)抵怎、提供一些基本數(shù)組算法等所有必要功能奋救。
抽象意味著它需要以 CuArrays 和 CLArrays 的形式實(shí)現(xiàn)。在 nvidia gpu 環(huán)境下使用 CuArrays反惕。CuArrays 是基于 CUDAdrv 和 CUDAnative 的尝艘,它是 GPUArrays 的具體實(shí)現(xiàn),相比 CUDAnative 有助于減少代碼重復(fù)姿染,因?yàn)樗试S編寫(xiě)?yīng)毩⒂谟布?GPU 內(nèi)核背亥,這些內(nèi)核可以通過(guò) CuArrays 或 CLArrays 編譯到本地的 GPU 代碼。
比較 GPU 計(jì)算與 CPU 計(jì)算的速度
using CUDAdrv
using CuArrays: CuArray
println(CUDAdrv.name(CuDevice(0)))
for Typ in (CuArray, Array)
x = Typ(ones(Float32, 5000000))
y = Typ(zeros(Float32, 5000000))
t = @elapsed begin
for i in 0:100
for j in 0:100
y .= x .* 3.2
GPUArrays.synchronize(y)
end
end
end
if y isa CuArray
println("GPU time: ", t)
else
println("CPU time: ", t)
end
end
代碼分別在 GPU 和 CPU 上遍歷數(shù)組進(jìn)行計(jì)算盔粹,注意這里的 GPUArrays.synchronize(y)
隘梨,類似這樣的代碼在并行計(jì)算中很常見(jiàn),目的是等待所有 GPU 核完成計(jì)算達(dá)到同步的效果舷嗡,最終結(jié)果為:
GeForce GTX 960M
GPU time: 10.947028445
CPU time: 33.612801334
可以看到 GPU 的運(yùn)算速度明顯比 CPU 快轴猎,并且這種優(yōu)勢(shì)在數(shù)據(jù)量更大是更加明顯,可以穩(wěn)定地將速度提高 60-80 倍进萄。
坑
我第一次是在安裝 CuArrays 之前安裝的 CUDAdrv 和 CUDAnative捻脖,這樣會(huì)報(bào)錯(cuò):Unsatisfiable requirements detected for package
解決方案是卸載 CUDAdrv 和 CUDAnative锐峭,先安裝 CuArrays 再安裝 CUDAdrv 和 CUDAnative。參考 github issue:https://github.com/JuliaGPU/CuArrays.jl/issues/232
參考資料:
https://nextjournal.com/sdanisch/julia-gpu-programming
https://julialang.org/blog/2017/03/cudanative