
8篇文章 · 5389字 · 1人關注
主要參考 論文 Huang, 2018 (arxiv.org)[https://arxiv.org/abs/1808.07984] 性能可達到 ...
cuda transpose 可以使用 thrust ,cublas,cublasLt來實現(xiàn)以下這段代碼使用 cublasLt 的api cu...
寫了一個明明沒啥 bank conflict的測試代碼剧罩,nsight compute卻顯示有 bank conflict. Shared mem...
到達syncthreads的線程繼續(xù)運行下去的條件是 block內(nèi)所有threads 都到達了syncthreads同步點 或者 矾飞, 停在syn...
/cutlass/include/cutlass/reduction/device/tensor_reduce.h 怎么感覺只對4維的tenso...
從數(shù)組中過濾只有 奇數(shù)的值一膨。
參考博客1[https://developer.nvidia.com/blog/inside-volta/] 參考博客2[https://dev...
前綴和 : 給定長度為的數(shù)組 ,對所有索引 計算,數(shù)組的長度也是 。舉個例子如果 ,則前綴和 數(shù)組 樸素的計算方法是依次掃描累加 各個元素洒沦,每...