GCN体系结构的波前大小为64,但是本地内存只有32个...
我有一个 OpenCL 代码,它将 2 个矩阵 (GEMM) 与 M=...