问题描述
现在我有一个16K*16K的大矩阵,全局内存不够用。如何计算矩阵的二维FFT?
解决方法
也许使用 cuFFT 可以使用统一内存进行超额订阅?
https://developer.nvidia.com/blog/unified-memory-cuda-beginners/
您还可以分别对行和列进行 FFT,并在主机内存之间来回移动数据。
您需要完整的结果矩阵吗?你在 CPU 和 GPU 上有多少内存?输入/输出是复数值吗?您需要什么精度(16 位就足够了)?计算时间要求高吗?您还想处理更大的矩阵吗?