如何使用CUDA计算大矩阵的二维FFT?

问题描述

现在我有一个16K*16K的大矩阵,全局内存不够用。如何计算矩阵的二维FFT?

解决方法

也许使用 cuFFT 可以使用统一内存进行超额订阅?

https://developer.nvidia.com/blog/unified-memory-cuda-beginners/

您还可以分别对行和列进行 FFT,并在主机内存之间来回移动数据。

您需要完整的结果矩阵吗?你在 CPU 和 GPU 上有多少内存?输入/输出是复数值吗?您需要什么精度(16 位就足够了)?计算时间要求高吗?您还想处理更大的矩阵吗?