如何使用CUDA计算大矩阵的二维FFT？

现在我有一个16K*16K的大矩阵，全局内存不够用。如何计算矩阵的二维FFT？

也许使用 cuFFT 可以使用统一内存进行超额订阅？

您还可以分别对行和列进行 FFT，并在主机内存之间来回移动数据。

您需要完整的结果矩阵吗？你在 CPU 和 GPU 上有多少内存？输入/输出是复数值吗？您需要什么精度（16 位就足够了）？计算时间要求高吗？您还想处理更大的矩阵吗？