确定块矩阵乘法的最佳块大小

问题描述

我正在尝试在单个处理器上实现分块（平铺）矩阵乘法。我已经阅读了关于为什么阻塞可以提高内存性能的文献，但我只是想问问如何确定最佳块大小。我需要执行 C+A*B，其中 A、B、C 是相同维度的浮点方阵。 3 个块应该一次放入缓存是有道理的，那么块大小应该是缓存大小除以 3 吗？或者块大小应该是别的东西？

最后，谁能提出一种可行的实验方法来确定我正在使用的超级计算机上的最佳块大小？我正在使用 GCC C。

解决方法

我正在尝试在单个处理器上实现分块（平铺）矩阵乘法。

请注意，2021 年大多数处理器都是 multi-core。您可能对POSIX pthreads感兴趣。见pthreads(7)。

我需要执行 C+A*B，其中 A、B、C 是相同维度的浮点方阵。 3 个块应该一次放入缓存是有道理的，那么块大小应该是缓存大小除以 3 吗？

我不是专家，但我觉得没那么简单。 CPU cache 大小通常是 2 的某个幂，并且您有多个缓存级别。

阅读 BLAS 并考虑使用它。

最后，谁能提出一种可行的实验方法来确定我正在使用的超级计算机上的最佳块大小？

我假设超级计算机运行 Linux，并且您可以使用一些 GCC 在其上编译 C 代码并执行它并 dlopen(3) 它，如果它被编译为 plugin。阅读 Drepper 的论文 How to write shared libraries 了解详情。

然后，在阅读 time(7) 之后，您可以编写一些 C 程序（受我的 manydl.c 启发）生成各种不同的临时 C 文件，定义使用不同块大小的 C 函数，编译 - 使用 system(3)- 一些带有 /tmp/generated1234.c、dlopen(3) 的 gcc -O3 -Wall -shared -fPIC /tmp/generated1234.c -o /tmp/generated1234.so 文件 "/tmp/generated1234.so"、dlsym(3) 这些 C 函数，通过指针调用它们，并测量每个此类插件的 CPU 时间。

我需要执行 C+A*B，其中 A、B、C 是相同维度的浮点方阵。

或者，一些超级计算机具有 OpenCL（或 CUDA）实现。您可以学习 OpenCL（或 CUDA）并在 OpenCL（或 CUDA）中编写一些关键的数值内核例程，或者像生成 C 代码一样生成 OpenCL（或 CUDA）代码。

当然你想要一个最近 GCC，例如GCC 10 在 2021 年春季。而且您可能想阅读所有可能的 optimization flags，包括 OpenACC 和 OpenMP

我什至猜想您可能会使用 machine learning 技术来找到最佳块大小....

另请阅读Open-MPI

注意 proc(5)

中记录的 /proc/cpuinfo

您还可以联系您所在国家/地区和其他地方的其他超级计算机用户。 Weather forecasting 组织（在法国，MeteoFrance）或在各个行业（汽车、国防、航空航天等）从事 CAD 工作的工程师都会浮现在脑海中。或者CERN（甚至我的雇主CEA）或来自ITER（欧洲）或LLNL（美国）的人

c cpu-cache matrix-multiplication memory-management