理解`_mm_prefetch`

我的问题是：我想要哪一个？

我正在研究一个被重复调用数十亿次的函数，其中包含一些 int 参数。我做的第一件事是使用该参数（它的低 32 位）作为 4GB 缓存的键来查找一些缓存值。根据调用此函数的算法，我知道该键通常会从一次调用加倍（左移 1 位）到下一次调用，所以我正在这样做：

int foo(int key) {
  uint8_t value = cache[key];
  _mm_prefetch((const char *)&cache[key * 2],_MM_HINT_T2);
  // ...

目标是在下次调用此函数时将此 value 放入处理器缓存中。

我正在寻求确认我对两点的理解：

该函数使用了一个包含 128 个 128 位值（总共 2 KB）的查找表。有没有办法“强制”缓存它？该查找表的索引按顺序递增；我也应该预取它们吗？我可能应该使用另一个提示来指向另一个级别的缓存？这里最好的策略是什么？

正如我在评论中所指出的，预取错误地址存在一些风险 - 有用的地址将从缓存中逐出，从而可能导致缓存未命中。

说：

_mm_prefetch 编译成 PREFETCHn 指令。我在 AMD 发布的 AMD64 Architecture Programmer's Manual 中查找了说明。（请注意，所有这些信息都必须特定于芯片组；您可能需要找到 CPU 的文档）。

AMD 说（我的重点）：

该指令的操作依赖于实现。处理器实现可以忽略或更改此指令。缓存行的大小也取决于实现，最小大小为 32 字节。 AMD 处理器将 PREFETCH1 和 PREFETCH2 别名为 PREFETCH0

这似乎意味着如果您在 AMD 上运行，则该提示将被忽略，并且内存将加载到所有级别的缓存中 -- 除非这是一个提示它是一个 NTA（非临时访问，尝试以最小的缓存污染加载内存）。

这是说明的完整页面

我认为最后，指导就是另一个答案所说的：头脑风暴、实施、测试和衡量。您正处于性能的最前沿，并且不会有一个一刀切的答案。

另一个可以帮助您的资源是 Agner Fog's Optimization manuals，它将帮助您针对特定的 CPU 进行优化。

如果您做任何与性能相关的事情，了解您需要什么的最佳和最终方法就是尝试。幸运的是，您确切地知道该尝试什么，并且只有几种可能性。

关于你的理解——是的，它是正确的。但是，任何事情都是有代价的（例如，如果您向代码中添加任何指令，处理器将浪费一纳秒来执行它）。您应该通过测量前后的性能来验证您的预取想法。对于非常不规则的访问模式，它很可能奏效。

关于预取任何顺序数据 - 您可能不应该打扰。缓存以 64 字节的粒度保存数据，因此对于顺序数据，预取通常无济于事。此外，一些（所有？）缓存具有预测加载功能——即使没有被告知，它们也会提前预取。