L1-Dcache是终极数据缓存吗，DSB也是gem5可以模拟的缓存吗？

问题描述

我想知道 L1-Dcache 是否是数据来源的最终缓存。因为我知道 i-cache 有一个更接近 cpu 的 DSB，可以看作是 L0-icache。
另外，我对哪些硬件更改会影响 DSB 的性能感兴趣？我的意思是缓存，有诸如缓存大小、缓存关联性之类的东西。但 DSB 是否也只是受这些因素影响的缓存？
如果是的话，我可以使用 gem5 模拟结果吗？我知道使用 gem5，我可以配置 L1 指令缓存并观察 L1 指令缓存性能。如何在 gem 上为 DSB 做同样的事情？

解决方法

我想知道L1-Dcache是不是数据来自的终极缓存

是的，或者存储缓冲区。 Globally Invisible load instructions 解释了部分存储转发如何让核心加载从未全局可见的双字值，因此其他核心无法加载。

DSB（uop 缓存）是一个缓存，但它不缓存机器代码。将 x86 机器码的解码结果缓存为 uops。

它有各种限制，例如不能对来自同一个 32 字节 x86 机器代码块的 uops 使用超过 3 个“行”，因此建模不是只是大小/关联性那么简单。例如每条路（又名线）最多可容纳 6 个 uop，但以无条件（或预测采用）分支 uop 结束。多 uop 指令中的所有 uop 都必须在同一行中。

来自每条 x86 指令的融合域 uops 的数量取决于它是什么指令；参见 https://uops.info/，但请注意，un-lamination 意味着某些指令在发布/重命名阶段和 ROB 中比解码器和 uop-cache 需要更多的 uop。 (Micro fusion and addressing modes)

Agner Fog 的 microarch 指南有一些详细的测试结果 (https://agner.org/optimize/)，另见 https://www.realworldtech.com/sandy-bridge/4/

Intel uop 缓存的基本参数，如 Sandybridge 部分 Agner 的微架构指南中所述：

µop 缓存被组织为 32 组 x 8 路 x 6 µop，总共最大容量为 1536 微操作。它可以为每个对齐的和连续的 32 字节代码块。

AFAIK，这个几何形状从 SnB 到 Skylake 和 Ice Lake 一直保持不变。

L1i 缓存包含 uop 缓存。 uop 缓存是虚拟寻址的，因此不需要 TLB 查找。但我猜它也必须在 TLB 失效时被驱逐。（这不是一个大问题，因为传统解码器非常好；Sandybridge 系列避免了 P4 解码缓慢的问题，并尝试使用其跟踪缓存代替普通 L1i。）

请注意，AMD 的 Zen 微架构系列也使用 uop 缓存。他们不称其为 DSB，它可能与 Intel 的有些不同。

此外，我对哪些硬件更改会影响 DSB 的性能感兴趣？

Skylake 将 uop-cache -> IDQ 的带宽从每周期 4 uop 增加到 6 uop。因此，即使在高吞吐量代码中，在气泡部分耗尽 IDQ 后，uop 缓存也可以“赶上”。

尽管如此，它每个周期仍然只能读取 1 个 uop 缓存行，因此例如在微代码更新禁用循环缓冲区 (LSD) 的 Skylake 上，通常每次迭代运行 1 个周期的小循环可能会减慢到如果循环跨 32 字节边界拆分，则为 2 个周期，因为这意味着它的 uops 将位于 2 个单独的 uop-cache 行中。（比如每行 1 或 2 个。）

但是 Haswell 可以在理想条件下从 uop 缓存中维持每个时钟的 4 uop，即使指令以每行 6 uop 完全打包 uop 缓存行也是如此。因此，在 uop 缓存行获取和添加到 IDQ 之间显然存在一些缓冲，否则如果添加到 IDQ 的所有 uop 必须来自同一行，则它将是 4 : 2 模式。

cpu cpu cpu-architecture cpu-cache gem5 intel

L1-Dcache是​​终极数据缓存吗，DSB也是gem5可以模拟的缓存吗？

问题描述

解决方法

L1-Dcache是终极数据缓存吗，DSB也是gem5可以模拟的缓存吗？