L1-Dcache是​​终极数据缓存吗,DSB也是gem5可以模拟的缓存吗?

问题描述

  1. 我想知道 L1-Dcache 是否是数据来源的最终缓存。因为我知道 i-cache 有一个更接近 cpu 的 DSB,可以看作是 L0-icache。

  2. 另外,我对哪些硬件更改会影响 DSB 的性能感兴趣?我的意思是缓存,有诸如缓存大小、缓存关联性之类的东西。但 DSB 是否也只是受这些因素影响的缓存?

  3. 如果是的话,我可以使用 gem5 模拟结果吗?我知道使用 gem5,我可以配置 L1 指令缓存并观察 L1 指令缓存性能。如何在 gem 上为 DSB 做同样的事情?

解决方法

我想知道L1-Dcache是​​不是数据来自的终极缓存

是的,或者存储缓冲区。 Globally Invisible load instructions 解释了部分存储转发如何让核心加载从未全局可见的双字值,因此其他核心无法加载。


DSB(uop 缓存) 是一个缓存,但它不缓存机器代码。将 x86 机器码的解码结果缓存为 uops。

它有各种限制,例如不能对来自同一个 32 字节 x86 机器代码块的 uops 使用超过 3 个“行”,因此建模不是 只是大小/关联性那么简单。例如每条路(又名线)最多可容纳 6 个 uop,但以无条件(或预测采用)分支 uop 结束。多 uop 指令中的所有 uop 都必须在同一行中。

来自每条 x86 指令的融合域 uops 的数量取决于它是什么指令;参见 https://uops.info/,但请注意,un-lamination 意味着某些指令在发布/重命名阶段和 ROB 中比解码器和 uop-cache 需要更多的 uop。 (Micro fusion and addressing modes)

Agner Fog 的 microarch 指南有一些详细的测试结果 (https://agner.org/optimize/),另见 https://www.realworldtech.com/sandy-bridge/4/

Intel uop 缓存的基本参数,如 Sandybridge 部分 Agner 的微架构指南中所述:

µop 缓存被组织为 32 组 x 8 路 x 6 µop,总共最大容量为 1536 微操作。它可以为每个对齐的和 连续的 32 字节代码块。

AFAIK,这个几何形状从 SnB 到 Skylake 和 Ice Lake 一直保持不变。

L1i 缓存包含 uop 缓存。 uop 缓存是虚拟寻址的,因此不需要 TLB 查找。但我猜它也必须在 TLB 失效时被驱逐。 (这不是一个大问题,因为传统解码器非常好;Sandybridge 系列避免了 P4 解码缓慢的问题,并尝试使用其跟踪缓存代替普通 L1i。)

请注意,AMD 的 Zen 微架构系列也使用 uop 缓存。他们不称其为 DSB,它可能与 Intel 的有些不同。


此外,我对哪些硬件更改会影响 DSB 的性能感兴趣?

Skylake 将 uop-cache -> IDQ 的带宽从每周期 4 uop 增加到 6 uop。因此,即使在高吞吐量代码中,在气泡部分耗尽 IDQ 后,uop 缓存也可以“赶上”。

尽管如此,它每个周期仍然只能读取 1 个 uop 缓存行,因此例如在微代码更新禁用循环缓冲区 (LSD) 的 Skylake 上,通常每次迭代运行 1 个周期的小循环可能会减慢到如果循环跨 32 字节边界拆分,则为 2 个周期,因为这意味着它的 uops 将位于 2 个单独的 uop-cache 行中。 (比如每行 1 或 2 个。)

但是 Haswell 可以在理想条件下从 uop 缓存中维持每个时钟的 4 uop,即使指令以每行 6 uop 完全打包 uop 缓存行也是如此。因此,在 uop 缓存行获取和添加到 IDQ 之间显然存在一些缓冲,否则如果添加到 IDQ 的所有 uop 必须来自同一行,则它将是 4 : 2 模式。