AMD：TLB 未命中周期的性能计数器

问题描述

我正在寻找 AMD 特定的性能计数器，当发生 TLB 未命中时，它会计算页面遍历消耗的周期数。我知道英特尔有这样的指标。

但是这样的东西在 AMD 上存在吗？我查看了 http://developer.amd.com/wordpress/media/2013/12/56255_OSRR-1.pdf，但没有找到任何接近我需要的东西。

我还查看了 perf 源代码 https://elixir.bootlin.com/linux/latest/source/arch/x86/events/amd/core.c#L248 它似乎也没有。

可能有不同的名字？有什么建议吗？

解决方法

在我看来，您正在寻找类似于英特尔在 AMD Zen 处理器上的 *.WALK_DURATION 或 *.WALK_ACTIVE 的事件。没有具有完全相同含义的此类事件，但存在类似的事件。

最接近的事件是 IBS 性能数据字段 IbsTlbRefillLat 和 IbsItlbRefillLat，它们分别测量在所选项目未命中的情况下完成 L1 DTLB 或 L1 ITLB 未命中所需的周期数指令获取或 uop。请注意，在 perf record 中，IbsTlbRefillLat 可以使用 ibs_fetch PMU 捕获，而 IbsItlbRefillLat 可以使用 ibs_op PMU 捕获。

事件 Core::X86::Pmc::Core::LsTwDcFills 也很有用。它计算每个数据源（本地 L2、同一芯片上的 L3、另一个芯片上的 L3、同一芯片上的 DRAM 或 IO、另一个芯片上的 DRAM 或 IO）在 L1 中未命中的页表遍历的 L1 数据缓存填充数死）。从更远的来源完成的步行更昂贵，并且可能会对性能产生更大的影响。此事件不计算 L1 数据缓存中命中的遍历，尽管还有其他事件计算 L2 TLB 未命中。此外，此事件仅计入 L2 DTLB 未命中，而不计入 ITLB 未命中。

在上游内核的当前版本中，LsTwDcFills 没有被 perf list 列出，因此 perf 不知道事件的名称。因此，您必须使用语法 cpu/event=0x5B,umask=0x0/ 指定事件代码。此事件表示数据加载或存储的任何页表遍历，其中存在已分配的 MAB（意味着遍历器在 L1D 中丢失）。您可以通过指定手册中定义的适当 umask 值，根据响应过滤计数。例如，事件 cpu/event=0x5B,umask=0x48/ 表示响应来自本地或远程主内存的步行。

将所有这些监控设施用作整体微架构性能分析方法的一小部分的一个好方法是首先监控 LsTwDcFills。如果与内存访问的总数（不包括指令提取）相比，它超过了某个阈值，则捕获 IbsTlbRefillLat 以获取采样的 uops 以定位代码中发生这些代价高昂的遍历的位置。类似地，对于指令提取遍历，使用事件 Core::X86::Pmc::Core::BpL1TlbMissL2Hit 来计算总遍历，如果计数相对于提取总数而言太大，请使用 IbsItlbRefillLat 来定位代码中发生开销最大的遍历的位置.

mmu perf performance tlb