TAGE 预测精度通过循环在更大的阵列上提高？

问题描述

代码片段遍历一维矩阵。（N是矩阵的大小）。

for (i=0; i< N; i++) // outer loop for Rows

当我在处理器模拟器上运行这段代码来测量 TAGE 准确度时，我意识到随着数组大小 (N) 的增加，TAGE 准确度会增加。

这是什么原因？

解决方法

循环分支通常只在最后一次迭代时在执行失败而不是跳到循环顶部时错误预测。（出于相当明显的原因：他们很快就知道分支总是被采用，并以这种方式进行预测。）

您的循环运行的迭代次数越多，对于相同数量的错误预测的未采用特殊情况，您就越能正确预测采用的分支。

有趣的事实：在现代 Intel CPU（如 Haswell / Skylake）上，它们的 IT-TAGE branch predictors 可以“学习”最多约 22 次迭代的模式，正确预测循环退出。使用非常长的外循环给 CPU 时间来学习模式，仅运行 22 次或更少迭代的内循环往往甚至可以正确预测循环退出分支。因此，如果循环体非常简单，那么当内循环大小超过该点时，性能（和指令吞吐量）会显着下降。

但可能需要多次外循环迭代才能训练具有这么多历史的预测器。我正在测试 1000 万次左右的外循环迭代，以在 Linux 下的真实硬件上使用 perf stat 平均整个过程的噪音和启动开销。所以启动/学习阶段可以忽略不计。

使用较旧的更简单的分支预测器（在 TAGE 之前），我认为一些 CPU 确实使用计数器来实现循环模式预测，以预测每次到达时运行恒定次数迭代的内部循环的循环退出。 https://danluu.com/branch-prediction/ 同样说，“现代 CPU”“经常”有这样的预测器。

branch-prediction cpu-architecture