了解延迟有界 memcpy/memset x86_64

问题描述

我一直在查看一些 stackoverflow 帖子(Why is std::fill(0) slower than std::fill(1)?Enhanced REP MOVSB for memcpy),决定最佳 memcpy/memset 策略的一个因素似乎是操作是否会受到延迟或 DRAM 带宽限制。要点之一是 rep movsb 的切换延迟比我不理解的正常写入更长。

为什么 ERMSB rep movsb 比 memcpy/memset 的 movaps(或任何其他正常写入)循环具有更长的切换延迟 em>

BeeOnRope commented 写:

上面描述的 rep movsb 与单个内核上不同缓冲区大小的显式 movap 循环的行为与我们之前在服务器内核上看到的非常一致。正如您所指出的,竞争是非 RFO 协议 [Read For Ownership] 和 RFO 协议之间的竞争。前者在所有缓存级别之间使用较少的带宽,但特别是在服务器芯片上,一直到内存的切换延迟很长。由于单核通常并发受限,延迟很重要,非 RFO 协议获胜,这就是您在 30 MB L3 以外的区域看到的

然而,在 Enhanced REP MOVSB for memcpy 中,BeeOnRope 说

但是,如果您的并发受限,情况就会平衡,但有时会逆转。您有 DRAM 带宽可供备用,因此 NT 存储无济于事,它们甚至会受到伤害,因为它们可能会增加延迟,因为线路缓冲区的切换时间可能比预取将 RFO 线路带入 LLC(甚至L2),然后存储在 LLC 中完成以有效降低延迟。最后,服务器 uncore 的 NT 存储往往比客户端慢得多(和高带宽),这加剧了这种影响。

我无法理解非 RFO 方法 (rep movsb) 如何具有更长的延迟切换,并解释了延迟切换来自何处是 LFB(行填充缓冲区)是否必须切换到缓存在 L2/LLC 或 DRAM 中。

Enhanced REP MOVSB for memcpy 帖子讨论了 rep movsb 的优点,其中:

立即准确地发出预取​​请求。硬件预取在检测类似 memcpy 的模式方面做得很好,但它仍然需要几次读取才能启动,并且会“过度预取”超出复制区域末尾的许多缓存行。 rep movsb 确切知道区域大小并且可以准确预取。

鉴于 rep movsb 正在预取(比 movaps 循环更有效),您是否期望 LFB 至少在L2/LLC 与 movaps 循环相比。如果是这种情况,我不明白:

前者在所有缓存级别之间使用的带宽较少,但特别是在服务器芯片上,一直到内存的切换延迟很长

特别是长延迟切换是否来自。

所以我的问题是

  1. rep movsb 中 LFB 的额外切换延迟来自哪里?
  2. 更一般地说,是什么导致了 rep movsb 和 memcpy/memset 中的延迟界限?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...