在编译中启用AVX512支持会大大降低性能

问题描述

我有一个使用静态库的C / C ++项目。该库是为“ skylake”架构而构建的。该项目是一个数据处理模块,即它执行许多算术运算,内存复制,搜索,比较等。

cpu是Xeon Gold 6130T,它支持AVX512。我尝试同时使用-march=skylake-march=skylake-avx512编译我的项目,然后链接到库。

在使用-march=skylake-avx512的情况下,与使用-march=skylake构建的项目相比,该项目的性能显着下降(平均降低30%)。

这怎么解释?可能是什么原因?

信息:

  • Linux 3.10
  • gcc 9.2
  • 英特尔至强金牌6130T

解决方法

项目绩效显着下降(平均降低30%)

在无法轻易将矢量零星的AVX指令向量化的代码中,您可以在CPU的下游或附近降低CPU的频率,但不会带来任何好处。在这种情况下,您可能希望完全关闭AVX指令。

请参见Advanced Vector Extensions,Downclocking

由于AVX指令更宽且产生更多的热量,因此英特尔处理器具有减少执行此类指令时Turbo Boost频率限制的规定。节流分为三个级别:

  • L0(100%):正常的涡轮增压极限。
  • L1(〜85%):“ AVX增强”限制。由256位“重”(浮点单位:FP数学和整数乘法)指令软触发。很难通过“轻”(所有其他)512位指令来触发。
  • L2(〜60%):“ AVX-512增强”限制。由512位重指令软触发。 频率转换可以是软的或硬的。硬过渡意味着一旦发现该指令,频率就会降低;软过渡意味着仅在达到匹配指令的阈值数量之后才降低频率。限制是每个线程。

降频意味着,在AVX与Intel处理器混合工作负载中使用时,尽管在“纯”环境中运行速度更快,但仍会导致频率损失。避免使用广泛而繁琐的说明有助于最大程度地减少这些情况下的影响。 AVX-512VL是仅在AVX-512中使用256位操作数的示例,这使其成为混合负载的明智默认值。

也请参见