Haswell AVX / FMA延迟测试时间比英特尔指南慢了1个周期

问题描述

在《英特尔技术指南》中，vmulpd和vfmadd213pd的延迟为5，vaddpd的延迟为3。

我写了一些测试代码，但是所有结果都慢了1个周期。

这是我的测试代码：

.CODE
test_latency PROC
    vxorpd  ymm0,ymm0,ymm0
    vxorpd  ymm1,ymm1,ymm1

loop_start:
    vmulpd  ymm0,ymm1
    vmulpd  ymm0,ymm1
    sub     rcx,4
    jg      loop_start

    ret
test_latency ENDP
END

#include <stdio.h>
#include <omp.h>
#include <stdint.h>
#include <windows.h>

extern "C" void test_latency(int64_t n);

int main()
{
    SetThreadAffinityMask(GetCurrentThread(),1);   // Avoid context switch
    
    int64_t n = (int64_t)3e9;
    double start = omp_get_wtime();
    test_latency(n);
    double end = omp_get_wtime();
    double time = end - start;
    
    double freq = 3.3e9;    // My CPU frequency
    double latency = freq * time / n;
    printf("latency = %f\n",latency);
}

我的CPU是Core i5 4590，我将其频率锁定在3.3GHz。输出为：latency = 6.102484。

足够奇怪，如果我将vmulpd ymm0,ymm1更改为vmulpd ymm0,ymm0，那么输出将变成：latency = 5.093745。

有解释吗？我的测试代码有问题吗？

更多结果

results on Core i5 4590 @3.3GHz
vmulpd  ymm0,ymm1       6.056094
vmulpd  ymm0,ymm0       5.054515
vaddpd  ymm0,ymm1       4.038062
vaddpd  ymm0,ymm0       3.029360
vfmadd213pd ymm0,ymm1   6.052501
vfmadd213pd ymm0,ymm0   6.053163
vfmadd213pd ymm0,ymm1   6.055160
vfmadd213pd ymm0,ymm0   5.041532

(without vzeroupper)
vmulpd  xmm0,xmm0,xmm1       6.050404
vmulpd  xmm0,xmm0       5.042191
vaddpd  xmm0,xmm1       4.044518
vaddpd  xmm0,xmm0       3.024233
vfmadd213pd xmm0,xmm1   6.047219
vfmadd213pd xmm0,xmm1,xmm0   6.046022
vfmadd213pd xmm0,xmm1   6.052805
vfmadd213pd xmm0,xmm0   5.046843

(with vzeroupper)
vmulpd  xmm0,xmm1       5.062350
vmulpd  xmm0,xmm0       5.039132
vaddpd  xmm0,xmm1       3.019815
vaddpd  xmm0,xmm0       3.026791
vfmadd213pd xmm0,xmm1   5.043748
vfmadd213pd xmm0,xmm0   5.051424
vfmadd213pd xmm0,xmm1   5.049090
vfmadd213pd xmm0,xmm0   5.051947

(without vzeroupper)
mulpd   xmm0,xmm1             5.047671
mulpd   xmm0,xmm0             5.042176
addpd   xmm0,xmm1             3.019492
addpd   xmm0,xmm0             3.028642

(with vzeroupper)
mulpd   xmm0,xmm1             5.046220
mulpd   xmm0,xmm0             5.057278
addpd   xmm0,xmm1             3.025577
addpd   xmm0,xmm0             3.031238

我的GUESS

我这样更改了test_latency：

.CODE
test_latency PROC
    vxorpd  ymm0,ymm1

loop_start:
    vaddpd  ymm1,ymm1  ; added this line
    vmulpd  ymm0,4
    jg      loop_start

    ret
test_latency ENDP
END

最后我得到5个周期的结果。还有其他说明可以达到相同的效果：

vmovupd     ymm1,ymm0
vmovupd     ymm1,[mem]
vmovdqu     ymm1,[mem]
vxorpd      ymm1,ymm1
vpxor       ymm1,ymm1
vmulpd      ymm1,ymm1
vshufpd     ymm1,0

但是这些说明不能：

vmovupd     ymm1,ymm2  ; suppose ymm2 is zeroed
vpaddq      ymm1,ymm1
vpmulld     ymm1,ymm1
vpand       ymm1,ymm1

对于ymm指令，我想避免1个额外周期的条件是：

所有输入均来自同一域。
所有输入都足够新鲜。（从旧的价值中移走是行不通的）

对于VEX xmm，情况似乎有些模糊。看来与上半部状态有关，但我不知道哪个更清洁：

vxorpd      ymm1,ymm1
vxorpd      xmm1,xmm1
vzeroupper

对我来说很困难。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

avx cpu-architecture intel performance x86-64