将 xmm 寄存器的低两个 32 位浮点数扩展为整个 xmm 寄存器

问题描述

在 Intel x86 汇编中执行以下操作的最有效方法是什么(ab 是 32 位浮点数):

xmm1: [-,-,a,b]xmm1: [a,b,b]

我找不到任何有用的说明。
我的想法是将 ab 复制到其他寄存器,然后将 xmm1 寄存器移动 4 个字节并移动 ab 到最低 4 个字节。

解决方法

您正在寻找 unpcklps xmm1,xmm1 (https://www.felixcloutier.com/x86/unpcklps) 来将寄存器中的低元素与其自身交错:
低元素 -> 底部 2,从第二低到高 2。

您可以改为使用 shufps ,但在这种情况下不会更好,并且需要立即字节。要复制和洗牌,您可以使用 pshufd,但在少数 CPU 上,整数指令在 FP 指令之间较慢(但它通常仍然比 movaps + unpcklps 好。有要么没有旁路延迟,要么是 1 个周期,而 movaps 将花费相同的延迟,但也会消耗一些吞吐量资源。除了 Nehalem,旁路延迟将是 2 个周期。我认为任何具有 mov-elimination 的 CPU 都不会为 shuffle 提供旁路延迟,但是也许有些 AMD 会这样做。)


如果您在找到正确的 shuffle 指令时遇到困难,请考虑用 C 编写它,看看 clang 是否可以将它变成一个 shuffle 指令。喜欢_mm_set_ps(v[1],v[1],v[0],v[0])。一般来说,它不会总是编译成好的 asm,但值得一试 clang -O3 (clang 有一个非常好的随机优化器)。在这种情况下,GCC 和 clang 都想出了如何用一个 unpcklps xmm0,xmm0 (https://godbolt.org/z/o6PTeP) 而不是可能发生的灾难来做到这一点。或者用 shufps xmm0,xmm0,5 反过来(5 是 0b00'00'01'01)。

(请注意,将 __m128 索引为 v[idx] 是一个 GNU 扩展,但我只是建议使用 clang 来找到一个好的 shuffle。如果您最终想要内在函数,请检查 clang 的 asm 然后在您的代码中使用内在函数,而不是 _mm_set)

另请参阅 Agner Fog 的优化指南 (https://agner.org/optimize/) 中的 SIMD 章节;他有一个很好的指令表,可以考虑不同类型的数据移动。 https://www.officedaytime.com/simd512e/simd.html 也有一个很好的视觉快速参考,https://software.intel.com/sites/landingpage/IntrinsicsGuide/ 允许您按类别(Swizzle = shuffles)和 ISA 级别过滤(因此您可以排除 AVX512,它具有每个内在函数的无数版本掩蔽。)

另请参阅 https://stackoverflow.com/tags/sse/info 了解这些链接及更多内容。


如果您不太了解可用指令(以及 CPU 架构/性能调整细节),您可能最好将 C 与内在函数结合使用。当您想出一种效率较低的方法来进行 shuffle 时,编译器可以找到更好的方法。例如编译器有望为您将 _mm_shuffle_ps(v,v,_MM_SHUFFLE(1,1,0)) 优化为 unpcklps

手写 asm 是正确的选择是非常罕见的,尤其是对于 x86。 编译器通常在内部函数方面做得很好,尤其是 GCC 和 clang。如果您不知道 unpcklps 的存在,那么您可能距离轻松/常规地击败编译器还有很长的路要走。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...