使用AVX512，从存储器进行4路按字节交织4x 16字节向量性能分析混合数据顺序的替代策略，除非您具有AVX512VBMI

编程问答 2022-06-07

问题描述

avx512 向量可以容纳64个int8值。我想做以下事情：

从内存位置a加载16个连续值，说它们是1
从内存位置b加载16个连续值，说它们是2
从内存位置c加载16个连续值，说它们是3
从内存位置d加载16个连续值，说它们是4
产生具有以下模式的 avx512 向量：123412341234 ... 1234。

注意：与上面的示例一样，预计内存加载中的16个值将不相同。

我知道如何通过加载然后随机播放来实现此功能。但是，我想知道最有效的方法是从已注册的已使用数量和预期吞吐量方面。

也许有一些针对此目的而优化的怪异指令。

谢谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

avx512 micro-optimization x86-64