使用AVX512,从存储器进行4路按字节交织4x 16字节向量 性能分析混合数据顺序的替代策略,除非您具有AVX512VBMI

问题描述

avx512 向量可以容纳64个int8值。 我想做以下事情:

  1. 从内存位置a加载16个连续值,说它们是1
  2. 从内存位置b加载16个连续值,说它们是2
  3. 从内存位置c加载16个连续值,说它们是3
  4. 从内存位置d加载16个连续值,说它们是4
  5. 产生具有以下模式的 avx512 向量:123412341234 ... 1234。

注意:与上面的示例一样,预计内存加载中的16个值将不相同。

我知道如何通过加载然后随机播放来实现此功能。 但是,我想知道最有效的方法是从已注册的已使用数量和预期吞吐量方面。

也许有一些针对此目的而优化的怪异指令。

谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)