问题描述
avx512 向量可以容纳64个int8值。 我想做以下事情:
- 从内存位置a加载16个连续值,说它们是1
- 从内存位置b加载16个连续值,说它们是2
- 从内存位置c加载16个连续值,说它们是3
- 从内存位置d加载16个连续值,说它们是4
- 产生具有以下模式的 avx512 向量:123412341234 ... 1234。
注意:与上面的示例一样,预计内存加载中的16个值将不相同。
我知道如何通过加载然后随机播放来实现此功能。 但是,我想知道最有效的方法是从已注册的已使用数量和预期吞吐量方面。
也许有一些针对此目的而优化的怪异指令。
谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)