c – xorshift128的AVX / SSE版本

我正在努力做出最快的高质量RNG.阅读 http://xorshift.di.unimi.it/后,xorshift128似乎是一个很好的选择. C代码
#include <stdint.h>
uint64_t s[ 2 ];

uint64_t next(void) { 
    uint64_t s1 = s[ 0 ];
    const uint64_t s0 = s[ 1 ];
    s[ 0 ] = s0;
    s1 ^= s1 << 23; // a
    return ( s[ 1 ] = ( s1 ^ s0 ^ ( s1 >> 17 ) ^ ( s0 >> 26 ) ) ) + s0; // b,c
}

我不是SSE / AVX专家,但我的cpu支持SSE4.1 / SSE4.2 / AVX / F16C / FMA3 / XOP指令.您如何使用这些代码来加速这个代码(假设你想要制造数十亿个这样的随机数),这个加速的实际预期限制是多少?

解决方法

XorShift确实是一个不错的选择.它是如此的好,这么快,需要这么少的状态,我很惊讶,看到这么少的采纳.它应该是所有平台上的标准生成器. 8年前我自己实现了,即使这样也可以产生800MB / s的随机字节.

您不能使用向量指令来加快生成单个随机数.这几个指令中的指令级并行度太少.

但是,您可以轻松加快产生N个数字,其中N是目标指令集的向量大小.只需运行N个发电机并联.保持N个发生器的状态并同时生成N个数字.

如果客户端代码一次需要一个数字,则可以保留N(或更多)个数字的缓冲区.如果缓冲区为空,则使用向量指令进行填充.如果缓冲区不为空,您只需返回下一个数字.

相关文章

本程序的编译和运行环境如下(如果有运行方面的问题欢迎在评...
水了一学期的院选修,万万没想到期末考试还有比较硬核的编程...
补充一下,先前文章末尾给出的下载链接的完整代码含有部分C&...
思路如标题所说采用模N取余法,难点是这个除法过程如何实现。...
本篇博客有更新!!!更新后效果图如下: 文章末尾的完整代码...
刚开始学习模块化程序设计时,估计大家都被形参和实参搞迷糊...