c – 分支或乘法更有效吗?

我正在尝试优化一个小的,高度使用的函数,该函数使用无符号short int中的高位来指示要一起求和的数组值.起初我使用下面显示的明显方法.请注意,循环展开未明确显示,因为它应由编译器完成.
int total = 0;
for(unsigned short mask = 0x0001,j = 0; mask != 0; mask <<= 1,j++){
    if (i & mask){
        total += value[j];
    }
}

但是,后来我认为删除分支以帮助cpu流水线操作可能会更好,并提出以下建议.

int total = 0;
for(unsigned short mask = 0x0001,j++){
    total += ((i & mask) != 0) * value[j];
}

请注意,由于(i& mask)不会产生布尔答案,因此与0的比较会强制结果为1或0.虽然第二种方法代码的这一部分中删除了if语句,但第二种解决方案除了等式的其余部分之外,还需要在每次迭代时运行0或1的乘法.

哪个代码运行得更快?

解决方法

如果没有乘法,你可以使它无分支.看起来对于每个位集,您使用该位位置作为数组的索引.

首先,您可以轻松提取设置的位:

unsigned short set_mask= i & -i;
i&= i - 1;

然后,您可以通过计算(set_mask – 1)中设置的位来获取位索引.这是一个恒定的时间公式.

某些平台也有一个内在函数获取位集的位索引,这可能更快. x86有bsr,PPC有cntlz.

所以答案是无分支无乘版本可能是最快的:)

相关文章

本程序的编译和运行环境如下(如果有运行方面的问题欢迎在评...
水了一学期的院选修,万万没想到期末考试还有比较硬核的编程...
补充一下,先前文章末尾给出的下载链接的完整代码含有部分C&...
思路如标题所说采用模N取余法,难点是这个除法过程如何实现。...
本篇博客有更新!!!更新后效果图如下: 文章末尾的完整代码...
刚开始学习模块化程序设计时,估计大家都被形参和实参搞迷糊...