给定一个类型为short short的len元素数组,可以找到数组中最大绝对值元素中设置的最高有效位的位置.例如,如果数组L包含{-134,123,-890},则f(L)应返回floor(log2(abs(-890)))1.
这是我目前的功能:
short MSBSetMaxMagnitude(const short *p,int len) { unsigned int t = 0; while (len > 0) { t |= abs(*p); p++; len--; } if(t) return (short)(32 - __builtin_clz(t)); else return 0; }
但是,由于abs()函数需要分支,因此速度有点慢.我尝试使用没有分支的abs(),但它甚至更慢,因为它包含至少3个算术指令.所以我希望有一种有效的算法可以找到我需要的东西.
解决方法
看到您在ARM平台上工作,您可以在2条指令中使用abs的以下实现:
EORS r1,r1,ASR #32 (x = x ^ (x >> 32); carry_flag = sign_bit) ADC r1,#0 (add the sign_bit to x)
如果在计算中可以容忍/ -1的错误,则删除第二条指令;那么,你可以用C表达它:
int abs_almost_exact(int x) { return x ^ (x >> 32); }
但更大的问题是循环.您可能会从展开中获益很多(因为每次迭代都没那么做):
do { // assuming len is even! int value1 = *p++; int value2 = *p++; value1 = abs(value1); // or replace abs by the hand-made version value2 = abs(value2); t |= value1; t |= value2; len--; } while (len > 0);
注意:由于我使用的编译器(ARM编译器)以这种方式生成更好的代码,因此我将{}替换为{}.
还请注意,从内存加载短变量(在我使用的处理器上)时,ARM有2个时钟周期的延迟.因此,最小展开因子是3(但你应该尽可能多地展开).
哦,你的处理器是否支持从内存中读取短(半字)变量?我听说过一些非常古老的处理器无法做到这一点.如果您遇到这种情况,则应该将代码更改为一次加载2个值(1个字),并使用一些比特来分隔它们.