为什么删除代码时循环变慢

问题描述

| 当我从循环中删除测试以计算最小值和最大值时,执行时间实际上比测试更长。那怎么可能呢? 编辑: 运行更多测试后,似乎运行时不是恒定的,即相同的代码 可以在9秒钟或13秒钟内运行。...这只是一个重复的巧合。重复进行,直到您进行足够的测试为止... 一些细节: 最小最大测试的执行时间:9秒 没有最小最大测试的执行时间:13秒
CFLAGS=-Wall -O2 -fPIC -g
gcc 4.4.3 32位 现在在代码中指示要删除的部分 一些猜测: 缓存交互不良?
void    FillFullValues(void)
{
    int i,j,k;
    double  X,Y,Z;
    double  p,q,r,p1,q1,r1;
    double  Ls,as,bs;
    unsigned long t1,t2;

    t1 = GET_TICK_COUNT();  
    MinLs = Minas = Minbs = 1000000.0;
    MaxLs = Maxas = Maxbs = 0.0;

    for (i=0;i<256;i++)
    {
        for (j=0;j<256;j++)
        {
            for (k=0;k<256;k++)
            {
                X = 0.4124*CielabValues[i] + 0.3576*CielabValues[j] + 0.1805*CielabValues[k];
                Y = 0.2126*CielabValues[i] + 0.7152*CielabValues[j] + 0.0722*CielabValues[k];
                Z = 0.0193*CielabValues[i] + 0.1192*CielabValues[j] + 0.9505*CielabValues[k];

                p = X * InvXn;
                q = Y;
                r = Z * InvZn;

                if (q>0.008856)
                {
                    Ls = 116*pow(q,third)-16;
                }
                else
                {
                    Ls = 903.3*q;
                }

                if (q<=0.008856)
                {
                    q1 = 7.787*q+seiz;
                }
                else
                {
                    q1 = pow(q,third);
                }

                if (p<=0.008856)
                {
                    p1 = 7.787*p+seiz;
                }
                else
                {
                    p1 = pow(p,third);
                }

                if (r<=0.008856)
                {
                    r1 = 7.787*r+seiz;
                }
                else
                {
                    r1 = pow(r,third);
                }

                as = 500*(p1-q1);
                bs = 200*(q1-r1);

                //
                // cast on short int for reducing array size
                // 
                FullValuesLs[i][j][k] = (char) (Ls);
                FullValuesas[i][j][k] = (char) (as);
                FullValuesbs[i][j][k] = (char) (bs);

                            //// Remove this and get slower code    
                if (MaxLs<Ls)
                    MaxLs = Ls;
                if ((abs(Ls)<MinLs) && (abs(Ls)>0))
                    MinLs = Ls;

                if (Maxas<as)
                    Maxas = as;
                if ((abs(as)<Minas) && (abs(as)>0))
                    Minas = as;

                if (Maxbs<bs)
                    Maxbs = bs;
                if ((abs(bs)<Minbs) && (abs(bs)>0))
                    Minbs = bs;
                            //// End of Remove

            }
        }
    }

    TRACE(_T(\"LMax = %f LMin = %f\\n\"),(MaxLs),(MinLs));
    TRACE(_T(\"aMax = %f aMin = %f\\n\"),(Maxas),(Minas));
    TRACE(_T(\"bMax = %f bMin = %f\\n\"),(Maxbs),(Minbs));
    t2 = GET_TICK_COUNT();
    TRACE(_T(\"WhiteBalance init : %lu ms\\n\"),t2 - t1); 
}
    

解决方法

我认为编译器正在尝试展开内部循环,因为您正在删除迭代之间的依赖关系。但这在您的情况下无济于事。可能是因为循环太大,并且使用了太多寄存器无法展开。 尝试关闭展开并再次发布结果。 如果是这种情况,我建议您将性能问题提交给gcc。 PS。我认为您可以合并
if (q>0.008856)
if (q<=0.008856)
。     ,也许是缓存,可能是展开问题,只有一种方法可以解决此问题:查看生成的代码(例如,使用
-S
选项)。也许您可以将其发布/或在比较它们时发现差异。 编辑:正如您现在澄清的那样,这只是度量,我只能向您推荐(或更好的命令;-),当您想要获取运行时编号时:始终将其放入某个循环并取平均值。最好在程序外(在Shell脚本中)执行此操作,因此缓存中尚未填充正确的数据。