如何向量化/优化依赖于先前行的计算

问题描述

我正在研究运行时非常重要并且我们正在处理的数据很大的事情，但是基本上，问题归结为对x已知且x = ax + b的系列x进行优化求解行。例如，开始状态：

，结束状态如下：

因为3 * 1 + 2 = 5、5 * 3 + 1 = 16，等等。

我尝试算出它的数学公式，最后得到了：

b0 = x1
xi = sum(n=0 to i-1)(bn*product(m=n+1 to i-1)(am)

例如，对于第三行，您最终得到：

x3 = a1*a2*b0 + b1*a2 + b2 = 3*1*3 + 2*3 + 1 = 9 + 6 + 1 = 16

但是在计算上，这似乎比仅通过遍历行来计算每个x更糟糕，像这样：

for i in range(2,len(df)):
    df.x[i] = df.x[i-1]*df.a[i-1]+df.b[i-1]

是否有一种更简单的方法来解决我所缺少的问题，或者我只是在处理一个计算量大的操作，而我不得不承担迭代的费用？如果该词不存在，则可以通过cumsum解决bn部分，例如：

df['b_cumsum'] = x1+cumsum(df.b)

但是当我试图包含这些术语时，我最终碰壁了，特别是因为我们最终甚至在每个和项内都需要这么多不同的产品集。

谢谢。

解决方法

当我遇到函数时，我无法向量化，但是它必须高效，我使用numba。这是一个即时编译（JIT）模块。在大多数情况下，这甚至可以比本地pandas方法更快：

from numba import njit

@njit
def calculation(arr):
    result = np.empty(arr.shape[0])
    for idx,row in enumerate(arr):
        if idx == 0:
            result[idx] = row[2]
        else:
            row = arr[idx-1]
            result[idx] = result[idx-1] * row[0] + row[1]
    
    return result

df['x'] = calculation(df.to_numpy())

print(df)

   a  b      x
0  1  2    3.0
1  3  1    5.0
2  2  2   16.0
3  4  8   34.0
4  1  9  144.0

注释：要计时的时间。由于它尚未编译，因此不要在第一次运行时进行计时。首先运行一次，然后在第二次运行中计时。

您可以先使用a来计算重新缩放的 x ： x '= x / cumprod（ a ）匹配 b '= b / cumprod（ a ）

这可以通过向量化操作完成，也可以从 x '反向转换为 x ：

ab = np.array([[1,2],[3,1],[2,[4,8],[1,9]])

scale = ab.T[0].cumprod()
xp = 3+(ab.T[1]/scale).cumsum()
x = xp*scale
x
array([  5.,16.,34.,144.,153.])

numpy optimization optimization pandas pandas python vectorization