如何使用 Apache Arrow 执行“a + b + c*5 + d*3”?

问题描述

我想到了使用预定义函数来实现这一点:计算“a + b”、“c * 5”、“d * 3”,然后将结果相加。

但是这种方式似乎会生成很多代码。有没有更好的方法来做到这一点?

顺便说一下,Apache Arrow 是否认使用 SIMD(C++ 版本)?如果没有,我怎样才能让它使用 SIMD?

解决方法

PyArrow 目前不会覆盖 Python 中的运算符,但您可以轻松调用算术计算函数。 (此处使用 functools.reduce,因为加法内核是二进制的,而不是 n 进制的。)

PyArrow 会根据编译时使用的标志自动使用 SIMD。它应该使用编译它的 CPU 支持的“最高”SIMD 级别。并非所有计算功能实现都在内部利用 SIMD。现在看起来主要是聚合内核这样做了。

>>> import pyarrow as pa
>>> import pyarrow.compute as pc
>>> import functools
>>> pa.__version__
'4.0.1'
>>> a = pa.array([1,2,3])
>>> b = pa.array([3,4,5])
>>> c = pa.array([1,1])
>>> d = pa.array([2,2])
>>> functools.reduce(pc.add,[pc.add(a,b),pc.multiply(c,5),pc.multiply(d,3)])
<pyarrow.lib.Int64Array object at 0x7fd5a0d9c040>
[
  15,18,19
]

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...