cuDF GPU 利用率低

问题描述

我有一项任务涉及在数据帧上运行许多查询。我比较了在 Xeon CPU (Pandas) 和 RTX 2080 (CUDF) 上运行这些查询的性能。对于 10 万行的数据帧，GPU 速度更快，但速度并不快。查看 nvidia-smi 输出，运行查询时 GPU 利用率约为 3-4%。

我的问题是我可以做些什么来加速 cuDF 任务并实现高 GPU 利用率？

例如，对于 CPU 用例，我可以在 8 个 CPU 内核上并行运行 8 个这样的查询。

NUM_ELEMENTS = 100000

df = cudf.DataFrame()
df['value1'] = cp.random.sample(NUM_ELEMENTS)
df['value2'] = cp.random.sample(NUM_ELEMENTS)
df['value3'] = cp.random.sample(NUM_ELEMENTS)


c1 = np.random.random()
c2 = np.random.random()
c3 = np.random.random()
res = df.query('((value1 < @c1) & (value2 > @c2) & (value3 < @c3))')

这是一个不需要很多 GPU 周期的示例代码，但是我想对数据运行数千个这样的查询，我不想按顺序运行它们。有没有办法在 cuDF 数据帧上并行运行多个 query() 调用以最大化 GPU 利用率？

解决方法

我们正在努力在 cudf 中启用此功能，但目前这是 cuDF 库的一个限制。您正在寻找的并行机制是使用 CUDA 流 (https://developer.nvidia.com/blog/gpu-pro-tip-cuda-7-streams-simplify-concurrency/)。我们尚不完全支持 cuDF Python 库中的 CUDA 流，但我们正在积极致力于此。

您可以结合使用 cupy 和 numba 以及它们对 CUDA 流的支持（https://docs.cupy.dev/en/stable/reference/generated/cupy.cuda.Stream.html、https://numba.pydata.org/numba-doc/dev/cuda-reference/host.html#stream-management）来解决此问题，但您将处于一个非常实验性的领域。

cudf

cuDF GPU 利用率低

问题描述

解决方法

相关问答