如何限制用于启动作业,Apache Beam,数据流后端,Python的DoFn线程数

问题描述

我在使用流式作业(数据流后端,python SDK)的apache束中有大量并行工作者有问题

Initializing SDKHarness with unbounded number of workers.

似乎是从单个VM /工作人员开始的几秒钟内,beam产生了数百个DoFn实例

而且我找不到源代码中可以限制此“无界”数字的位置。

我需要限制它们,因为在process()setup()我有外部呼叫,并且我需要降低传出的RPS。

解决方法

如果您使用的是跑步者v2,请通过以下方式启用:

--experiments=use_runner_v2

您可以使用以下参数来定义每个进程的线程数:

--number_of_worker_harness_threads