问题描述
我在使用流式作业(数据流后端,python SDK)的apache束中有大量并行工作者有问题
Initializing SDKHarness with unbounded number of workers.
似乎是从单个VM /工作人员开始的几秒钟内,beam产生了数百个DoFn实例
而且我找不到源代码中可以限制此“无界”数字的位置。
我需要限制它们,因为在process()
和setup()
中我有外部呼叫,并且我需要降低传出的RPS。
解决方法
如果您使用的是跑步者v2,请通过以下方式启用:
--experiments=use_runner_v2
您可以使用以下参数来定义每个进程的线程数:
--number_of_worker_harness_threads