如何通过运行Google Compute Engine cron作业来计划Dataflow作业

问题描述

Dataflow FAQ中,列出了在Compute Engine上运行自定义(cron)作业过程是调度数据流管道的一种方法。我对应该怎么做感到困惑:如何在计算引擎上启动数据流作业并启动cron作业。

谢谢!

解决方法

我正在App Engine上工作,但我想这与Compute Engine类似

Cron将以您指定的频率命中服务的端点。因此,您需要为该端点设置一个请求处理程序,该请求处理程序将在命中时启动数据流作业(通常在请求处理程序中,您需要定义管道,然后在其上调用“运行”)。

那应该是它的基础。我要做的一个额外步骤是,让我的cron作业的请求处理程序启动云任务,然后让我的云任务的请求处理程序启动数据流作业。之所以这样做,是因为我注意到管道的“运行”命令有时会花费一些时间,而云任务的超时时间为10分钟,而cron作业的超时时间为30秒(或60秒)。

,

您可以使用Google Cloud Scheduler执行您的数据流作业。在Cloud Scheduler上,您有目标,这些目标可以是HTTP / S终结点,发布/订阅主题,App Engine应用程序,您可以将Dataflow模板用作目标。查看此外部文章以查看示例:Schedule Your Dataflow Batch Jobs With Cloud Scheduler,或者如果您想向交互添加更多服务:Scheduling Dataflow Pipeline using Cloud Run,PubSub and Cloud Scheduler

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...