问题描述
我正在尝试使用 pyspark 代码从 delta 表流式传输数据,并在每个周期之间以 10 - 15 分钟的间隔连续执行针对最终 delta 目标的合并。
我编写了一个简单的 pyspark 代码并使用命令“spark-submit gs://
代码示例:
SourceDF.writeStream
.format("delta")
.outputMode("append") -- I have also tried "update"
.foreachBatch(mergetoDelta)
.option("checkpointLocation","gs:<<path_for_the_checkpint_location>>")
.trigger(processingTime="10 minutes") -- I have tried continuous='10 minutes"
.start()
如何在 Google Cloud 中的 dataproc 中提交 Spark 作业以进行连续流式处理?
流式作业的源和目标都是增量表。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)