Spark流-Kinesis-Java

问题描述

Spark Streaming中每批记录是否只能处理或触发一次方法/动作?

我的用例是,即使有1到n条记录,每个DStream批处理也会调用一次loadConfigurations()。加载的配置应在驱动程序中提供,以进行进一步处理。

例如:

第1批:运动学流中有0条记录-没有触发 loadConfiguration()

第2批:运动学流中有1条记录-调用一次loadConfiguration() 并在驱动程序级别更新变量

第3批:运动学流中有100条记录-调用loadConfiguration() 一次,并在驱动程序级别更新变量

预先感谢。

解决方法

不确定我是否了解确切的要求。但是,根据问题描述和您在注释中的解释,这可能会起作用:

dstream.foreachRDD { rdd =>
  val config = loadConfiguration() //  executed at the driver
  rdd.foreach { record =>
   // do stuff here. e.g. config.get(). This code is executed at the worker.
  }
}

这里要注意的重要一点是Config类必须可序列化,因为它将从驱动程序发送给工作者。

此外,请注意,这可能是反模式,具体取决于您的用例。例如对于每一批,配置对象都会被序列化并发送给工作程序,这将增加网络开销,具体取决于配置对象的大小。

我强烈建议您检查forEachRDD构造的推荐设计模式,并明智地选择您的方法。这是指向同一文件的链接:https://spark.apache.org/docs/latest/streaming-programming-guide.html#design-patterns-for-using-foreachrdd