问题描述
Spark Streaming中每批记录是否只能处理或触发一次方法/动作?
我的用例是,即使有1到n条记录,每个DStream批处理也会调用一次loadConfigurations()。加载的配置应在驱动程序中提供,以进行进一步处理。
例如:
第1批:运动学流中有0条记录-没有触发 loadConfiguration()
预先感谢。
解决方法
不确定我是否了解确切的要求。但是,根据问题描述和您在注释中的解释,这可能会起作用:
dstream.foreachRDD { rdd =>
val config = loadConfiguration() // executed at the driver
rdd.foreach { record =>
// do stuff here. e.g. config.get(). This code is executed at the worker.
}
}
这里要注意的重要一点是Config
类必须可序列化,因为它将从驱动程序发送给工作者。
此外,请注意,这可能是反模式,具体取决于您的用例。例如对于每一批,配置对象都会被序列化并发送给工作程序,这将增加网络开销,具体取决于配置对象的大小。
我强烈建议您检查forEachRDD
构造的推荐设计模式,并明智地选择您的方法。这是指向同一文件的链接:https://spark.apache.org/docs/latest/streaming-programming-guide.html#design-patterns-for-using-foreachrdd