有状态转换，可跨多个批次合并数据

问题描述

对于spark dstream应用程序，我需要访问以前的批处理数据帧/ rdds，因此，我尝试重新创建一个玩具示例以更好地理解。

用例：要每5分钟获取字数统计，但在满足特定条件的情况下，我应该能够获取最近30分钟的字数统计。

在spark文档中，检查点功能如下所述。

数据检查点-将生成的RDD保存到可靠的存储中。在结合数据的某些有状态转换中，这是必需的跨多个批次。在这种转换中，生成的RDD 取决于先前批次的RDD，这会导致依赖链随着时间的增长而不断增加

我不确定一旦检查点数据，如何访问先前的rdds。

我尝试使用localcheckpoint，但是在handler（rdd）方法的“ else”中失败，提示它找不到df。

注意：我知道我们有类似reduceByKey和updateStateByKey之类的选项，但这些选项不适用于我的情况。如果我可以访问上一批的DF或RDD，将会更容易。


import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType,IntegerType,StringType

spark = SparkSession.builder.master("local").appName("Word Count").getOrCreate()
flag = True

def handler(rdd):
    global flag
    if not rdd.isEmpty():
        if flag:
            df=spark.read.json(rdd)
            df = df.localCheckpoint()
            flag=False
        else:
            df1=spark.read.json(rdd)
            df = df.union(df1)
            df = df.localCheckpoint()
        df.show()
        

if __name__ == "__main__":
    sc=spark.sparkContext 
    ssc = StreamingContext(sc,2)
    brokers,topic = sys.argv[1:]
    kvs = KafkaUtils.createDirectStream(ssc,[topic],{"metadata.broker.list": brokers})
    lines = kvs.map(lambda x: x[1])
    lines.foreachRDD(handler)
    ssc.start()
    ssc.awaitTermination()

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark checkpointing dstream spark-streaming

有状态转换，可跨多个批次合并数据

问题描述

解决方法

相关问答