PySpark - 将 DStream 内容打印到文件/终端

问题描述

有一个 Apache Spark 问题要问你们。我正在使用 Python 扩展的 (pyspark) 流模块来处理简单的 DStream。我已经能够解析我的 JSON 数据，因此 DStream 现在显示为“字数”。

    my_stream: pyspark.DStream = ...  
    my_stream.pprint(4)  
    '''result of above is something like   
    (apples,4)
    (peaches,2)
    (cobbler,1) 
    '''

现在，我想将这些数据直接移植到文件中。这是我在网上找到的，但它不起作用（似乎卡在舞台上，文件中没有任何内容。）

    _ = positive_cases_by_zips.foreachRDD(lambda RDD: RDD.foreach(
             lambda p: print(*p,file=open("current_batch.txt","a"))))

对我能做什么有什么想法吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark dstream pyspark pyspark spark-structured-streaming