Spark最佳实践,用于加载架构

问题描述

我正在一些结构化的流项目中使用Spark,并且经常需要为我处理的数据指定架构。该模式通常非常复杂,因此我通常从示例文件中推断出该模式并将其保存在变量中。然后在开始流式传输过程时使用该变量。

这是我编写的代码

staticDF = spark.read.json("/path/to/file/sample.json",multiLine=True)
mySchema = staticDF.schema

streamedData = spark\
    .readStream\
    .json(origin,schema=mySchema,allowUnquotedFieldNames=True,multiLine=True)

这意味着每次启动应用程序时,我都必须处理JSON文件,创建数据框架并从中获取架构。

我想知道是否有更好/更有效的方法来执行此操作,也许将模式保存在文件中以便以后使用。我使用python 2.7和pyspark-3.0.0

谢谢:)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)