问题描述
我目前有数据从 Firehose 到达 Athena 表。当我查看数据时,它是一个 JSON 数组。是否可以使用粘合作业将数组拆分为单独的行,这样每一行都是它自己的 JSON 日志。
例如:数据到达 [{"a":"test1","b":"success"},{"a":"test2","b":"success"}]
粘合作业应该将其更改为: {“a”:“test1”,“b”:“成功”} {"a":"test2","b":"成功"}
解决方法
这可以通过 pyspark 的 explode function 轻松完成。
您只需要通过调用 .toDF()
函数将 DynamicFrame 转换为 DataFrame。
您应该尝试使用 Glue 的relationalize 方法,它对嵌套结构非常有用。 您可以查看此处的示例Relationalize