创建一个将数组拆分为行的粘合作业?

问题描述

我目前有数据从 Firehose 到达 Athena 表。当我查看数据时,它是一个 JSON 数组。是否可以使用粘合作业将数组拆分为单独的行,这样每一行都是它自己的 JSON 日志。

例如:数据到达 [{"a":"test1","b":"success"},{"a":"test2","b":"success"}]

粘合作业应该将其更改为: {“a”:“test1”,“b”:“成功”} {"a":"test2","b":"成功"}

解决方法

这可以通过 pyspark 的 explode function 轻松完成。

您只需要通过调用 .toDF() 函数将 DynamicFrame 转换为 DataFrame。

,

您应该尝试使用 Glue 的relationalize 方法,它对嵌套结构非常有用。 您可以查看此处的示例Relationalize