如何将数据集转换为存储库中的字典我在铸造厂内使用pyspark

问题描述

我创建了一个融合工作表数据以同步到数据集。现在,我想使用该数据集在存储库中创建字典。我在回购中使用pyspark。稍后我想使用该字典,以便它像在Is there a tool available within Foundry that can automatically populate column descriptions? If so,what is it called?中那样填充描述。

如果有人能帮助我使用回购中的pyspark根据数据集创建字典,那就太好了。

解决方法

以下代码会将您的pyspark数据框转换为词典列表:

fusion_rows = map(lambda row: row.asDict(),fusion_df.collect())

但是,在特定情况下,您可以使用以下代码段:

col_descriptions = {row["column_name"]: row["description"] for row in fusion_df.collect()}
my_output.write_dataframe(
    my_input.dataframe(),column_descriptions=col_descriptions
)

假设您的Fusion工作表如下所示:

+------------+------------------+
| column_name|       description|
+------------+------------------+
|       col_A| description for A|
|       col_B| description for B|
+------------+------------------+