如何将数据集转换为存储库中的字典我在铸造厂内使用pyspark

问题描述

我创建了一个融合工作表数据以同步到数据集。现在，我想使用该数据集在存储库中创建字典。我在回购中使用pyspark。稍后我想使用该字典，以便它像在Is there a tool available within Foundry that can automatically populate column descriptions? If so,what is it called?中那样填充描述。

如果有人能帮助我使用回购中的pyspark根据数据集创建字典，那就太好了。

解决方法

以下代码会将您的pyspark数据框转换为词典列表：

fusion_rows = map(lambda row: row.asDict(),fusion_df.collect())

但是，在特定情况下，您可以使用以下代码段：

col_descriptions = {row["column_name"]: row["description"] for row in fusion_df.collect()}
my_output.write_dataframe(
    my_input.dataframe(),column_descriptions=col_descriptions
)

假设您的Fusion工作表如下所示：

+------------+------------------+
| column_name|       description|
+------------+------------------+
|       col_A| description for A|
|       col_B| description for B|
+------------+------------------+

dataset dataset dataset dictionary foundry-code-repositories palantir-foundry pyspark pyspark