问题描述
我们在项目中使用kedro。通常,人们可以这样定义数据集:
client_table:
type: spark.SparkDataSet
filepath: ${base_path_spark}/${env}/client_table
file_format: parquet
save_args:
mode: overwrite
现在,我们正在使用数据块,它们提供了许多optimisations,例如autoOptimizeShuffle
。我们正在考虑利用它来处理我们的15TB以上的数据集。
但是,我不清楚如何将kedro与databricks三角洲湖泊解决方案一起使用
解决方法
它对我们有用。
client_table:
type: kedro.contrib.io.pyspark.SparkDataSet
filepath: ${base_path_spark}/${env}/client_table
file_format: "delta"
save_args:
mode: overwrite