如何在Kedro中使用databricks三角洲湖格式?

问题描述

我们在项目中使用kedro。通常,人们可以这样定义数据集:

client_table:
  type: spark.SparkDataSet
  filepath: ${base_path_spark}/${env}/client_table
  file_format: parquet
  save_args:
    mode: overwrite

现在,我们正在使用数据块,它们提供了许多optimisations,例如autoOptimizeShuffle。我们正在考虑利用它来处理我们的15TB以上的数据集。

但是,我不清楚如何将kedro与databricks三角洲湖泊解决方案一起使用

解决方法

它对我们有用。

    client_table:
      type: kedro.contrib.io.pyspark.SparkDataSet
      filepath: ${base_path_spark}/${env}/client_table
      file_format: "delta"
      save_args:
        mode: overwrite