安装Apche Spark 2.4.3Pyspark的delta lake软件包

问题描述

我想使用pyspark在Hadoop集群上使用delta lake。除了下面以外,我还没有找到任何使用三角洲湖泊的安装指南。

pyspark-软件包io.delta:delta-core_2.11:0.1.0 --conf “ spark.sql.extensions = io.delta.sql.DeltaSparkSessionExtension” --conf“ spark.sql.catalog.spark_catalog = org.apache.spark.sql.delta.catalog.DeltaCatalog”

我有2个问题:

  • 与Apache Spark 2.4.3兼容的delta lake(
  • 如何在Hadoop集群上安装delta lake软件包?

谢谢。

解决方法

支持Spark 2.4.3的Delta的最新版本是0.6.1(github branch),请使用--packages io.delta:delta-core_2.11:0.6.1,它应该可以立即使用。