问题描述
我想使用pyspark在Hadoop集群上使用delta lake。除了下面以外,我还没有找到任何使用三角洲湖泊的安装指南。
pyspark-软件包io.delta:delta-core_2.11:0.1.0 --conf “ spark.sql.extensions = io.delta.sql.DeltaSparkSessionExtension” --conf“ spark.sql.catalog.spark_catalog = org.apache.spark.sql.delta.catalog.DeltaCatalog”
我有2个问题:
- 与Apache Spark 2.4.3兼容的delta lake(
- 如何在Hadoop集群上安装delta lake软件包?
谢谢。
解决方法
支持Spark 2.4.3的Delta的最新版本是0.6.1(github branch),请使用--packages io.delta:delta-core_2.11:0.6.1
,它应该可以立即使用。