pyspark从运行在Azure云上的数据块写入外部配置单元群集

问题描述

我有在数据砖中运行的pyspark笔记本。 我使用pyhive中的“ hive.Connection”连接到外部蜂巢群集。 我的数据保存在spark数据框中。 我的问题是如何从Hive的新表中的数据帧中写入数据,该表位于除数据块之外的其他群集中?

谢谢

解决方法

每个Databricks部署都有一个中央Hive元存储,所有群集均可访问该元存储以持久存储表元数据。您可以选择使用现有的外部Hive Metastore实例,而不必使用Databricks Hive Metastore。

article描述了如何设置Azure Databricks群集以连接到现有的外部Apache Hive元存储。它提供有关建议的Metastore设置和集群配置要求的信息,以及有关配置集群以连接到外部Metastore的说明。

您可以查看有关Securing Access To Shared Metastore With Azure Databricks的这篇文章。