问题描述
我有在数据砖中运行的pyspark笔记本。 我使用pyhive中的“ hive.Connection”连接到外部蜂巢群集。 我的数据保存在spark数据框中。 我的问题是如何从Hive的新表中的数据帧中写入数据,该表位于除数据块之外的其他群集中?
谢谢
解决方法
每个Databricks部署都有一个中央Hive元存储,所有群集均可访问该元存储以持久存储表元数据。您可以选择使用现有的外部Hive Metastore实例,而不必使用Databricks Hive Metastore。
此article描述了如何设置Azure Databricks群集以连接到现有的外部Apache Hive元存储。它提供有关建议的Metastore设置和集群配置要求的信息,以及有关配置集群以连接到外部Metastore的说明。
您可以查看有关Securing Access To Shared Metastore With Azure Databricks的这篇文章。