AWS胶水：在AWS环境中部署模型

问题描述

根据我们的AWS环境，我们有2种不同类型的SAG（服务帐户组）用于数据存储。一个SAG用于通用存储，另一个SAG用于安全数据，该数据仅保存PII或受限数据。在我们的环境中，我们计划部署glue。在这种情况下，我们在安全性和非安全性上都将拥有一个 metastore吗？如果我们需要两个元存储，这将如何与Databricks一起使用？如果是一个 metastore，如何处理安全数据？请帮助我们在。

解决方法

在AWS Glue中，每个AWS账户每个区域都有一个永久性元数据存储（称为Glue数据目录）。它包含数据库定义，表定义，作业定义和其他控制信息，以管理您的AWS Glue环境。您可以使用IAM（例如，谁可以对该对象进行GetTable或GetDatabase API调用）来管理对这些对象的权限。

除了AWS Glue权限外，您还需要配置对数据本身的权限（例如，谁可以对存储在S3上的数据进行GetObject API调用）。

因此，回答您的问题。是的，您将只有一个数据目录。但是，根据您的安全要求，您将能够定义元数据和内容的基于资源和基于角色的权限。

您可以在这里找到详细的概述-https://aws.amazon.com/blogs/big-data/restrict-access-to-your-aws-glue-data-catalog-with-resource-level-iam-permissions-and-resource-based-policies

如果您将一个区域与一个AWS账户一起使用，则将只有一个元存储区来存储安全和通用数据，并且您将必须使用fine grained access policies处理访问。
更好的方法是在一个AWS账户中使用两个不同的区域，或者在两个AWS账户中使用两个，以便可以轻松地管理两个不同的元存储区的访问。

要将您的metastore与Databricks for（1）集成，您将必须创建两个具有资源级别访问权限的Glue Catalog实例配置文件。一个实例配置文件将有权访问通用数据库和表，而另一个实例配置文件将能够访问安全的数据库和表。

要将您的元存储库与Databricks用于（2）集成，您只需创建两个可以访问相应元存储库的Glue Catalog实例配置文件即可。

建议选择第二个选项，因为它可以为您节省大量维护成本和长期运行中的人为错误。有关Glue Catalog and Databricks integration的更多详细信息。

编辑： 根据评论中的讨论，如果我们必须访问同一Databricks运行时中的两个数据集，则选项2将不起作用。选项1可以与2个权限集一起使用。首先仅适用于通用数据，其次适用于通用和安全数据。

aws-databricks aws-glue aws-glue-spark databricks metadata