AWS胶水:在AWS环境中部署模型

问题描述

根据我们的AWS环境,我们有2种不同类型的SAG(服务帐户组)用于数据存储。一个SAG用于通用存储,另一个SAG用于安全数据,该数据仅保存PII或受限数据。在我们的环境中,我们计划部署glue。在这种情况下 , 我们在安全性和非安全性上都将拥有一个metastore吗? 如果我们需要两个元存储,这将如何与Databricks一起使用? 如果是一个metastore,如何处理安全数据? 请帮助我们在。

解决方法

在AWS Glue中,每个AWS账户每个区域都有一个永久性元数据存储(称为Glue数据目录)。 它包含数据库定义,表定义,作业定义和其他控制信息,以管理您的AWS Glue环境。您可以使用IAM(例如,谁可以对该对象进行GetTable或GetDatabase API调用)来管理对这些对象的权限。

除了AWS Glue权限外,您还需要配置对数据本身的权限(例如,谁可以对存储在S3上的数据进行GetObject API调用)。

因此,回答您的问题。是的,您将只有一个数据目录。 但是,根据您的安全要求,您将能够定义元数据和内容的基于资源和基于角色的权限。

您可以在这里找到详细的概述-https://aws.amazon.com/blogs/big-data/restrict-access-to-your-aws-glue-data-catalog-with-resource-level-iam-permissions-and-resource-based-policies

,
  1. 如果您将一个区域与一个AWS账户一起使用,则将只有一个元存储区来存储安全和通用数据,并且您将必须使用fine grained access policies处理访问。
  2. 更好的方法是在一个AWS账户中使用两个不同的区域,或者在两个AWS账户中使用两个,以便可以轻松地管理两个不同的元存储区的访问。

要将您的metastore与Databricks for(1)集成,您将必须创建两个具有资源级别访问权限的Glue Catalog实例配置文件。一个实例配置文件将有权访问通用数据库和表,而另一个实例配置文件将能够访问安全的数据库和表。

要将您的元存储库与Databricks用于(2)集成,您只需创建两个可以访问相应元存储库的Glue Catalog实例配置文件即可。

建议选择第二个选项,因为它可以为您节省大量维护成本和长期运行中的人为错误。有关Glue Catalog and Databricks integration的更多详细信息。

编辑: 根据评论中的讨论,如果我们必须访问同一Databricks运行时中的两个数据集,则选项2将不起作用。选项1可以与2个权限集一起使用。首先仅适用于通用数据,其次适用于通用和安全数据。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...