AWS EMR 和 Apache Atlas - Atlas 元数据的持久存储

问题描述

在 AWS 上设置 EMR - following this guide from AWS.

注意事项:

  • 我将 S3 用于 HBase 存储,而不是集群上的 HDFS。
  • 我将 AWS glue Catalog 用于 Hive 存储。
  • 我使用的是 EMR 5.33.0 版
  • 安装 Hadoop、Hive、Hue、HBase 和 ZooKeeper

所以首先:

创建我的 EMR 集群很好,一切都在 terraform 中,所以我经常销毁与我的 HBase 存储关联的存储桶,以确保它是一个“干净”的开始。

AWS 提供的 Atlas-1.0.0 安装脚本存在问题。它不适用于 glue,解决方法是编辑 /apache/atlas/bin/import-hive.sh 并在第 55 行添加这些行:

for i in "/usr/lib/hive/auxlib/"*.jar; do
        ATLASCPPATH="${ATLASCPPATH}:$i"
done

这会导入各种 AWS 库以使脚本正常工作。接下来,我运行 import-hive.sh 并在 Atlas 中获取我的元数据。

一切正常,我可以跳转http://localhost:16010 配置 HBase 并查看表中的 apache_atlas_janus

长话短说,在此之后,如果我重新创建我的 EMR 集群,我会删除安装 Apache Atlas 的步骤。通过 http://localhost:16010 我仍然可以看到这些表,这意味着这些表是通过 S3 存储持久化的。

问题是,如果我在 EMR 集群上安装 Atlas(按照惯例),我将无法查看 Atlas 上的任何元数据,我会收到很多错误等。

有人可以帮我解决使用 EMR 配置 Atlas 的问题吗?我缺少什么来确保 Atlas 在重新启动时再次工作?权限是否隐藏在配置中的某处?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)