问题描述
在 AWS 上设置 EMR - following this guide from AWS.
注意事项:
- 我将 S3 用于 HBase 存储,而不是集群上的 HDFS。
- 我将 AWS glue Catalog 用于 Hive 存储。
- 我使用的是 EMR 5.33.0 版
- 安装 Hadoop、Hive、Hue、HBase 和 ZooKeeper
所以首先:
创建我的 EMR 集群很好,一切都在 terraform 中,所以我经常销毁与我的 HBase 存储关联的存储桶,以确保它是一个“干净”的开始。
AWS 提供的 Atlas-1.0.0 安装脚本存在问题。它不适用于 glue,解决方法是编辑 /apache/atlas/bin/import-hive.sh 并在第 55 行添加这些行:
for i in "/usr/lib/hive/auxlib/"*.jar; do
ATLASCPPATH="${ATLASCPPATH}:$i"
done
这会导入各种 AWS 库以使脚本正常工作。接下来,我运行 import-hive.sh 并在 Atlas 中获取我的元数据。
一切正常,我可以跳转到 http://localhost:16010 配置 HBase 并查看表中的 apache_atlas_janus。
长话短说,在此之后,如果我重新创建我的 EMR 集群,我会删除安装 Apache Atlas 的步骤。通过 http://localhost:16010 我仍然可以看到这些表,这意味着这些表是通过 S3 存储持久化的。
问题是,如果我在 EMR 集群上安装 Atlas(按照惯例),我将无法查看 Atlas 上的任何元数据,我会收到很多错误等。
有人可以帮我解决使用 EMR 配置 Atlas 的问题吗?我缺少什么来确保 Atlas 在重新启动时再次工作?权限是否隐藏在配置中的某处?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)