问题描述
在 S3 中为数据湖创建存储桶/文件夹时,是否需要考虑任何最佳实践。我的场景是
- 我们有三个环境 DEV/QA 和 PRD。
- 三层着陆区/原始数据/数据集市。
- 在每一层下面会有多个数据库。
- 只有选定的组才能访问表的环境和文件夹。
目前我们的 On-Prem 集群的结构如下。 我需要关于它应该如何在 S3 上的帮助,什么应该是一个存储桶,什么应该是一个文件夹等等。 我们将在登陆区以文件形式获取连续数据。 如果你能指点我一些阅读材料也有帮助。还需要关于如何在每个级别的环境/数据库和表级别设置安全性的帮助。
开发
---着陆区
------DB_1
----------表_1
----------Table_2
------DB_2
---原始数据
------DB_1
----------表_1
----------Table_2
------DB_2
---Data Mart
------DB_1
----------Table_1
----------Table_2
------DB_2
类似的结构或QA和PRD
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)