数据湖的 S3 文件夹创建最佳实践

问题描述

在 S3 中为数据湖创建存储桶/文件夹时,是否需要考虑任何最佳实践。我的场景是

  1. 我们有三个环境 DEV/QA 和 PRD。
  2. 三层着陆区/原始数据/数据集市。
  3. 在每一层下面会有多个数据库。
  4. 只有选定的组才能访问表的环境和文件夹。

目前我们的 On-Prem 集群的结构如下。 我需要关于它应该如何在 S3 上的帮助,什么应该是一个存储桶,什么应该是一个文件夹等等。 我们将在登陆区以文件形式获取连续数据。 如果你能指点我一些阅读材料也有帮助。还需要关于如何在每个级别的环境/数据库和表级别设置安全性的帮助。

开发
---着陆区
------DB_1
----------表_1
----------Table_2
------DB_2

---原始数据
------DB_1
----------表_1
----------Table_2
------DB_2

---Data Mart  
------DB_1  
----------Table_1  
----------Table_2  
------DB_2

类似的结构或QA和PRD

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)