问题描述
湖泊形成anounced preview for ACID and RLS features。在不久的将来,无需像 Databricks 这样的额外管理层,就可以在 EMR+LakeFormation 上迈向 Lakehouse architecture 的下一步。
Lake Formation 的治理表使用什么数据格式/技术?会是胡迪吗?如果不是 Hudi,新格式/技术与 Hudi 相比如何?
解决方法
我也想知道,但没有看到这方面的任何信息。
aws-data-wrangler 目前正在添加对 Lake Formation 管理表的支持。查看较大的 PR 之一 https://github.com/awslabs/aws-data-wrangler/pull/560/files ,一些观察:
- 受管理的表通过lakeformation api 进行管理
- 提到了“LF 查询引擎”https://github.com/awslabs/aws-data-wrangler/pull/560/files#diff-71cf0e59c4ff5180dca21273da3998c16dcad442519db75af27482e5420f8dc0R61
- 提到了“在 AWS Glue 表上执行 PartiQL 查询”https://github.com/awslabs/aws-data-wrangler/pull/560/files#diff-71cf0e59c4ff5180dca21273da3998c16dcad442519db75af27482e5420f8dc0R127