对 DocumentDB 的 AWS Glue 自定义查询

问题描述

几个月前,我使用 AWS glue 接管了一个 ETL 项目。目前,我们正在从 DocDB 查询所有记录,然后进行过滤以防止重新处理不必要的记录。显然,这是低效的,因为为每个作业运行查询和过滤所有记录是不可扩展且成本高昂的。

问题是,我们如何从 glue 作业自定义 DocDB 查询?在查看 Docs 时,glueContext.getSourceWithFormat 似乎没有传递 DocDB 查询的选项。

如果 glue 不提供此选项,我正在考虑让作业触发 AWS Lambda 来查询记录并在 S3 中存储为 JSON,直到 glue 处理记录。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)