问题描述
我的 DynamoDB 表有大约 1 亿 (30GB) 个项目,我为它配置了 10k 个 RCU。我正在使用数据管道作业导出数据。
DataPipeline 读取吞吐量比率设置为 0.9。
如何计算导出完成的时间(管道需要4个多小时才能完成导出)
我该如何优化这一点,以便在更短的时间内完成导出。
读取吞吐量比率与 DynamoDB 导出有何关系?
解决方法
this question 的答案解决了您关于估算数据管道作业完成时间的大部分问题。
现在有一个更好的解决方案可以将数据从 DynamoDB 导出到 S3,它是 announced in November 2020。现在有一种方法可以直接从 DynamoDB 执行此操作,而无需预置 EMR 集群和大量 RCU。