估计通过数据管道导出 DynamoDB 数据的持续时间

问题描述

我的 DynamoDB 表有大约 1 亿 (30GB) 个项目,我为它配置了 10k 个 RCU。我正在使用数据管道作业导出数据。

DataPipeline 读取吞吐量比率设置为 0.9。

如何计算导出完成的时间(管道需要4个多小时才能完成导出)

我该如何优化这一点,以便在更短的时间内完成导出。

读取吞吐量比率与 DynamoDB 导出有何关系?

解决方法

this question 的答案解决了您关于估算数据管道作业完成时间的大部分问题。

现在有一个更好的解决方案可以将数据从 DynamoDB 导出到 S3,它是 announced in November 2020。现在有一种方法可以直接从 DynamoDB 执行此操作,而无需预置 EMR 集群和大量 RCU。

查看以下文档:Exporting DynamoDB table data to Amazon S3