使用EMR和Hive将DynamoDB备份到S3时，只有一个映射器

问题描述

我正在生产的DynamoDB表大约有15亿个对象。我正在编写一个EMR脚本以将表备份到S3。我希望尽快完成。我有一个脚本，该脚本配置了具有4个m4.2xlarge节点的EMR集群，并运行以下配置单元查询：

SET dynamodb.throughput.read.percent = 1.5;
SET dynamodb.throughput.write.percent = 1.5;
SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK;
SET mapred.output.compression.codec = org.apache.hadoop.io.compress.GzipCodec;

CREATE DATABASE IF NOT EXISTS my_db;
USE my_db;

CREATE EXTERNAL TABLE IF NOT EXISTS ddb_table (composite_key string) STORED BY 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' TBLPROPERTIES ("dynamodb.table.name" = "my_ddb_table","dynamodb.column.mapping" = "composite_key:composite_key");

INSERT OVERWRITE DIRECTORY 's3://s3-backups/ddb/' SELECT composite_key FROM ddb_table;

当我使用RCU按需运行脚本时，该作业会产生62个任务。当我使用预配置的RCU运行脚本时，我只会得到一个任务（每分钟消耗约800个RCU）。预配置的RCU的数量（我已经测试了40,000个RCU）或自动缩放似乎都没有改变任务的数量。似乎只有按需RCU才能创建其他任务。

除了AWS希望我支付更多钱外，是否有这种行为的原因或解决方法？调配更多的容量而少使用该调配的容量似乎违反直觉。

目前，我是使用按需RCU开始工作的，然后在工作开始后切换到预配置的...但这不是很有趣。

有什么想法吗？

解决方法

新的 EMR 版本似乎需要您需要手动指定的 dynamodb.throughput.write/read 参数（旧版本中并非如此）。例如

SET dynamodb.throughput.write=40000        // depending on your RCU
SET dynamodb.throughput.write.percent=0.9 
SET dynamodb.throughput.read=40000         // depending on your WCU
SET dynamodb.throughput.read.percent=0.9

amazon-dynamodb amazon-emr amazon-web-services