使用数据管道在 AWS 中批量处理文件

问题描述

我需要读取上传到 s3 存储桶的 csv 批处理文件,加密某些列中的数据并将这些数据保存在 Dynamo DB 表中。在保留 DynamoDB 表中的每一行时,根据每行中的数据,我需要生成一个 ID 并将其存储在 DynamoDB 表中。似乎 AWS 数据管道允许创建一个作业以将 S3 存储桶文件导入 DynanoDB,但我找不到在那里添加自定义逻辑以加密文件中的某些列值并添加自定义逻辑以生成 id 的方法上面提到了。

有什么方法可以使用 AWS Data Pipeline 实现此要求?如果不是,我可以使用 AWS 服务遵循的最佳方法是什么?

解决方法

我们还有一种情况,我们需要从 S3 获取数据,并在执行一些转换(业务逻辑)后将其填充到 DynamoDb。

我们也在此过程中使用 AWS DataPipeline。

我们首先从 Data Pipeline 触发一个 EMR 集群,我们从 S3 获取数据,然后转换它并填充 DynamoDB (DDB)。您可以在 EMR 集群中包含您需要的所有逻辑。

我们在管道中设置了一个计时器,它每天触发一次 EMR 集群来执行任务。

这也会产生额外费用。