在 Pandas 的下游作业中通过 Athena 读取分区数据

问题描述

我的数据管道中有 2 个阶段,第一阶段从源读取数据并转储到中间存储桶,下一阶段从该中间存储桶读取数据。我在中间阶段进行了 athena 设置,我们计划从 athena 读取此分区数据而不是读取文件(使用 Athena 的原因:我们可能有需要根据单次读取中的某些条件从不同分区读取的场景) .

我们是否应该继续使用这种方法,因为我们知道 Athena 在将数据读入 Pandas 数据帧时有一些限制,比如我们一次只能有 1000 条记录。

是否有针对此用例的更好解决方案。我们正在使用 Pandas。

解决方法

我们决定将 awsdatawrangler 用于我们的目的,因为它更可靠并且与我们正在努力实现的目的相同。