无法使用 create_dynamic_frame.from_catalog 从 AWS 粘合作业访问使用分区投影配置的表中的数据

问题描述

我使用分区投影在 Athena 中设置了一个表。我没有在glue元数据目录中定义任何分区,我可以使用sql在Athena OK中查看数据。

当我使用此表设置 glue 作业时,glue 似乎无法访问数据:

library(dplyr)


# ...
# Code to generate 'df1' and 'df2'.
# ...


df3 <- df1 %>%
  anti_join(df2 %>% filter(value <= 3),by = c("subject","condition"))

有什么方法可以在不需要定义 glue 元数据分区的情况下访问数据?我的印象是,如果 Athena 能看到数据,glue 也能看到。

解决方法

Glue 不支持分区投影,它是 Athena 独有的功能。

Glue ETL 使用 Spark,而 Athena 是引擎盖下的 Presto(经过修改,包括分区投影)。 Glue ETL 也不支持 Athena 视图和其他各种小东西。