在 Athena 查询中获取 S3 文件创建/更新日期

问题描述

是否有任何内置的 athena 函数可以显示查询结果中给定行的底层 S3 文件创建/修改日期?我们有一个包含许多不同文件格式的大型数据湖,很难将这些信息添加到所有文件中。

解决方法

Amazon Athena 支持 Presto $path 伪列,它显示了从中获取该行的文件名,例如:

SELECT DISTINCT "$path" FROM table

有人要求向 Presto 添加更多伪列,例如 Last ModifiedFile Size,但是(在撰写此答案时)它们在普雷斯托。到达普雷斯托后,他们可能会在一段时间后找到前往雅典娜的路。

见: