问题描述
在查看 AWS Athena 的 supported compression documentation 时,我可以看到支持 Snappy。然而,当我尝试对 JSON 数据格式使用 Snappy 压缩时,我遇到了很多错误。
我尝试在 Athena 中使用两个可用的 SerDes 创建表:
'org.apache.hive.hcatalog.data.JsonSerDe'
'org.openx.data.jsonserde.JsonSerDe'
我尝试过未压缩的 JSON 并使用 GZIP 进行压缩。两者都工作正常。
我尝试使用大量 TBLPROPERTIES 和 SERDEPROPERTIES 创建表,但没有任何帮助。
来自我的查询的“返回零记录”是任何尝试查询 SNAPPY 压缩 JSON 的最终结果。
有没有人看到这个问题并解决了它?
解决方法
对于 CSV
、TSV
和 JSON
中的数据,Athena 根据文件扩展名确定压缩类型。如果不存在文件扩展名,Athena 会将数据视为未压缩的纯文本。如果您的数据已压缩,请确保文件名包含压缩扩展名 .json.snappy