Spark Parquet 压缩和编码方案

其次，我需要应用压缩，但不是在完整文件级别，但我需要行组（拆分单元）级别压缩 - 理想情况下使用 snappy，因此我们可以支持来自 Redshift Spectrum ({{ 3}}).

但是，查看官方 parquet 文档，可以设置的 parquet 相关属性很少（https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html）。此属性：

spark.sql.parquet.compression.codec

默认为 snappy，但这是否应用文件级别或拆分级别压缩（即它是首先生成 parquet 文件然后进行 snappy 压缩，还是首先它 snappy 压缩行组 - 拆分，然后生成文件级别？）

这里的默认行为是什么？默认行为是否满足我应用拆分块压缩而不是文件级压缩的要求？ RLE_DICTIONARY 是 Spark 使用的默认编码吗？我找不到定义编码本身的选项？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

相关问答