为 Spark 准备 lzo 或 lz4 文件

问题描述

我正在尝试选择正确的格式与我的 Spark 应用程序交换文件。我在 Kubernetes 上使用 Spark 2.4.7 + Haddop 2.10。 我的应用程序从 S3 下载 CSV 文件并进行处理。该文件由第三方公司提供。

我在考虑让他们使用 lz4lzo 或其他可拆分的压缩。但是,我所看到的命令行工具文件格式与 Hadoop lz4lzo 编解码器不兼容(我尝试了 lzoplz4 cli)

您是否知道有哪些 CLI 工具允许以 Hadoop 编解码器能够理解的格式准备 lz4 或 lzo 压缩文件

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)