如何使用linux或hdfs命令将多个镶木地板文件合并到单个镶木地板文件?

我有多个小的镶木地板文件作为hive ql作业的输出生成,我想将输出文件合并到单个镶木地板文件

使用一些hdfs或linux命令执行此操作的最佳方法是什么?

我们曾经使用cat命令合并文本文件,但这对于镶木地板也适用吗?
我们可以在编写输出文件时使用HiveQL本身吗,就像我们如何使用spark中的重新分区或coalesc方法一样?

解决方法

根据这个 https://issues.apache.org/jira/browse/PARQUET-460
现在您可以下载源代码并编译在merge命令中构建的镶木地板工具.
java -jar ./target/parquet-tools-1.8.2-SNAPSHOT.jar merge /input_directory/
        /output_idr/file_name

或者使用像https://github.com/stripe/herringbone这样的工具

相关文章

insmod和modprobe加-f参数导致Invalid module format错误 这...
将ArchLinux安装到U盘 几个月前入门Arch的时候上网搜了不少安...
1、安装Apache。 1)执行如下命令,安装Apache服务及其扩展包...
一、先说一下用ansible批量采集机器信息的实现办法: 1、先把...
安装配置 1. 安装vsftpd 检查是否安装了vsftpd # rpm -qa | ...
如何抑制stable_secret读取关键的“net.ipv6.conf.all.stabl...