spark sql读取带有文本分区的镶木地板表时出错

问题描述

1、背景:

我有一个 hive 外部表 A,它在创建时以文本格式创建。 分区的HDFS数据也是text+gz。

表 A 被数以千计的 sql.files 使用。 可以使用表A的所有5年历史分区。

目前我们有更好的存储格式镶木地板。降低转换成本 我打算将表 A 更改为镶木地板表,新分区的镶木地板+gz 数据和旧分区的 text+gz 数据。 业务可以通过sparksql和hivesql读取A表的任意分区。

2、验证流程:

2.1、创建表 enter image description here

2.2、添加分区

20210702 路径为 text+gz

20210703 路径是 parquet+gz

enter image description here

3、错误 enter image description here

4、期望:

有没有办法,比如参数配置,可以解决这个问题。

我做了什么: https://issues.apache.org/jira/browse/SPARK-24965 根据报错中报的stack信息,我在源码中没有看到关于hive表元数据和分区元数据的sparksql

5、配置环境: hdp2.7.3 sparksql2.3 hive1.2

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)