增加 HIVE 中的最大行大小

问题描述

我有一个带有这些配置的 pyspark 作业：

self.spark = SparkSession.builder.appName("example") \
.config("hive.exec.dynamic.partition","true") \
.config("hive.exec.dynamic.partition.mode","nonstrict") \
.config("hive.exec.max.dynamic.partitions","5000000") \
.config("hive.exec.max.dynamic.partitions.pernode","1000000") \
.enableHiveSupport() \
.getorCreate()

我在任何地方都找不到如何设置配置以将 max row size 增加到 150mb。我只在impala中找到了这个命令。

提前致谢。

解决方法

Hive 中没有这样的配置，因为 Hive 不是全内存的，并且可以处理几乎无限大小的行。单个字符串的大小可以达到 2Gb 和 the number of columns can be many tens of thousands，尽管您可能需要（很可能）数千行来容纳单个容器内存，但通常映射器或减速器的大小超过 1G 并且可以增加。

hive hive-configuration pyspark pyspark