增加 HIVE 中的最大行大小

问题描述

我有一个带有这些配置的 pyspark 作业:

self.spark = SparkSession.builder.appName("example") \
.config("hive.exec.dynamic.partition","true") \
.config("hive.exec.dynamic.partition.mode","nonstrict") \
.config("hive.exec.max.dynamic.partitions","5000000") \
.config("hive.exec.max.dynamic.partitions.pernode","1000000") \
.enableHiveSupport() \
.getorCreate()

我在任何地方都找不到如何设置配置以将 max row size 增加150mb。我只在impala中找到了这个命令。

提前致谢。

解决方法

Hive 中没有这样的配置,因为 Hive 不是全内存的,并且可以处理几乎无限大小的行。单个字符串的大小可以达到 2Gbthe number of columns can be many tens of thousands,尽管您可能需要(很可能)数千行来容纳单个容器内存,但通常映射器或减速器的大小超过 1G 并且可以增加。