sortWithinPartitions 如何排序？

问题描述

在将 sortWithinPartitions 应用于 df 并将输出写入表后，我得到了一个我不知道如何解释的结果。

df
.select($"type",$"id",$"time")
.sortWithinPartitions($"type",$"time")

结果文件看起来有点像

它实际上不是随机的，但也不是像我期望的那样排序。即，首先按类型，然后是 id，然后是时间。如果我在排序之前尝试使用重新分区，那么我会得到我想要的结果。但由于某种原因，文件的重量增加了 5 倍（100gb 对 20gb）。

我正在写入一个压缩设置为 snappy 的 hive orc 表。

有谁知道为什么它是这样排序的，为什么重新分区的顺序正确，但尺寸更大？

使用 spark 2.2。

解决方法

sortWithinPartition 的文档说明

返回一个新的数据集，每个分区按给定的表达式排序

考虑这个函数的最简单方法是想象第四列（分区 id）用作主要排序标准。函数 spark_partition_id() 打印分区。

例如，如果您只有一个大分区（您作为 Spark 用户永远不会这样做！），sortWithinPartition 可以正常排序：

df.repartition(1)
  .sortWithinPartitions("type","id","time")
  .withColumn("partition",spark_partition_id())
  .show();

印刷品

+----+---+----+---------+
|type| id|time|partition|
+----+---+----+---------+
|   1|  a|   5|        0|
|   1|  a|   6|        0|
|   1|  a|   7|        0|
|   1|  a|   8|        0|
|   2|  b|   1|        0|
|   2|  b|   2|        0|
|   2|  b|   3|        0|
|   2|  b|   4|        0|
+----+---+----+---------+

如果有更多的分区，结果只在每个分区内排序：

df.repartition(4)
  .sortWithinPartitions("type",spark_partition_id())
  .show();

印刷品

+----+---+----+---------+
|type| id|time|partition|
+----+---+----+---------+
|   2|  b|   1|        0|
|   2|  b|   3|        0|
|   1|  a|   5|        1|
|   1|  a|   6|        1|
|   1|  a|   8|        2|
|   2|  b|   2|        2|
|   1|  a|   7|        3|
|   2|  b|   4|        3|
+----+---+----+---------+

为什么要使用 sortWithPartition 而不是 sort？ sortWithPartition 不会触发 shuffle，因为数据仅在执行程序内移动。 sort 但是会触发随机播放。因此 sortWithPartition 执行得更快。如果数据按有意义的列进行分区，则在每个分区内排序可能就足够了。

apache-spark columnsorting orc snappy

sortWithinPartitions 如何排序？

问题描述

解决方法

相关问答