需要澄清有关Spark Scala Array的问题

问题描述

说,我有一个数据框。该数据帧中很少有列值是Array(),即Array [nothing]。我该如何过滤?因为如果我不这样做,如果有人尝试打印数据框左右,它将抛出错误

解决方法

只需过滤空数组。

val df1 = df.withColumn("array",array())
df1.show()

+---+-----+
| id|array|
+---+-----+
|  1|   []|
+---+-----+

val df2 = df1.filter("array != array()")
df2.show()

+---+-----+
| id|array|
+---+-----+
+---+-----+