pyspark中aggregate(0, lambda,lambda)的用法

seqOp = (lambda x,y: x+y)
sum_temp = df.rdd.map(lambda x: len(x.timestamp)).aggregate(0,seqOp,seqOp)

sum_temp 的输出是一个数值。但我不清楚 aggregate(0,seqOp) 是如何工作的。在我看来，通常情况下，aggregate 只使用一个单一的函数形式，如 "avg"

此外，df.rdd.map(lambda x: len(x.timestamp)) 的类型为 pyspark.rdd.PipelinedRDD。我们如何获取它的内容？

根据docs，聚合过程：

您可能将此聚合与数据帧的聚合方法混淆了。 RDD 是低级对象，这里不能使用数据帧聚合方法，例如 avg/mean/etc。

要获取 RDD 的内容，您可以执行 rdd.take(1) 来检查随机元素，或者使用 rdd.collect() 来检查整个 RDD（请注意，这会将所有数据收集到驱动程序上，并且可以如果 RDD 很大会导致内存错误）。