使用 PySpark 计算出现次数

问题描述

我有一个 PairedRDD，其中包含文档 ID 作为键，以及该文档中的单词列表作为值。例如

DocID	单词
001	["quick","brown","fox","lazy","fox"]
002	["banana","apple","banana","fox"]

我设法做一个 mapValues 使得：

DocID	单词
001	[("quick",1),("brown",("fox",("lazy",1)]
002	[("banana",("apple",("banana",1)]

有没有办法只对 Word 执行 ReduceByKey()？

DocID	单词
001	[("quick",2),1)]

我仍然需要保持结构，使得计数仅应用于每个文档。

解决方法

您可以使用 collections.Counter 来计算每个文档中的字数：

from collections import Counter

rdd = sc.parallelize([
    ("001",["quick","brown","fox","lazy","fox"]),("002",["banana","apple","banana","fox"])
])

counted = rdd.mapValues(lambda x: list(zip(Counter(x).keys(),Counter(x).values())))

counted.collect()
# [('001',[('quick',1),('brown',('fox',2),('lazy',1)]),#  ('002',[('banana',('apple',1)])]

另一种 RDD 唯一方法：

from operator import add

result = rdd.flatMapValues(lambda x: x) \
            .map(lambda x: (x,1)) \
            .reduceByKey(add) \
            .map(lambda x: (x[0][0],[(x[0][1],x[1])])) \
            .reduceByKey(add)

result.collect()
#[('002',# ('001',[('brown',('quick',1)])]

apache-spark pyspark pyspark python rdd