具有给定数据集条件的 PySpark RDD 编程代码

问题描述

数据集 1：Employee.txt

ID,Name,AGE,SALARY
101,A,21,8000
102,B,22,14000
103,C,23,7000

使用 PySpark RDD 帮助计算年龄超过 25 岁的员工数量？

解决方法

您可以简单地在 RDD 上使用 filter 和 count：

rdd = sc.textFile("Employee.txt")

gt25_count = rdd.filter(lambda x: x != "ID,Name,AGE,SALARY") \
                .map(lambda x: x.split(",")) \
                .filter(lambda x: int(x[2]) > 25) \
                .count()

print(gt25_count)
# 0

apache-spark pyspark pyspark python rdd