问题描述
数据集 1:Employee.txt
ID,Name,AGE,SALARY
101,A,21,8000
102,B,22,14000
103,C,23,7000
使用 PySpark RDD 帮助计算年龄超过 25 岁的员工数量?
解决方法
您可以简单地在 RDD 上使用 filter
和 count
:
rdd = sc.textFile("Employee.txt")
gt25_count = rdd.filter(lambda x: x != "ID,Name,AGE,SALARY") \
.map(lambda x: x.split(",")) \
.filter(lambda x: int(x[2]) > 25) \
.count()
print(gt25_count)
# 0