如何过滤RDD Scala中的重复项?

问题描述

我的rdd具有不同的字段,即a,b,c,d。我想筛选其中一个具有重复值的字段之一。 例如

inputRdd = [(1,2,3,4),(1,4,5),(2,6,8),7),(3,5,(9,1,6)]

resultRdd = [(1,7)]

有没有可以应用的功能

类似

resultRDD = inputRdd.filter(x => x.a.contains("identify duplicates"))

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)