scala – Spark – 一次通过RDD上的多个过滤器

我有一个RDD的Map [String,String];有没有办法多次调用过滤它而不经过RDD多次?

例如,我想做这样的事情:

val stateNY = mapRDD.filter(person => person("state").equals("NY"))
val stateOR = mapRDD.filter(person => person("state").equals("OR"))
val stateMA = mapRDD.filter(person => person("state").equals("MA"))
val stateWA = mapRDD.filter(person => person("state").equals("WA"))

还有这个:

val wage10to20 = mapRDD.filter(person => person("wage").todouble > 10 && person("wage").todouble <= 20)
val wage20to30 = mapRDD.filter(person => person("wage").todouble > 20 && person("wage").todouble <= 30)
val wage30to40 = mapRDD.filter(person => person("wage").todouble > 30 && person("wage").todouble <= 40)
val wage40to50 = mapRDD.filter(person => person("wage").todouble > 40 && person("wage").todouble <= 50)

其中mapRDD的类型为RDD [Map [String,String]],一次传递.

解决方法

我假设你的意思是你想为每个值返回单独的RDD(即不是简单地做人=> Set(“NY”,“OR”,“MA”,“WA”).contains(person(“state”)) )

通常,使用Pair RDDs可以实现您想要实现的目标

在您的第一个示例中,您可以使用:

val keyByState = mapRDD.keyBy(_("state"))

后执行groupByKey,reduceByKey等操作.

或者在你的第二个例子中,按工资向下舍入到最接近的10.

相关文章

共收录Twitter的14款开源软件,第1页Twitter的Emoji表情 Tw...
Java和Scala中关于==的区别Java:==比较两个变量本身的值,即...
本篇内容主要讲解“Scala怎么使用”,感兴趣的朋友不妨来看看...
这篇文章主要介绍“Scala是一种什么语言”,在日常操作中,相...
这篇文章主要介绍“Scala Trait怎么使用”,在日常操作中,相...
这篇文章主要介绍“Scala类型检查与模式匹配怎么使用”,在日...