scala – Spark:如何在LabeledPoint上执行欠采样?

我的LabeledPoint中有一些不平衡的数据.我想做的是选择所有正面和n次负面(随机).例如,如果我有100个阳性和30000个阴性,我想创建新的LabeledPoint,其中包含所有100个阳性和300个阴性(n = 3).

在实际情况中,我并没有在开始时有多少积极和消极.

解决方法

据推测,您的数据是RDD [LabeledPoint].您可以执行以下操作:

val pos = rdd.filter(_.label==1)
val numPos=pos.count()
val neg = rdd.filter(_.label==0).takeSample(false,numPos*3)
val undersample = pos.union(neg)

您可以找到takeSample,filter和union here的文档.

相关文章

共收录Twitter的14款开源软件,第1页Twitter的Emoji表情 Tw...
Java和Scala中关于==的区别Java:==比较两个变量本身的值,即...
本篇内容主要讲解“Scala怎么使用”,感兴趣的朋友不妨来看看...
这篇文章主要介绍“Scala是一种什么语言”,在日常操作中,相...
这篇文章主要介绍“Scala Trait怎么使用”,在日常操作中,相...
这篇文章主要介绍“Scala类型检查与模式匹配怎么使用”,在日...