问题描述
我正在将Java8用于我的Spark Job
我下面有输入数据集,需要将其格式化为输出数据集
输入数据集,其中包含大量数据:
region | keyword | id | name |
--------------------------------------|
REGION1 | milk | 200 | abc |
REGION2 | lemon | 100 | xy |
REGION1 | milk | 100 | z |
输出数据集:
region | keyword | id (type: set)|
--------------------------------------|
REGION1 | milk | {200,100} |
REGION2 | lemon | {100} |
如何在JavaRDD中实现这一目标?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)