Apache将JavaRDD按2个关键字段分组,并按设置获取第三个归档输出

问题描述

我正在将Java8用于我的Spark Job

我下面有输入数据集,需要将其格式化为输出数据集

输入数据集,其中包含大量数据:

region   |  keyword   | id    | name  |
--------------------------------------|
REGION1  |  milk      | 200   | abc   |
REGION2  |  lemon     | 100   | xy    |
REGION1  |  milk      | 100   | z     |

输出数据集:

region   |  keyword   | id (type: set)| 
--------------------------------------|
REGION1  |  milk      | {200,100}    |
REGION2  |  lemon     | {100}         |

如何在JavaRDD中实现这一目标?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)