如何产生RDDpyspark中每个条目的不同数据类型组件以计算不同

问题描述

我有一个 RDD，它有两个由 TAB 分隔的组件。第一个是 node id ，第二个是一个字典，节点 id 作为键作为字符串，值作为权重。我需要计算图中的不同节点。

["2\t{'3': 1}","3\t{'2': 2}","4\t{'1': 1,'2': 1}","5\t{'4': 3,'2': 1,'6': 1}","6\t{'2': 1,'5': 2}","7\t{'2': 1,'5': 1}","8\t{'2': 1,"9\t{'2': 1,"10\t{'5': 1}","11\t{'5': 2}"]

我希望有 11 个不同的节点作为我的计数，其中 11 是来自输出的不同值，按行，如下：

2,'3'
3,'2'
4,'1','2'
5,'4','2','6'
6,'5'
7,'5'
8,'5'
9,'5'
10,'5'
11,'5'

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark python rdd