如何在 PySpark 中有条件地加入 2 个 RDD

问题描述

RDD1 的格式为:

[
(('1234','word1'),1),(('1234','word2'),4),(('9876','word3'),3),2),]

RDD2 的格式:

[
('word1',100)
('word2',200)
('word3',300)
]

我想按照以下格式创建一个RDD

[
(('1234',1,100),4,200),3,300),2,]

我已经尝试了以下

RDD1 = RDD1.map(lambda x: (x[0][0],x[0][1],x[1]))
RDD3 = RDD1.join(RDD2)

我得到了空列表。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)