在 Apache Beam Python 中对两个 CSV 文件执行左连接

问题描述

在我的练习中,我尝试在 Apache Beam 中加入两个 CSV,但没有成功。还检查了多个帖子,但没有任何效果

我有两个 CSV 输入文件,制表符分隔,我想从主文件提取 A、C 列,从辅助文件提取 A 列。 加入条件为 Master.A = Secondary.B

师父:

Master

次要:

Secondary

我尝试为它们创建不同的 Pcollection,但不知道如何继续。 同样,这(CSV 连接)是条件之一。多文件组合(CSV-JSON-xyz)如何处理?

解决方法

要加入您的集合,您需要提取连接列作为键,然后使用 CoGroupByKey 转换。该转换的输出是每个键一个元素,包含每个输入的连接结果。