问题描述
在我的练习中,我尝试在 Apache Beam 中加入两个 CSV,但没有成功。还检查了多个帖子,但没有任何效果。
我有两个 CSV 输入文件,制表符分隔,我想从主文件中提取 A、C 列,从辅助文件中提取 A 列。
加入条件为 Master.A = Secondary.B
师父:
次要:
我尝试为它们创建不同的 Pcollection,但不知道如何继续。
同样,这(CSV 连接)是条件之一。多文件组合(CSV-JSON-xyz)如何处理?
解决方法
要加入您的集合,您需要提取连接列作为键,然后使用 CoGroupByKey 转换。该转换的输出是每个键一个元素,包含每个输入的连接结果。