如何在 GCP 上同时处理数据流两个批处理文件

问题描述

我想同时处理两个文件从 gcp 到数据流。

我认为如果在侧面输入中再有一个文件是可能的。

但是,在这种情况下,我认为每次都会处理它,而不仅仅是一次。

e.g) 如何同时读取和处理 file1 和 file2(我是否必须将两个文件放在一个文件中,然后按照路径?)

如果您能给我一个很好的例子或建议,我将不胜感激。

谢谢。

解决方法

如果您从一开始就知道 2 个文件,您可以简单地拥有一个带有 2 个条目 (fileIO) 的管道

我不懂你的语言,但按照设计你可以做到这一点

     PCollection1                        PCollection2
          |                                   |
   FileIO(readFile1)                   FileIO(readFile2)
          |                                   |
    Transform file                       Transform file
          |                                   |
    WriteIO(sink)                        WriteIO(sink)

您可以想象副输入、展平、分组……一切都取决于您的需求。