问题描述
我想同时处理两个文件从 gcp 到数据流。
但是,在这种情况下,我认为每次都会处理它,而不仅仅是一次。
e.g) 如何同时读取和处理 file1 和 file2(我是否必须将两个文件放在一个文件中,然后按照路径?)
如果您能给我一个很好的例子或建议,我将不胜感激。
谢谢。
解决方法
如果您从一开始就知道 2 个文件,您可以简单地拥有一个带有 2 个条目 (fileIO) 的管道
我不懂你的语言,但按照设计你可以做到这一点
PCollection1 PCollection2
| |
FileIO(readFile1) FileIO(readFile2)
| |
Transform file Transform file
| |
WriteIO(sink) WriteIO(sink)
您可以想象副输入、展平、分组……一切都取决于您的需求。