运行多个Apache Spark流作业

问题描述

我是Spark流媒体的新手,正如我所见,做同一件事的方法有很多,这让我有些困惑。

这是方案: 我们每分钟都会发生多个事件(超过50个不同的事件),我想进行一些数据转换,然后将格式从json更改为Parquet,然后将数据存储在s3存储桶中。我正在创建一个管道,从中获取数据并将其存储在s3存储桶中,然后进行转换(Spark作业)。我的问题是:

1-如果我运行一个lambda函数,可以在单独的子目录中对每种事件类型进行分类,然后在sparkStreaming中读取该文件夹,那会很好吗?还是将所有事件存储在同一目录中,然后在我的Spark Streaming中读取它是更好的选择?

2-如何同时运行多个sparkStreamings?(我试图遍历模式和文件夹列表,但显然不起作用)

3-我是否需要编排工具(气流)?我需要一直在寻找新事件,并且之间不要停顿。

我将使用 KinesisFirehose -> s3 (数据湖)-> EMR (火花)-> s3 (数据仓库)

非常感谢您!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)