Delta Table 是否非常适合不断变化的实体?

问题描述

我有这个遗留系统,它按照更改的速度将记录流式传输到队列(Azure 事件中心)中,并且每 24 小时,另一个进程读取所有记录并将它们全部转储到流中。这种机制让任何消费者都可以通过读取此流的最后 +24 小时来重新创建数据。

我正在使用 Spark 读取此流并重新创建原始数据的视图(不幸的是,我无法直接读取它)。此数据将与其他 Spark 作业合并,用于批处理和流式处理。

就合适的存储后端而言,我有哪些选择?

Delta Table 适合这种负载吗?我应该使用 No sql 后端(例如 Mongo DB)吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)