Spark有状态结构化流中的黑名单

问题描述

当前,我们有一个“有状态” Spark结构化流传输作业,可为每个ID计算汇总。我需要实施一项新要求,要求否。特定ID的传入邮件数量超过某个值,然后将此ID添加到黑名单并删除其状态。继续处理列入黑名单的ID,我们不会为其创建状态。如果将ID列入黑名单,则该消息只会被过滤掉。

在Spark结构化流媒体中实现此目标的最佳方法是什么?本质上,我们需要做的是创建一个分布式HashSet,该HashSet会间歇性地进行更新,并使该HashSet可用于所有执行程序,以便他们可以过滤掉不需要的消息。

任何指针将不胜感激。是使用第三方分布式缓存工具(例如EhCache,Redis等)的唯一选择吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)