Spark有状态结构化流中的黑名单

当前，我们有一个“有状态” Spark结构化流传输作业，可为每个ID计算汇总。我需要实施一项新要求，要求否。特定ID的传入邮件的数量超过某个值，然后将此ID添加到黑名单并删除其状态。继续处理列入黑名单的ID，我们不会为其创建状态。如果将ID列入黑名单，则该消息只会被过滤掉。

在Spark结构化流媒体中实现此目标的最佳方法是什么？本质上，我们需要做的是创建一个分布式HashSet，该HashSet会间歇性地进行更新，并使该HashSet可用于所有执行程序，以便他们可以过滤掉不需要的消息。

任何指针将不胜感激。是使用第三方分布式缓存工具（例如EhCache，Redis等）的唯一选择吗？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）