问题描述
当前,我们有一个“有状态” Spark结构化流传输作业,可为每个ID计算汇总。我需要实施一项新要求,要求否。特定ID的传入邮件的数量超过某个值,然后将此ID添加到黑名单并删除其状态。继续处理列入黑名单的ID,我们不会为其创建状态。如果将ID列入黑名单,则该消息只会被过滤掉。
在Spark结构化流媒体中实现此目标的最佳方法是什么?本质上,我们需要做的是创建一个分布式HashSet,该HashSet会间歇性地进行更新,并使该HashSet可用于所有执行程序,以便他们可以过滤掉不需要的消息。
任何指针将不胜感激。是使用第三方分布式缓存工具(例如EhCache,Redis等)的唯一选择吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)