Axon事件处理超时

问题描述

我正在使用Axon事件跟踪处理器。有时,事件需要花费10秒钟以上的时间来处理。

这似乎导致消息被再次处理,并且出现在日志“释放令牌X / 0的声明失败。它由另一个节点拥有。”

如果我增加了段数,它没有记录此事件,那么该事件仍会处理两次,因此我认为这可能会产生误导。(我认为我对此有误)

我尝试调整fetchDelay,cleanupDelay和tokenClaimInterval。没有一个可以解决此问题。是否有财产或我缺少的东西?

修改

耗时超过10秒的情况是向外部服务发出HTTP请求。

当与Spring自动配置一起使用时,我正在使用具有所有认配置的axon 4.1.2。我看不到Releasing claim on token and preparing for retry in [timeout]s日志。

我在一个段和两个应用程序实例中遇到这个问题。我意识到我并没有像我想的那样增加细分的数量

经过进一步调查,我发现添加其他段似乎已阻止了此操作。即使我有2个细分市场和6个应用程序,它仍然不会再出现,但是我不确定这与我原来的1个细分市场和2个应用程序的场景有何不同?

我没有意识到多个线程可能会获取相同的跟踪令牌并处理相同的事件。听起来最好的措施是在HTTP调用之前进行等电位检查?

解决方法

Releasing claim of token [event-processor-name]/[segment-id] failed. It was owned by another node.消息只能在以下三种情况下发生:

  1. 您正在执行两个段的合并操作,该操作失败,因为给定线程不拥有两个段。
  2. TrackingEventProcessor的主事件处理循环已停止,但是释放令牌声明失败,因为该令牌已被另一个线程声明。
  3. 主事件处理循环捕获到Exception,使其以指数退避重试,并尝试释放声明(可能因给定消息而失败)。

我猜这不是选项1和2,所以我们可以选择选项3。这还意味着您还看到了其他WARN级别的消息,例如:

Releasing claim on token and preparing for retry in [timeout]s

您是否可以分享情况?这样,我们可以更好地指出您遇到的确切问题。

顺便说一句,很可能您有多个进程(TrackingEventProcessor的事件处理线程)互相盗用TrackingToken。当他们窃取未更新的令牌时,两个(或多个)将处理同一事件。因此,为什么看到事件处理程序被调用两次。

明显不受欢迎的行为,我们应该为您解决。我想请您提供关于该问题下我的评论的答案,因为现在我几乎不需要进行任何操作。让我们找出这个@Dan!

更新

感谢您更新问题@dan,这非常有帮助。 根据您的分享,我非常有信心两个实例都在相互窃取令牌。但这确实取决于两者是否都为token_entry表使用了相同的数据库(尽管我假设它们是)。

如果他们使用同一张表,那么他们应该“很好地”共享他们的工作,除非其中之一花费了很长时间。如果花费很长时间,则令牌将由另一个进程声明。在这种情况下,另一个过程是另一个应用程序实例的TEP的线程。默认情况下,“声明超时”为10秒,这也与长时间运行的事件处理过程相对应。

通过调用claimTimeout / Builder中的JpaTokenStore(取决于您使用的是/自动接线)并调用{{ 1}}方法。而且,我认为这将是您的最终要求,因为您需要长期运行。

当然有不同的解决方法。例如,确保TEP仅在单个实例上运行(尽管不是真正的容错),或者将该长时间运行的操作卸载到由事件触发的调度任务上。

但是,我认为我们至少已经找到了问题,因此,我建议调整JdbcTokenStore,看看问题是否仍然存在。 让我们知道这是否可以解决您@dan上的问题!