Uber Cadence 任务列表管理

问题描述

我们正在使用 Uber Cadence，并且会定期在生产环境中遇到问题。设置如下：

一个带有 Cadence 客户端 2.7.5 的 Java 14 BE
带有 Postgres DB 的 Cadence 服务版本 0.14.1

有多个域，对于所有域，单个 BE 服务器都注册为 worker。

在日志中可以看到的是，有时在查询过程中，节奏似乎失去了对 BE 服务的粘性：

"msg":"query direct through matching failed on sticky,clearing sticky before attempting on non-sticky","service":"cadence-history","shard-id":1,"address":"10.1.1.111:7934"
"msg":"query directly though matching on non-sticky failed","address":"10.1.1.111:7934"..."error":"code:deadline-exceeded message:timeout"
"msg":"query directly though matching on non-sticky failed","address":"10.1.1.111:7934"..."error":"code:deadline-exceeded message:timeout"
...

同时在后端什么也看不见。但是，在此期间，如果我检查 cadence Web 客户端上的轮询器，我会看到任务列表在那里，但它不再被视为决策处理程序 (http://localhost:8088/domains/mydomain/task-列表/mytasklist/pollers）。正因为如此，整个环境几乎都死了，因为没有什么可以随着决定而进步。唯一的选择是重启后端服务，让它重新注册为 worker。

此时调查陷入僵局，希望能提供帮助。

有谁知道工作人员或任务列表如何失去其作为决策处理者的能力？它是否由节奏管理，例如基于工人产生的错误数量？我找不到任何关于此的信息。
据我所知，当粘性丢失时，cadence 将检查是否有另一个工作人员重播工作流程并继续执行（在我的情况下，这将是同一个工作人员，因为只有一个工作人员）。是否有可能无法重放流程（尽管我认为它会在来自 cadence 客户端的后端日志中生成一些内容），或者此时工作人员已经从列表中删除并导致超时？

欢迎任何帮助！谢谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

cadence-workflow uber-cadence