在断开连接的系统中进行跟踪

问题描述

我知道在基于 OpenTracing 和 OpenTelemetry 的分布式系统中有一些用于跟踪请求的库;这些都有效,因为请求是连接/链接的(微服务相互通信)。系统/服务断线如何追踪?

服务 X 调用服务 Y。Y 执行一些处理然后写入共享位置。组件 Z 轮询共享位置(在 hrs 之后)并进行处理。

我想知道是否对于 X 生成的每个请求,这 3 个系统中的每一个的状态。

一种简单的跟踪方法是有一个表并更新数据库条目。 然而,考虑到我可能需要重试某些事情,我曾考虑引入一个工作流引擎(Cadence),它在服务 X 上打开一个工作流。然后在每个服务上更新工作流。如果请求达到 Y,则完成 w/f 中的一个步骤。如果它没有到达 Z,工作流将保持打开状态,一段时间后我可以生成一封电子邮件等,说工作流失败。

我需要帮助来了解这是否是正确的方法和/或不同的方法

解决方法

这是 Cadence Workflow 最典型的用例之一。推荐的解决方案是让服务 X 启动工作流。它将执行一个活动以对服务 Y 进行服务调用。如果可能,让组件 Z 向工作流发送一个 signal,告知处理已完成。或者,您可以通过其他活动来继续轮询状态。

请注意,对于 Cadence 支持的活动,可以轻松完成回退 retry

然后在工作流中使用计时器来触发发送电子邮件的活动。

最后这个工作流的状态还是作为工作流的局部变量。您可以在工作流中实施 Query 处理程序以获取状态。或者您可以实施后台活动来主动报告进度。

开放追踪库框架是为了解决另一个问题。它是测量和分析服务依赖性和延迟。事实上,Cadence 工作流也支持开放追踪,这里是example。它是针对服务级别的,而不是针对特定的请求或处理。