问题描述
我在使用 prometheus 和 cadvisor 导出器设置监控堆栈时遇到了一个问题。当容器意外关闭时(我的意思是,这可以通过重新启动:除非停止标志?)或容器无法启动时,我需要从警报管理器接收警报。我可以看到 cadvisor 正在公开一个名为 container_last_seen 的指标,我可以将其与当前时间进行比较,如果该值超过特定阈值(比如 60 秒),则发出警报。
问题是,cadvisor 导出器只保留数据 5 分钟,所以即使容器在这段时间之后没有运行,它也会被报告为已解决的问题,因为这个指标不再存在。
如果我有一个特定的容器要监控(按容器名称过滤),这不会成为问题,但是我有不同的容器和不同的项目在运行,所以我需要一些通用的东西。有没有办法解决这个问题?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)