k8s 中的 nodejs Web 应用程序出现 OOM

我正在 kubernetes 上运行一个使用 fastify 实现的 nestjs 网络应用程序。

我将我的应用程序拆分为 Multi Zones，并将其部署到不同物理位置的 k8s 集群（集群 A 和集群 B）。

一切都很顺利，除了 Culster A 中的 Zone X，它在所有区域中都拥有最大流量。 （这里是 Zone X 在正常时间的 2 天指标仪表板）

该问题仅发生在集群 A 中的 区域 X，而不会发生在任何其他区域或集群上。

起初集群A的Ingress Dashboard中出现了大约499个响应，很快Pod的内存突然一个接一个地扩展到内存限制。

似乎 499 状态是由 Pod 未向外部发送响应引起的。

同时，集群A中的其他区域正常工作。

为了避免影响用户，我将所有网络流量切换到集群B，一切正常，排除脏数据引起的。

我试图杀死并重新部署 集群 A 中 Zone X 的所有 Pod，但是当我将流量切换回集群 A 时，问题再次出现。但是等了2-3个小时后又恢复了交通，问题就消失了！

由于不知道怎么回事，我唯一能做的就是切换流量并检查一切是否恢复正常。

我已经尝试了节点内存问题的多种变体，但似乎没有一个会导致此问题。对这个问题有什么想法或灵感吗？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

相关问答