问题描述
几天来,我们在ElasticSearch查询中遇到了很多失败。当我监视集群运行状况时,cpu / JVM内存利用率很高(几乎98%)。
在调试问题时,我发现上一个自动快照的状态为i IN_PROGRESS
超过20天,我怀疑这是根本原因。
但是我不确定是什么原因导致了长时间快照,并且无法停止/删除该快照。当我使用带有aws签名的邮递员在存储库上尝试http DELETE请求时,出现401 Unauthorized
错误,消息为Your request is not allowed
。
任何人都可以帮助我了解长期运行的快照问题以及如何解决它。
谢谢。
解决方法
这是Elasticsearch中卡住快照的经典情况。当主节点和数据节点因分片的快照状态不同步时发生卡住快照。通常在群集变红或某些节点在JVM高压力下突然退出群集时发生。
高CPU / JVM内存利用率通常不是,是由于快照卡住所引起的。通常情况是相反的,即快照由于高JVM利用率而陷入IN_PROGRESS
状态。为了使Elasticsearch集群具有更好的性能,您应该尝试将JVM保持在80%以下。扩大规模是减轻JVM压力的一种选择。
不允许用户访问AWS Elasticsearch上的自动快照。要解决快照处于IN_PROGRESS状态的问题,您应该吸引AWS Elasticsearch客户支持