AWS ElasticsearchService：自动快照运行超过20天

问题描述

几天来，我们在ElasticSearch查询中遇到了很多失败。当我监视集群运行状况时，cpu / JVM内存利用率很高（几乎98％）。在调试问题时，我发现上一个自动快照的状态为i IN_PROGRESS超过20天，我怀疑这是根本原因。但是我不确定是什么原因导致了长时间快照，并且无法停止/删除该快照。当我使用带有aws签名的邮递员在存储库上尝试http DELETE请求时，出现401 Unauthorized错误，消息为Your request is not allowed。

任何人都可以帮助我了解长期运行的快照问题以及如何解决它。

谢谢。

解决方法

这是Elasticsearch中卡住快照的经典情况。当主节点和数据节点因分片的快照状态不同步时发生卡住快照。通常在群集变红或某些节点在JVM高压力下突然退出群集时发生。

高CPU / JVM内存利用率通常不是，是由于快照卡住所引起的。通常情况是相反的，即快照由于高JVM利用率而陷入IN_PROGRESS状态。为了使Elasticsearch集群具有更好的性能，您应该尝试将JVM保持在80％以下。扩大规模是减轻JVM压力的一种选择。

不允许用户访问AWS Elasticsearch上的自动快照。要解决快照处于IN_PROGRESS状态的问题，您应该吸引AWS Elasticsearch客户支持

amazon-web-services aws-elasticsearch elasticsearch