问题描述
我正在开发一个项目,该项目使用SQS触发的Lambda将某些内容提取到AWS Elasticsearch中。
Lambda和Elasticsearch服务位于同一VPC中。
源代码非常简单,其大小为10.5kB(主要是静态资源,即xsl文件)。
所使用的库打包在单独的层中。
当我第一次部署Lambda时,一切正常运行,lambda被调用了数千次,大约一两天,一切都按预期运行。但是,它随后开始超时,一旦超时,它就会一直执行,直到我重新部署为止。
无论我使用elasticsearch-py
客户端还是requests.get
,都会发生这种情况。
增加超时或内存分配无济于事。
有人遇到过类似的问题吗?
解决方法
??♂️原来是我们的部署设置存在问题...
我的项目与另一个团队Terraform部署创建的Elasticsearch实例进行交互。
当我为我的项目环境(同样在Terraform中)创建资源时,我向现有安全组添加aws_security_group_rule
:
data "aws_security_group" "es_sg" {
name = var.security_group_name
}
resource "aws_security_group_rule" "allow_lambda_access_to_es" {
type = "ingress"
to_port = 443
protocol = "tcp"
from_port = 443
security_group_id = data.aws_security_group.es_sg.id
source_security_group_id = module.lambda.sg_id
description = "Ingestion lambda access to ES"
}
当其他团队重新申请时,规则将被删除...
此问题的解决方法是让另一个团队将其规则定义为单独的资源,而不是内联。