如何解决GCP AI预测平台中的5xx错误?

问题描述

我们已经能够将模型(自定义预测和Tensorflow SavedModel格式)部署到AI Prediction Platform,并且基本测试表明事情至少对于在线预测有效。我们现在正在尝试将其投入生产之前进行一些负载测试,并解决一些稳定性问题。

我们看到各种错误- 429-“流量超出了服务容量。请减少流量或减小模型的大小” 503-“上游连接错误或在标头之前断开连接/重置。重置原因:连接失败” 504-“等待通知超时。”

我们已经实现了一种指数补偿方法,随着时间的推移,该方法通常可以解决上述问题。但是,我们要确保我们了解发生了什么。

429似乎很简单-等待事情扩展。

503/504错误,我们不确定原因是什么,以及如何解决/消除。我们使用的是批处理大小(根据TensorFlow model serving on Google AI Platform online prediction too slow with instance batches-似乎没有对较大的批处理进行任何内部优化),机器大小等。不确定是否是资源问题,尽管我们看到这些错误小批量(实例数)。

还有其他人遇到这些问题吗?有什么建议的最佳做法吗?谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...