在Sagemaker超时上运行R

问题描述

我正在使用批处理转换作业在Sagemaker上运行R脚本，并且该功能带有您自己的泊坞窗。流程对于较小的数据集工作正常，但是当我尝试运行较大的数据集时，作业在40分钟后失败，并出现以下错误：“模型服务器在600秒内未响应/ invocations请求”。 Cloudwatch日志显示 cpu利用率为100％，内存低于10％。似乎无法响应ping。有什么办法可以将这600秒改写为更高的值？还是有什么方法可以限制正在运行的容器的cpu使用率？

解决方法

推断请求似乎有固定的超时，如下所示：https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-batch-code.html#your-algorithms-batch-code-how-containers-should-respond-to-inferences

SageMaker的设计方式是，训练模型花费大部分时间，并且推断应该很快（因为神经网络等就是这种情况）。

如果您还在R脚本中估算模型-您需要在SageMaker的培训部分中进行估算。

对于您的应用程序，在AWS Batch（https://aws.amazon.com/batch/）上运行作业可能是一个更好的选择

amazon-sagemaker amazon-web-services docker docker inference inference r r