在Sagemaker超时上运行R

问题描述

我正在使用批处理转换作业在Sagemaker上运行R脚本,并且该功能带有您自己的泊坞窗。流程对于较小的数据集工作正常,但是当我尝试运行较大的数据集时,作业在40分钟后失败,并出现以下错误:“模型服务器在600秒内未响应/ invocations请求”。 Cloudwatch日志显示cpu利用率为100%,内存低于10%。似乎无法响应ping。有什么办法可以将这600秒改写为更高的值?还是有什么方法可以限制正在运行的容器的cpu使用率?

解决方法

推断请求似乎有固定的超时,如下所示:https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-batch-code.html#your-algorithms-batch-code-how-containers-should-respond-to-inferences

SageMaker的设计方式是,训练模型花费大部分时间,并且推断应该很快(因为神经网络等就是这种情况)。

如果您还在R脚本中估算模型-您需要在SageMaker的培训部分中进行估算。

对于您的应用程序,在AWS Batch(https://aws.amazon.com/batch/)上运行作业可能是一个更好的选择