ray tune 中是否有 `initial_workers` (cluster.yaml) 替换机制?

问题描述

我简短地描述了我的用例:假设我想在 AWS 上启动一个有 10 个工作人员的集群: 过去我总是使用 initial_workers: 10min_workers: 0max_workers: 10 选项 (cluster.yaml) 来最初将集群启动到满容量,然后利用基于集群的自动缩减在空闲时间。因此,在作业结束时,几乎所有试验都已终止并且不再需要集群的全部容量,节点将自动删除。 现在,随着 initial_workers 选项消失 #12444,我不太清楚如何完成相同的缩减行为。

我在 ray.autoscaler.sdk.request_resources 之前和之后尝试了以编程方式请求资源 (tune.run) 但这似乎与 settig min_workers 字段相同,我只能缩小集群在所有工作都被终止后。 我还尝试设置 upscaling_speed,但由于某种原因,升级非常缓慢,而且似乎一次只添加一个节点(我要求使用 GPU)。也总是只有一个待处理的任务我也不太明白(不幸的是,我也没有时间完全调查这个 :()

目前我正在使用上面描述的编程方式,它工作正常,但在工作结束时我有很多空闲资源,在我可以缩减规模之前运行了几个小时。

如果有人能指出我解决这个问题的正确方向,那就太好了。

谢谢

解决方法

ray 版本 1.30 中,我观察到的自动缩放问题似乎得到了解决,现在集群按预期随着待定试验进行扩展(使用 AWS ec2 g4dn 实例)。所以不再需要 intial_workers 选项。