Ray:aws 上的自动缩放器只创建头节点,而不是工作节点?

问题描述

这是我的 yaml 文件

cluster_name: my_test

# The number of worker nodes to launch in addition to the head node.
initial_workers: 3
min_workers: 3
max_workers: 3

provider:
 type: aws
 region: us-east-2
 availability_zone: us-east-2a

head_node:
    InstanceType: r5.4xlarge
    ImageId: ami-0ebc84cad4ab1c308 # Ubuntu 18.04
    BlockDeviceMappings:
        - DeviceName: /dev/sda1
          Ebs:
              VolumeSize: 10

    InstanceMarketoptions:
        MarketType: spot
        SpotOptions:
            MaxPrice: '0.18'


worker_nodes:
    InstanceType: r5.4xlarge
    ImageId: ami-0ebc84cad4ab1c308 # Ubuntu 18.04

    BlockDeviceMappings:
        - DeviceName: /dev/sda1
          Ebs:
              VolumeSize: 10

    InstanceMarketoptions:
        MarketType: spot
        SpotOptions:
            MaxPrice: '0.18'

# List of shell commands to run to set up nodes.
setup_commands:
    - sudo apt update && sudo apt install -y gcc unzip libc6-dev g++
    - wget https://repo.continuum.io/miniconda/Miniconda3-py38_4.8.3-Linux-x86_64.sh || true
    - bash Miniconda3-py38_4.8.3-Linux-x86_64.sh -b -p $HOME/miniconda3 || true
    - echo 'export PATH="$HOME/miniconda3/bin:$PATH"' >> ~/.bashrc && source ~/.bashrc      
    - source ~/miniconda3/etc/profile.d/conda.sh && pip install ray[tune]==1.0.1.post1

当我运行 ray up my_file.yaml 时,它只创建没有任何工作节点的头节点。

但是当我将 InstanceType 更改为其他内容时,例如 m4.xlarge,或将 region 更改为 west,它会创建工作节点。但是,如果我再次拆除所有并重新打开光线,则不会再制造任何工人。最糟糕的是,这是随机发生的!

这是怎么回事?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)