使用dask-yarn

问题描述

我正在使用Mapr群集中的本地模式使用dask-yarn。我已将虚拟环境解压缩到节点之间的共享文件夹中。 有时,工作人员(容器)会在群集中正常启动,但有时容器中的纱线中会显示下一条错误消息。

/usr/bin/env: 'python3.6': No such file or directory

同时,我看到许多状态为Failed(> 1000)的容器。我最初的准备金大约是5名工人,但是我必须等待大约10分钟或更长时间才能获得最初的准备金。

接下来是我的/etc/dask/yarn.yaml配置

yarn:
  specification: null        
  name: dask                 
  queue: default             
  deploy-mode: local        
  environment: "venv://<shared_location>"
  tags: []                  
  user: ''                  
  host: "host_name"             
  port: 8788                    
  dashboard-address: ":17439"   

  scheduler:                 
    vcores: 1
    memory: 2GiB

  worker:                   
    vcores: 1
    memory: 2GiB
    restarts: -1            
    env: {'SOME_VAR':'some_value'}

解决方法

该问题的原因:某些节点在相同位置没有相同的python版本。由于我使用的是虚拟环境。虚拟环境应该在所有节点中的同一位置具有python