Qi:如何设置兼容SLURM 20.02.3的dask和dask_ml配置

问题描述

每当使用 dask_ml 和 dask 包时,我们都会遇到并行处理问题。我们观察到的现象是:dask无法被Slurm作业管理器控制,无法正确分配MPI作业。所有worker的性能都很低(cpu低于10%),产生了很多线程(~100),仍然无法完成计算。请注意,这个 python 对象在 Comet 上运行非常高效,完全没有问题。

例如,在主 python (3.6.9) 脚本中:

import dask_ml.model_selection as dcv
njobs=16
regressor = dcv.gridsearchcv(snn.MLPRegressor(verbose=False),param_list,cv=5,n_jobs=njobs)
# Job Submission
#===#
#!/bin/bash
#SBATCH -A csd665 --partition=shared --nodes=1 --ntasks-per-node=16 --mem=32 GB --time=1:00:00 -o Job%4jOutput-%u-%x-%N-%A.SlurmOut.txt -e Job%4jError-%u-%x-%N-%A.SlurmOut.txt
module purge
module load cpu
module load gcc
module load mvapich2
module load slurm
date
python ./run.ref
date
#===#

我们安装的dask版本是:2.12.0;我们安装的 dask_ml 版本是:1.2.0。 您能否给我们一些指南,说明如何检查当前版本的 dask/dask_ml 与 Expanse 环境的兼容性?您有设置 dask/dask_ml 的经验吗?

非常感谢!我们正在等待您的回复。 非常感谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)