针对数据分片的XGBoost培训

问题描述

我是xgboost的新手,他试图弄清楚该算法是否有可能将分片数据训练到多个计算节点中(即,数据在不同服务器上分区)。

作为一个例子,假设一个数据集的数据被数据集.csv分为四个不同的数据集,每个数据集都位于单独的服务器中。 我们是否可以在每个数据集(在每台计算机上运行)上并行训练算法(XGboost),然后合并结果? 这将有助于减少总体运行时间。

谢谢。

解决方法

我知道这些是在多个服务器上分发XGBoost培训的选项:xgboost4j_sparkYARN AWS (MPI,SGE and Hadoop YARNDask。复杂程度有所提高(例如,您可能需要compile xgboost with specific options enabled),并且有limitations,但是我想Dask是您要寻找的。​​ p>

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...