针对数据分片的XGBoost培训

我是xgboost的新手，他试图弄清楚该算法是否有可能将分片数据训练到多个计算节点中（即，数据在不同服务器上分区）。

作为一个例子，假设一个数据集的数据被数据集.csv分为四个不同的数据集，每个数据集都位于单独的服务器中。我们是否可以在每个数据集（在每台计算机上运行）上并行训练算法（XGboost），然后合并结果？这将有助于减少总体运行时间。

谢谢。

我知道这些是在多个服务器上分发XGBoost培训的选项：xgboost4j_spark，YARN AWS (MPI,SGE and Hadoop YARN和Dask。复杂程度有所提高（例如，您可能需要compile xgboost with specific options enabled），并且有limitations，但是我想Dask是您要寻找的。 p>