为什么 sparkml 随机森林分类器不支持 maxBins

为什么 sparkml 的随机森林分类器不支持 maxBins (M)

我对决策树箱的理解是...

统计数据分箱基本上是一种量化形式，您可以将一组具有连续值的数字映射到更小、更易于管理的“分箱”中。

...这让您看起来在任何情况下都不会真正想使用 M > K，但文档似乎暗示情况并非如此。

对于任何分类特征，必须 >=2 且 >= 类别数

另外，当我在 H2O 中使用随机森林实现时，我可以选择使用比不同分类值总数更少的 bin。

谁能解释一下spark中这种限制的原因？用户是否需要事先完成某种特定的数据预处理/特征工程？我是否对决策树有一些误解（例如，是否真的需要将分类放在首位，并且设置仅用于数值或其他东西）？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

为什么 sparkml 随机森林分类器不支持 maxBins < 总分类值的数量？