为什么 sparkml 随机森林分类器不支持 maxBins < 总分类值的数量?

问题描述

为什么 sparkml 的随机森林分类不支持 maxBins (M)

我对决策树箱的理解是...

统计数据分箱基本上是一种量化形式,您可以将一组具有连续值的数字映射到更小、更易于管理的“分箱”中。

https://clevertap.com/blog/numerical-vs-categorical-variables-decision-trees/

...这让您看起来在任何情况下都不会真正想使用 M > K,但文档似乎暗示情况并非如此。

对于任何分类特征,必须 >=2 且 >= 类别数

另外,当我在 H2O 中使用随机森林实现时,我可以选择使用比不同分类值总数更少的 bin。

谁能解释一下spark中这种限制的原因?用户是否需要事先完成某种特定的数据预处理/特征工程?我是否对决策树有一些误解(例如,是否真的需要分类放在首位,并且设置仅用于数值或其他东西)?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)