决策树不平衡数据:一片叶子中的数据高度集中

问题描述

我使用一个简单的决策树进行分类。该数据集是一个具有 30k 行的不平衡数据集。 使用的包:sklearn。

我使用 predict_probab 函数,然后绘制决策树。该模型有 8 个叶子(尝试了预剪枝和剪枝后)。 50% 的数据被分成 7 个叶子,而剩下的 50% 最终变成了一个叶子。有没有办法瞄准这片叶子并进一步分支它。

我的尝试

我将位于单个叶子中的 50% 数据集分离出来,并为其单独创建了一个规则。但是,我想知道这种方法是否有意义。如果是,有没有办法结合规则。

谢谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)