相对于基础数据集的 PDF 缩放分类器中的 bin 大小

问题描述

我正在尝试寻找解决以下问题的最佳方法：我正在处理一个大型数据集，我想在其上运行 Python 分类器。我的第一个想法是根据数据和我想要的类数创建类，所以只需找到数据的最大值并将其除以类数 n。问题是，最大值通常是异常值。这样，我在主数据集群和一些接近最大值的类中得到了糟糕的分辨率，这些类几乎没有成员或根本没有成员。

我有两个想法来解决这个问题：

相对于基础数据集的概率密度来缩放 bin 大小。换句话说：在聚集最多数据的地方缩小 bin 的大小，在离群值所在的地方放大。
使用数据的平均值和两个方向的固定数量的标准偏差来基本上创建“相对箱”，例如“远低于平均值”（avg-2xsigma），“略低于平均值”（avg -sigma)、“平均值”、“远高于平均值”等

我现在的问题是：想法 1. 是否是一种已知的分类分箱程序？是否有以这种方式加权班级规模的已知程序？还是我应该只使用方法 2？我觉得这是一种相当懒惰的方法，因为它仍然使用相同的 bin 大小，并且在创建 bin 大小时不太灵活。

如果你能给我一些关于这个问题的意见，也许有人对这个问题感兴趣，那就太酷了。欢迎任何头脑风暴！

最好的，纳布

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

classification data-science python statistics