相对于基础数据集的 PDF 缩放分类器中的 bin 大小

问题描述

我正在尝试寻找解决以下问题的最佳方法:我正在处理一个大型数据集,我想在其上运行 Python 分类器。 我的第一个想法是根据数据和我想要的类数创建类,所以只需找到数据的最大值并将其除以类数 n。问题是,最大值通常是异常值。这样,我在主数据集群和一些接近最大值的类中得到了糟糕的分辨率,这些类几乎没有成员或根本没有成员。

我有两个想法来解决这个问题:

  1. 相对于基础数据集的概率密度来缩放 bin 大小。换句话说:在聚集最多数据的地方缩小 bin 的大小,在离群值所在的地方放大。

  2. 使用数据的平均值和两个方向的固定数量的标准偏差来基本上创建“相对箱”,例如“远低于平均值”(avg-2xsigma),“略低于平均值”(avg -sigma)、“平均值”、“远高于平均值”等

我现在的问题是:想法 1. 是否是一种已知的分类分箱程序?是否有以这种方式加权班级规模的已知程序?还是我应该只使用方法 2?我觉得这是一种相当懒惰的方法,因为它仍然使用相同的 bin 大小,并且在创建 bin 大小时不太灵活。

如果你能给我一些关于这个问题的意见,也许有人对这个问题感兴趣,那就太酷了。欢迎任何头脑风暴!

最好的, 纳布

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)