对A下采样以匹配B

问题描述

我有两个样本A和B，它们的大小差异很大。 A比B大10倍，这就是为什么我想对它进行降采样以便在机器学习应用程序中使用。我知道还有其他方法可以平衡训练，但是由于A太大了，所以无论如何我都需要降采样。 A和B位于相同的特征空间中，但是特征分布不同，这会使我的结果感到困惑。我知道，通常您是基于特征的不同分布来区分A和B的各个示例，但是请相信我，在这种情况下，这是有害的。

所以我的问题是：我如何以某种方式对A进行下采样，以使在下采样集A'中，要素显示出与B中的要素相似的分布？当我们从A采样时，这种分布的“接近”可以通过任何任意距离度量来度量，无论是均值和方差的标准化差（请考虑统计检验），还是Kullback-Leibler散度或其他。

请注意，原则上可以在给定适当的A和B的情况下完成此任务。将A视为A国所有居民的集合，而B是B国所有老年患者的集合，唯一的特征是年岁。考虑到两个国家的大小和年龄结构相似，可以对A进行下采样，以便A'仅包含A国的老年人。此示例与我的问题之间的唯一区别是，我需要这样做自动同时具有多个特征，这些特征可以是分类，二进制和连续值及其组合。

鉴于其广泛的应用范围，我希望已经解决了。高度优选使用python和/或R的现有实现，尽管我也很高兴以口头描述一个好的算法。

非常感谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

algorithm algorithm distribution distribution downsampling python sampling