对A下采样以匹配B

问题描述

我有两个样本A和B,它们的大小差异很大。 A比B大10倍,这就是为什么我想对它进行降采样以便在机器学习应用程序中使用。我知道还有其他方法可以平衡训练,但是由于A太大了,所以无论如何我都需要降采样。 A和B位于相同的特征空间中,但是特征分布不同,这会使我的结果感到困惑。我知道,通常您是基于特征的不同分布来区分A和B的各个示例,但是请相信我,在这种情况下,这是有害的。

所以我的问题是:我如何以某种方式对A进行下采样,以使在下采样集A'中,要素显示出与B中的要素相似的分布?当我们从A采样时,这种分布的“接近”可以通过任何任意距离度量来度量,无论是均值和方差的标准化差(请考虑统计检验),还是Kullback-Leibler散度或其他。

请注意,原则上可以在给定适当的A和B的情况下完成此任务。将A视为A国所有居民的集合,而B是B国所有老年患者的集合,唯一的特征是年岁。考虑到两个国家的大小和年龄结构相似,可以对A进行下采样,以便A'仅包含A国的老年人。此示例与我的问题之间的唯一区别是,我需要这样做自动同时具有多个特征,这些特征可以是分类,二进制和连续值及其组合。

鉴于其广泛的应用范围,我希望已经解决了。高度优选使用python和/或R的现有实现,尽管我也很高兴以口头描述一个好的算法。

非常感谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)