如何根据列值对数据集进行采样?

问题描述

我有一个包含150,000个数据点的数据集。每个数据点都有几个字段,包括一个值列。我想对数据集进行采样,以使值较高的行比值较低的行更有可能被选中。因此,根据下面的示例,在新数据集中,值1000的项目将比值5的项目多得多。

我不确定熊猫如何做到这一点。任何人都可以帮忙吗?

╔══════════════════════════════════════╗
║ id    description    number    value ║
╠══════════════════════════════════════╣
║ 0   A           1           20       ║
║ 1   A           11          50       ║
║ 2   A           1           10       ║
║ 3   A           14          1000     ║
║ 4   A           1           20       ║
║ 5   A           13          50       ║
║ 6   A           1           800      ║
║ 7   A           1           30       ║
║ 8   A           13          5        ║
║ 9   A           12          500      ║
╚══════════════════════════════════════╝

非常感谢您的所有帮助!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)