是否有R包或函数对数据集进行二次采样以近似某个分布?

问题描述

我有两组数据(a,b)具有不同的分布。集b具有更多数据点,并且也具有更多变化。我需要以最接近集合a分布的方式对集合b进行子采样。尽管集合b的均值实质上更大,但是集合'a'中的某些值也很大,需要保留在集合a中。

我可以开始对集合b的上下范围进行修整以获得相似的均值,但是标准差是不可比较的。我考虑的下一件事情是做一堆排列,在其中我随机地对集合b进行子采样,直到发现子采样的集合b分布与集合的分布没有不同的情况(如ks.test在R stats中评估)。我想我想知道是否有一个软件包或函数可以可靠地做到这一点(或者也许更合适)。

示例数据集:

a = c(rnorm(n = 100,平均值= 0,sd = sqrt(.1)),4,7,10)
b = rnorm(n = 1000,平均值= 3,sd = sqrt(4))
b = b [which(b> = min(a))]

范围(a)
[1] -0.6215744 10.0000000
范围(b)
[1] -0.5520407 8.7371966

sd(a)
[1] 1.287062
sd(b)
[1] 1.834108

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)