如何基于另一个数据集的变量分布来匹配一个数据集?

问题描述

比方说,我有两个具有相似变量但分布不同的数据集。在下面的示例中,数据集a的变量var1的平均值为10,标准差为4。数据集b的变量var1的平均值为8和4的标准差。

a <- data.frame(id=1:500,var1=rnorm(500,10,4),type="a")

b <- data.frame(id=1:300,var1=rnorm(300,8,type="b")

rbind(a,b) %>%
  ggplot(aes(x=type,y=var1)) +
  geom_Boxplot()

是否可以过滤数据集b以匹配数据集a的{​​{1}}分布?当我说var1时,均值和标准差应该相似(不一定相等)

我尝试使用match包来匹配a和b数据集,但它还会过滤数据集MatchIt中的某些条目。

有什么主意吗?

谢谢

编辑>

这是aa密度的真实形状(根据我的数据)。 b是红色,a是蓝色

enter image description here

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)