在密度图中组合这些数据时,如何考虑不同的样本量?

问题描述

我正在使用 R 和 ggplot 生成密度图,以比较土壤类型和植物叶子特性。目标是拥有 3 个“驼峰”,因此三个数据集分别对应于不同的土壤。但是两种土壤类型(N 和 S)具有来自多个区域的测量结果,每个区域的条目数量各不相同。例如,对于 N 和 S 数据集,我有大约 600 个来自加利福尼亚的值,但只有 20 个来自 Lesbos。

下面我附上了一个示例图。所以每个驼峰都代表一种土壤类型,但恐怕 S 和 N 土壤类型会因为它们的大部分值来自加利福尼亚而产生偏差。

Sample Graph

我不希望加州的数据仅仅因为我有更多的数据就扭曲了那些“驼峰”的密度。除了从每个位置随机选择 20 个值之外,还有什么方法可以赋予这些位置相同的权重? 谢谢。

我只是使用简单的 ggplot 命令:

ggplot(data=combined_sla) + 
  geom_density(aes(x = SLA,fill = Data),alpha=0.4)+
  theme_classic()+ 
  labs(x = "SLA (mm2 mg-1)",y = "Density")+
  scale_fill_viridis(discrete=TRUE,option="magma")

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)