在密度图中组合这些数据时，如何考虑不同的样本量？

问题描述

我正在使用 R 和 ggplot 生成密度图，以比较土壤类型和植物叶子特性。目标是拥有 3 个“驼峰”，因此三个数据集分别对应于不同的土壤。但是两种土壤类型（N 和 S）具有来自多个区域的测量结果，每个区域的条目数量各不相同。例如，对于 N 和 S 数据集，我有大约 600 个来自加利福尼亚的值，但只有 20 个来自 Lesbos。

下面我附上了一个示例图。所以每个驼峰都代表一种土壤类型，但恐怕 S 和 N 土壤类型会因为它们的大部分值来自加利福尼亚而产生偏差。

Sample Graph

我不希望加州的数据仅仅因为我有更多的数据就扭曲了那些“驼峰”的密度。除了从每个位置随机选择 20 个值之外，还有什么方法可以赋予这些位置相同的权重？谢谢。

我只是使用简单的 ggplot 命令：

ggplot(data=combined_sla) + 
  geom_density(aes(x = SLA,fill = Data),alpha=0.4)+
  theme_classic()+ 
  labs(x = "SLA (mm2 mg-1)",y = "Density")+
  scale_fill_viridis(discrete=TRUE,option="magma")

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

density-plot ggplot2 normalize r r