通过获取R中每个日期的平均值来创建数据集的子集

问题描述

将Rstudio与tidyverse插件配合使用,并使用ggplot2进行绘制:

假设我们有一个名为SoccerTeam的数据集,该数据集由变量组成:位置,目标,YearPlayed等...,并且每个数据项都分配给一个游戏,因此该游戏在位置X进行,他们的得分为Y进球,比赛开始于19XX年。

在YearPlayed中,我们拥有团队活跃的所有年份,例如1950年至2020年,并且每年都有整个季节的数据。

让我们说2002年有30场比赛,因此将有30个数据条目的YearPlayed = 2002。

我们的目标是随着时间的推移绘制球队进球数。如果我们将每年的每一场比赛都考虑在内,并在70年的比赛中进行绘制,那么我们的图表将非常混乱并且难以解释。为了解决这个问题,我想将每年的平均目标作为目标,并随时间推移进行规划。我该怎么办?

解决方法

如果您需要有关R中数据处理的一般介绍,建议使用R for Data Science。也就是说,您需要按YearsPlayed列分组,然后计算每年的平均值。然后,将其通过管道发送到plot命令中。 %>%符号将左侧的输出发送到右侧。因此,您可以像这样将它们链接在一起:

SoccerTeam %>% 
  group_by(YearPlayed) %>%
  summarize(Goals = mean(Goals)) %>%
  ggplot(aes(x=YearPlayed,y=Goals) +
  geom_line()