问题描述
df <- data.frame("y"=c(2010,2011,2012,2013,2010,2012),"x"=c(1,2,1,4,4),"a"=c(5,3,0))
y x a
1 2010 1 5
2 2011 2 3
3 2012 1 0
4 2013 1 2
5 2010 2 3
6 2012 2 0
7 2010 4 2
8 2011 4 3
9 2012 4 0
我想使用以下公式对每个“ y”和“ x”求和“ a”:
sum <- tapply(df$a,list(df$y,df$x),sum)
也就是说:
1 2 4
2010 5 3 2
2011 NA 3 3
2012 0 0 0
2013 2 NA NA
即使我在df的x列中没有值3,我如何也能获得“ 3”列? 像这样:
1 2 3 4
2010 5 3 NA 2
2011 NA 3 NA 3
2012 0 0 NA 0
2013 2 NA NA NA
解决方法
将x
列设为factor
和levels
,其中包括min
列的max
和x
之间的所有值。
df$x <- factor(df$x,levels = seq(min(df$x),max(df$x)))
tapply(df$a,list(df$y,df$x),sum)
# 1 2 3 4
#2010 5 3 NA 2
#2011 NA 3 NA 3
#2012 0 0 NA 0
#2013 2 NA NA NA