聚合效率低于循环?

我试图在一个大表上执行此操作,以计算data.table X中具有a和b的不同组合的行.

Y <- aggregate(c ~ a+b,X,length)

虽然RAM使用率仍然存在,但它仍然需要永远(我在30分钟后停止).

然后我尝试手动循环遍历b的值并仅在a上聚合(技术上仍然聚合在b上,但每次都使用单个值b):

sub_agg <- list()
unique_bs <- unique(X$b)
for (b_it in unique_bs){
sub_agg[[length(sub_agg)+1]] <- aggregate(c ~ a + b,subset(X,b == b_it),length)
}
Y <- do.call(rbind,sub_agg )

我在3分钟内完成了.

我可以更进一步完全摆脱聚合,只对子集进行操作.

聚合效率是否低于嵌套循环和子集上的操作,或者这是一个特例吗?

聚合通常是占用时间最多的代码部分,所以我现在想要总是尝试循环,我想更好地理解这里发生的事情.

附加信息:

X has 20 million rows

50 distinct values for b

15 000 distinct values for a

解决方法

是的,聚合效率低于您在那里使用的循环,因为:

>当数据点数量增加时,聚合变得不成比例地变慢.您的第二个解决方案在小子集上使用聚合.其中一个
原因是聚合取决于排序,并且排序不是在O(n)时间内完成的.
> aggregate还在内部使用expand.grid,它创建一个数据框,其中包含变量a和b中所有唯一值的所有可能组合.您可以在aggregate.data.frame的内部代码中看到这一点.随着观察数量的增加,这个功能也变得不成比例地变慢.
>编辑:我的最后一点并没有真正意义,因为你将数据框中的所有内容组合在一起.

也就是说,绝对没有理由在这里使用聚合.我只需使用表来到数据框Y:

thecounts <- with(X,table(a,b))
Y <- as.data.frame(thecounts)

此解决方案比使用聚合提供的解决方案快得多.在我的机器上68次准确…

基准测试:

test replications elapsed relative 
1  aggloop()            1   15.03   68.318 
2 tableway()            1    0.22    1.000

用于基准测试的代码(注意我将所有内容都设置得更小,以便不阻止我的R
时间过长):

nrows <- 20e5

X <- data.frame(
  a = factor(sample(seq_len(15e2),nrows,replace = TRUE)),b = factor(sample(seq_len(50),c = 1
)

aggloop <- function(){
sub_agg <- list()
unique_bs <- unique(X$b)
for (b_it in unique_bs){
  sub_agg[[length(sub_agg)+1]] <- aggregate(c ~ a + b,sub_agg )
}

tableway <- function(){
  thecounts <- with(X,b))
  Y <- as.data.frame(thecounts)
}

library(rbenchmark)

benchmark(aggloop(),tableway(),replications = 1
          )

相关文章

什么是设计模式一套被反复使用、多数人知晓的、经过分类编目...
单一职责原则定义(Single Responsibility Principle,SRP)...
动态代理和CGLib代理分不清吗,看看这篇文章,写的非常好,强...
适配器模式将一个类的接口转换成客户期望的另一个接口,使得...
策略模式定义了一系列算法族,并封装在类中,它们之间可以互...
设计模式讲的是如何编写可扩展、可维护、可读的高质量代码,...