如何改进该算法？

问题描述

| Windows 7上的R版本2.11.1 32位我得到数据train.txt如下：

USER_A USER_B ACTION
1        7      0
1        8      1
2        6      2
2        7      1
3        8      2

我将数据作为以下算法处理：

train_data=read.table(\"train.txt\",header=T)
result=matrix(0,length(unique(train_data$USER_B)),2)
result[,1]=unique(train_data$USER_B)
for(i in 1:dim(result)[1])
{
    temp=train_data[train_data$USER_B%in%result[i,1],]
    result[i,2]=sum(temp[,3])/dim(temp)[1]
}

结果是train_data中每个USER_B的得分。分数定义为： USER_B的分数=（USER_B的所有ACTION的总和）/（USER_B的推荐时间）但是train_data很大，可能需要三天才能完成此程序，所以我来这里寻求帮助，是否可以改进此算法？

解决方法

运行您的示例，您想要的结果是计算每个唯一USER_B的平均ACTION：

     [,1] [,2]
[1,]    7  0.5
[2,]    8  1.0
[3,]    6  2.0

您可以使用软件包plyr中的ddply()函数用一行代码来完成此操作

library(plyr)
ddply(train_data[,-1],.(USER_B),numcolwise(mean))

  USER_B ACTION
1      6    2.0
2      7    0.5
3      8    1.0

或者，基数R中的函数tapply执行相同的操作：

tapply(train_data$ACTION,train_data$USER_B,mean)

根据表的大小，执行时间可以提高20倍或更多。这是具有一百万个条目的data.frame的system.time测试。您的算法需要116秒，ddply（）需要5.4秒，而tapply需要1.2秒：

train_data <- data.frame(
        USER_A = 1:1e6,USER_B = sample(1:1e3,size=1e6,replace=TRUE),ACTION = sample (1:100,replace=TRUE))

yourfunction <- function(){
    result <- matrix(0,length(unique(train_data$USER_B)),2)
    result[,1] <- unique(train_data$USER_B);
    for(i in 1:dim(result)[1]){     
        temp=train_data[train_data$USER_B%in%result[i,1],]
        result[i,2]=sum(temp[,3])/dim(temp)[1]
    }
    result
}

system.time(XX <- yourfunction())
   user  system elapsed 
 116.29   14.04  134.33 

system.time(YY <- ddply(train_data[,numcolwise(mean)))
   user  system elapsed 
   5.43    1.60    7.19 

system.time(ZZ <- tapply(train_data$ACTION,mean))
   user  system elapsed 
   1.17    0.06    1.25

,除了@Andrie提供的方法外，“ 9”到“ 10”的方法仍然更快：

> system.time(ZZ <- tapply(train_data$ACTION,mean))
   user  system elapsed 
  1.025   0.011   1.062 
> system.time(WW <- unlist(lapply(split(train_data$ACTION,+                                       f = train_data$USER_B),+                          mean)))
   user  system elapsed 
  0.465   0.007   0.483

sapply()同样可以解决这个问题：

> system.time(SS <- sapply(split(train_data$ACTION,f = train_data$USER_B),+                          mean))
   user  system elapsed 
  0.469   0.001   0.474

,@gavin在结合使用split和lapply时表现出了很高的性能。 data.table封装使性能进一步显着提高了〜75％

library(data.table)
system.time({
      VV <- as.data.table(train_data)[,list(ACTION=mean(ACTION)),by=USER_B]
    })

user  system elapsed 
0.15    0.02    0.17 

system.time(WW <- unlist(lapply(split(train_data$ACTION,mean)))

user  system elapsed 
0.61    0.02    0.63 

all(WW==VV$ACTION)
[1] TRUE

RAN16ѭ包可在CRAN获得，并在r-forge上拥有网站 ,您可以尝试tapply：

train_data <- read.table(\"train.txt\",header=T);
result <- tapply(train_data$ACTION,function(x) sum(x)/length(x));

您可以使用ѭ21来代替ѭ22，但是我最近读到这最后一个解决方案更快（如果您没有any23等等）。我还没有测试过，但我认为应该会更快。如果您想要更快的解决方案，请查看Rcpp和inline软件包...

改进改进算法算法