R optimParallel 使用大量 RAM

问题描述

在我的(大型)服务器(具有 255GB RAM 的 Windows)上,我的 optimparallel skript 内存不足,然后因 Error in serialize(data,node$con) : error writing to connection 而崩溃。 虽然我会理解数据是否巨大并且每个节点都会分配数据,但事实并非如此。

数据并不大(大约 200 万行),需要加载 600MB RAM。 使用稍小的数据集,该程序运行良好。 感谢您的帮助!

这是数据集:data

这是我的脚本:

library(data.table)
sampler <- function(par,veh_id,routt,ccloops){
  veh_id[,multi:=par]
  routt[veh_id,par:=multi,on=.(vehicle_id)]
  sumrout <- routt[,sum(par),.(edge_id,Ndets)]
  sumdet <- routt[,.(Nmodel=sum(par)),Ndets)]
  routt[,par:=NULL]
  geh_inside_cc <- sumdet[Ndets>0 & edge_id %in% ccloops$edge_id,mean(sqrt(2*(Ndets-Nmodel)^2/(Ndets+Nmodel)))]
  geh_outside_cc <- sumdet[Ndets>0 & !(edge_id %in% ccloops$edge_id),mean(sqrt(2*(Ndets-Nmodel)^2/(Ndets+Nmodel)))]
  # weight geh_inside_cc a bit higher
  return(2*geh_inside_cc+geh_outside_cc)
}

routt <- fread("routt.csv")
veh_id <- fread("veh_id.csv")
ccloops <- fread("ccloops.csv")

library(optimParallel)
cl0 <- makeCluster(5) # set the number of processor cores
# registerDoParallel(cl <- makeCluster(2))
setDefaultCluster(cl=cl0) # set 'cl' as default cluster
clusterEvalQ(cl0,library("data.table"))
opt <- optimParallel(par = rep(1,nrow(veh_id)),veh_id=veh_id,routt=routt,ccloops=ccloops,fn = sampler,lower = 0,upper = 10000,parallel=list(loginfo=TRUE,cl=cl0),control = list(maxit = 5))
stopCluster(cl0)

R 版本:4.1 优化并行版本:1.0-2

解决方法

所以我用一个虚拟数据测试了你的情况。 首先,我必须在 forward 中添加 parallel 参数(getOption("optimParallel.forward") 对我来说是 NULL)。

在多会话处理下,您通常必须执行以下附加步骤:创建 PSOCK 集群,根据需要注册集群,在集群工作器上加载必要的包,将必要的数据和功能导出到集群工作器的全局环境。因此,数据是跨所有会话和所有计算要求(也是 RAM)克隆/复制的。 当我们计算每个会话(集群)的可用内存时,可能小于 40GB(减去主会话)。

此外,数据集的大小并不是算法消耗的所有 RAM。例如,lm 线性回归可能需要比数据集大小多 10 倍的内存。算法的复杂性随着变量(此处为参数)的数量呈指数级增长,因此这可能是另一个问题。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...