问题描述
我正在运行一个数据准备脚本,其中涉及将数据帧的行拆分为多个观察值的步骤。这一步需要相当长的时间,我正在尝试优化未来的使用以获得一些改进。我正在处理的数据帧非常大(大约 300 万行),我正在尝试找到将其分成块以允许并行处理的最佳方式。我在 64 核上运行它,所以有加速的潜力,但我不确定如何不遇到内存问题或我的速度下降。
我进行了一些小实验,结果很困惑。我试验了嵌套的未来映射,我认为它不应该提高性能,因为期货的第二级是按顺序运行的。但它确实加快了速度。
library(tidyverse)
library(furrr)
library(tictoc)
flights <- nycflights13::flights
create_rows <- function(data,split_by,sep_by){
split_by <- enquo(split_by)
sep_by <- enquo(sep_by)
data %>%
group_split(!!split_by) %>%
future_map_dfr(~.x %>% uncount(weights = !!sep_by))
}
availableCores()
#system
# 64
future::plan(multisession,workers = availableCores() -1 )
tic()
long_df <- flights %>%
create_rows(data = .,split_by = day,sep_by = month)
toc()
#41.14 sec elapsed
tic()
long_df2 <- flights %>%
group_split(day) %>%
future_map_dfr(~create_rows(data = .,split_by = carrier,sep_by = month))
toc()
#15.349 sec elapsed
# Less workers
future::plan(multisession,workers = 8)
tic()
long_df <- flights %>%
create_rows(data = .,sep_by = month)
toc()
#12.239 sec elapsed
tic()
long_df2 <- flights %>%
group_split(day) %>%
future_map_dfr(~create_rows(data = .,sep_by = month))
toc()
#6.61 sec elapsed
# Different splits
tic()
long_df <- flights %>%
create_rows(data = .,sep_by = month)
toc()
#11.278 sec elapsed
tic()
long_df2 <- flights %>%
group_split(carrier) %>%
future_map_dfr(~create_rows(data = .,sep_by = month))
toc()
#5.235 sec elapsed
通常是否建议将数据帧拆分成尽可能小的位并将它们分配给不同的进程,或者是否有传递给每个进程的最佳数量? 当减少工人数量时,我似乎在速度上有所提高。我应该减少数据帧的拆分以匹配工作人员的数量吗?
我现在通常很困惑,非常感谢您提供有用的解释。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)