如何将 data.table 代码转换为折叠

问题描述

我最近阅读了 collapse 包，并尝试将以下 data.table 代码转换为 collapse 以查看在实际示例中是否更快。

这是我的 data.table 代码：

library(data.table)
library(nycflights13)

data("flights")
flights_DT <- as.data.table(flights)

val_var <- "arr_delay"
id_var <- "carrier"
by <- c("month","day")

flights_DT[
  j = list(agg_val_var = sum(abs(get(val_var)),na.rm = TRUE)),keyby = c(id_var,by)
][
  i = order(-agg_val_var),j = list(value_share = cumsum(agg_val_var)/sum(agg_val_var)),keyby = by
][
  j = .SD[2L],keyby = by
][
  order(-value_share)
]
#>      month day value_share
#>   1:    10   3   0.5263012
#>   2:     1  24   0.5045664
#>   3:     1  20   0.4885145
#>   4:    10  17   0.4870692
#>   5:     3   6   0.4867606
#>  ---                      
#> 361:     5   4   0.3220295
#> 362:     6  15   0.3205974
#> 363:     1  28   0.3197260
#> 364:    11  25   0.3161550
#> 365:     6  14   0.3128286

^{由 reprex package (v1.0.0) 于 2021 年 3 月 11 日创建}

我设法翻译了第一个 data.table 调用，但后来遇到了困难。

很高兴看到如何使用 collapse 来处理这个用例。

解决方法

因此，在此我要注意的第一件事是 collapse 不是，也可能永远不会是像 dplyr 或 {{1} 这样成熟的拆分应用组合计算工具}.它的重点不是按组以最佳方式执行任意代码表达式，而是通过它提供的广泛的基于 C++ 的统计和数据转换函数来提供高级和高效的分组、加权、时间序列和面板数据计算。我参考 data.table 和 collapse 上的 vignette 以进一步阐明这些要点以及集成示例。

因此，我认为将 data.table 代码转换为 data.table 才有意义，如果 (1) 您在 collapse 中提出了一个神秘的表达式来做一些复杂的统计它不擅长（例如加权聚合、计算分位数或分组模式、滞后/差分不规则面板、分组居中或线性/多项式拟合）（2）您实际上不需要 data.table 对象但更愿意使用向量/矩阵/data.frame's / tibbles (3) 你想编写一个统计程序并且更喜欢标准评估编程而不是 NS eval 和 data.table 语法或 (4) {{1} } 对于您的特定应用程序来说确实要快得多。

现在是您提供的特定代码。它混合了标准和非标准评估（例如通过使用 data.table），这是 collapse 不太擅长的。我将为您提供 3 种解决方案，从完整的 NS eval 到完整的标准 eval 基础 R 风格编程。

get()

^{由 reprex package (v0.3.0) 于 2021 年 3 月 12 日创建}

注意 collapse 的使用实际上消除了 library(data.table) library(nycflights13) library(magrittr) library(collapse) data("flights") flights_DT <- as.data.table(flights) # Defining a function for the second aggregation myFUN <- function(x) (cumsum(x[1:2])/sum(x))[2L] # Soluting 1: Non-Standard evaluation flights_DT %>% fgroup_by(carrier,month,day) %>% fsummarise(agg_val_var = fsum(abs(arr_delay))) %>% roworder(month,day,-agg_val_var,na.last = NA) %>% fgroup_by(month,day) %>% fsummarise(value_share = myFUN(agg_val_var)) %>% roworder(-value_share) #> month day value_share #> 1: 10 3 0.5263012 #> 2: 1 24 0.5045664 #> 3: 1 20 0.4885145 #> 4: 10 17 0.4870692 #> 5: 3 6 0.4867606 #> --- #> 361: 5 4 0.3220295 #> 362: 6 15 0.3205974 #> 363: 1 28 0.3197260 #> 364: 11 25 0.3161550 #> 365: 6 14 0.3128286 缺失的情况。这在这里是必需的，因为 na.last = NA 是 agg_val_var 而不是 fsum(NA) 像 NA。现在的混合示例可能接近您提供的代码：

^{由 reprex package (v0.3.0) 于 2021 年 3 月 12 日创建}

请注意，我在最后使用了 sum(NA,na.rm = TRUE) 为结果列指定了您想要的名称，因为您不能在 val_var <- "arr_delay" id_var <- "carrier" by <- c("month","day") # Solution 2: Hybrid approach with standard eval and magrittr pipes flights_DT %>% get_vars(c(id_var,val_var,by)) %>% ftransformv(val_var,abs) %>% collapv(c(id_var,by),fsum) %>% get_vars(c(by,val_var)) %>% roworderv(decreasing = c(FALSE,FALSE,TRUE),na.last = NA) %>% collapv(by,myFUN) %>% roworderv(val_var,decreasing = TRUE) %>% frename(replace,names(.) == val_var,"value_share") #> month day value_share #> 1: 10 3 0.5263012 #> 2: 1 24 0.5045664 #> 3: 1 20 0.4885145 #> 4: 10 17 0.4870692 #> 5: 3 6 0.4867606 #> --- #> 361: 5 4 0.3220295 #> 362: 6 15 0.3205974 #> 363: 1 28 0.3197260 #> 364: 11 25 0.3161550 #> 365: 6 14 0.3128286 的同一函数中混合使用标准和非标准 eval。最后，frename 的一大优势是您可以将其用于非常低级的编程：

collapse

^{由 reprex package (v0.3.0) 于 2021 年 3 月 12 日创建}

我向您推荐关于 programming 的博客文章和 collapse，以获取有关这如何有利于统计代码开发的更有趣示例。

现在进行评估，我将这些解决方案封装在函数中，其中 # Solution 3: Programming data <- get_vars(flights_DT,c(id_var,by)) data[[val_var]] <- abs(.subset2(data,val_var)) g <- GRP(data,by)) data <- add_vars(get_vars(g$groups,fsum(get_vars(data,val_var),g,use.g.names = FALSE)) data <- roworderv(data,decreasing = c(FALSE,na.last = NA) g <- GRP(data,by) columns data <- add_vars(g$groups,list(value_share = BY(.subset2(data,myFUN,use.g.names = FALSE))) data <- roworderv(data,"value_share",decreasing = TRUE) data #> month day value_share #> 1: 10 3 0.5263012 #> 2: 1 24 0.5045664 #> 3: 1 20 0.4885145 #> 4: 10 17 0.4870692 #> 5: 3 6 0.4867606 #> --- #> 361: 5 4 0.3220295 #> 362: 6 15 0.3205974 #> 363: 1 28 0.3197260 #> 364: 11 25 0.3161550 #> 365: 6 14 0.3128286 是您提供的 collapse 代码，在 Windows 机器上使用 2 个线程运行。这检查相等性：

DT()

现在是基准：

data.table

如果您关心这些毫秒，可以随意优化，但是对于 340,000 个 obs，所有解决方案都非常快。

collapse data.table data.table r r