如果case_when找到特定结果，则停止执行

问题描述

来自here：

x <- 1:50
case_when(
  x %% 35 == 0 ~ "fizz buzz",x %% 5 == 0 ~ "fizz",x %% 7 == 0 ~ "buzz",TRUE ~ as.character(x)
)

一旦x被6整除，如何使用 stop（）停止执行？我不希望多个错误消息，而只是一个。

解决方法

如果查看case_when的内部结构，您将意识到它正在按照矢量的顺序而不是数据的顺序执行每个矢量。也就是说，在您的示例中，在函数甚至查看您的第二个表达式x %% 35 == 0之前，第一个表达式x的整个长度为x %% 5 == 0。它评估所有表达式（LHS），然后才开始检查匹配项。因此，不会缩短对数据的评估。

如果您不担心计算过度，而只想截断数据，那么

x <- 1:50
ret <- case_when(
  x %% 35 == 0 ~ "fizz buzz",x %% 5 == 0 ~ "fizz",x %% 7 == 0 ~ "buzz",TRUE ~ as.character(x)
)
ret[!cumany(x %% 6 == 0)]
# [1] "1"    "2"    "3"    "4"    "fizz"

如果您希望/需要停留在case_when通话中，那么也许

x <- 1:50
ret <- case_when(
  cumany(x %% 6 == 0) ~ NA_character_,x %% 35 == 0 ~ "fizz buzz",TRUE ~ as.character(x)
)
ret
#  [1] "1"    "2"    "3"    "4"    "fizz" NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA    
# [18] NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA    
# [35] NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA     NA    

## filtered
na.omit(ret)
# [1] "1"    "2"    "3"    "4"    "fizz"
# attr(,"na.action")
#  [1]  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
# [40] 45 46 47 48 49 50
# attr(,"class")
# [1] "omit"

## or more succinctly
ret[!is.na(ret)]
# [1] "1"    "2"    "3"    "4"    "fizz"

，然后可以对其进行na.omit或类似操作。但这又不是中断或短路，因此绝对不会节省执行时间。（并且无法提供无限大的矢量，前提是它会在发现%% 6条件之一时会自行中断。）

为了使LHS评估短路，您将需要中断case_when的矢量化评估并自己做所有事情。不幸的是，这里存在一个“问题”：case_when保持通用性的方式是通过在调用环境的上下文中评估每个LHS表达式（和RHS）。例如，它在父框架（即调用x %% 35 == 0的环境）中评估case_when。 case_when函数先验地不知道返回的向量将是多长时间，也不知道如何正确索引（逐步浏览）存在的所有变量。例如，似乎很直观，我们想先使用x %% 35 == 0，先检查x[1] %% 35 == 0，然后再检查x[2] %% 35 == 0，等等……但是(x+y) %% 35 == 0呢，其中y可能是相同长度的向量，长度可重复的向量或单个值，其中(x[50]+y[50]) %% 35 == 0将导致NA（或索引错误）。

这是一种环绕case_when并仅求值直到找到约束然后停止的方法。

x <- 1:50
ret <- numeric(length(x))
for (i in seq_along(x)) {
  # constraint
  if (x[i] %% 6 == 0) break
  # regular piece-wise execution
  ret[i] <- case_when(
    x[i] %% 35 == 0 ~ "fizz buzz",x[i] %% 5 == 0 ~ "fizz",x[i] %% 7 == 0 ~ "buzz",TRUE ~ as.character(x[i])
  )
}
ret <- head(ret,i - 1)
ret
# [1] "1"    "2"    "3"    "4"    "fizz"

此循环重复执行6次，其中前5次正常执行，在第6次迭代中，发现x[i] %% 6 == 0为真，break个为真。

如果我不解决这些方法相对（无效）的问题，我会被忽略。

x <- 1:50
microbenchmark::microbenchmark(
  one = {
    ret <- case_when(
      x %% 35 == 0 ~ "fizz buzz",TRUE ~ as.character(x)
    )
    ret[!cumany(x %% 6 == 0)]
  },two = {
    ret <- case_when(
      cumany(x %% 6 == 0) ~ NA_character_,TRUE ~ as.character(x)
    )
    ret[!is.na(ret)]
  },three = {
    ret <- numeric(length(x))
    for (i in seq_along(x)) {
      # constraint
      if (x[i] %% 6 == 0) break
      # regular piece-wise execution
      ret[i] <- case_when(
        x[i] %% 35 == 0 ~ "fizz buzz",TRUE ~ as.character(x[i])
      )
    }
    ret <- head(ret,i - 1)
  }
)
# Unit: microseconds
#   expr    min      lq     mean  median      uq     max neval
#    one  136.6  143.55  168.975  152.60  167.55   478.3   100
#    two  156.9  171.10  199.213  180.05  206.80   427.3   100
#  three 4772.7 5336.75 5854.889 5605.25 6073.20 12001.8   100

在这里应该清楚的是，使用这组表达式（一些模运算），在R中计算比我们需要的更多的效率要高得多，但是使用矢量化的方法要比尝试限制{ {1}}我们处理。

如果您很好奇，当x的长度为500K时，此third方法仍然无效...

但最终达到5M的平价：

x <- 1:500
# Unit: microseconds
#   expr    min     lq     mean  median      uq     max neval
#    one  216.9  245.5  287.715  261.55  289.20   601.4   100
#    two  220.9  260.8  300.539  277.75  295.75   691.5   100
#  three 5578.7 6164.9 6802.093 6531.20 6884.25 13667.9   100
x <- 1:5000
# Unit: microseconds
#   expr    min      lq     mean  median      uq      max neval
#    one 1468.2 1644.50 3809.862 1708.65 1879.90 196632.1   100
#    two  780.9  852.25  986.799  889.90  952.45   6761.6   100
#  three 8061.9 8785.15 9836.741 9249.85 9803.70  17088.5   100
x <- 1:50000
# Unit: milliseconds
#   expr     min       lq     mean   median       uq      max neval
#    one 15.9505 20.33195 26.18902 22.60755 26.75880 230.6372   100
#    two  6.8114  8.33300 12.92443  8.95825 14.18375 236.4153   100
#  three 34.6127 43.44130 48.28222 47.23290 53.26485  71.2169   100
x <- 1:500000
# Unit: milliseconds
#   expr      min       lq     mean   median       uq      max neval
#    one 201.1099 220.5286 278.7940 238.9214 280.8388 548.7299   100
#    two  82.8113 104.9474 139.0557 118.3804 136.0794 380.3658   100
#  three 295.7582 310.8903 335.8939 322.4250 349.4466 567.1915   100

（这将随着计算成本的变化而显着变化。）