使用 dbplyr 使用纯 R (1) 设置模拟数据库连接以测试翻译选择您喜欢的 SQL 风格：(2) 示例——提取日期分量，增加年份，并重新组合：(3) 提取组件，压缩：

问题描述

dbplyr 将 dplyr 和基本 R 命令转换为 sql，以便开发人员可以编写 R 代码并在数据库 (tidyverse reference) 中执行它。在 R 中处理日期时，通常使用 lubridate 包。但是，目前不存在用于 lubridate 函数的 dbplyr 翻译。因此，使用 dbplyr 的开发人员需要找到处理日期的替代方法。

我之前的方法是在我的 dplyr 命令中使用 sql 语法片段（参见示例答案：here 和 here）。但是，这需要开发人员知道（或找出）相应的 sql 命令，而 dbplyr 的部分意义在于它会为您翻译成 sql。

这让我问：仅在连接到远程数据库时使用 dbplyr 转换操作日期的最佳方法是什么？

理想的解决方案是：

仅使用 dbplyr 翻译，因此无法使用没有 dbplyr 翻译的函数。
使用纯 R，没有 sql 片段。
在数据库上运行，所以是远程表而不是本地表。

我认为至少我们应该能够：

提取年月日
将年、月、日组合成一个新的日期

您可以从这些中手动执行其他操作，例如：

增加日期
找出两个日期之间的差异
找出月底的日期

但更快/更优雅的方式来执行这些更高级的操作会更好。

解决方法

一个答案是，其中大部分已经成为可能。（请参阅答案 here。）

如果 dbplyr 中缺少所需的函数，一种想法是编写拉取请求，将 lubridate 函数的更多翻译添加到 dbplyr 中的后端。

翻译似乎不可避免地是后端特定的。如果您查看 PostgreSQL 后端 here，您可以看到某些 lubridate 函数（例如 month 或 quarter）在那里提供了翻译，但其他函数（例如 { {1}}) 不是。

想到的第一种方法是将日期转换为文本，因为已经有针对不同形式的文本操作的 dbplyr 翻译。这种方法依赖于 as.character 将日期转换为字符，以及 substr 将年、月或日提取为文本。然后可以将其转换为数字并进一步操作。

(1) 设置模拟数据库连接以测试翻译（选择您喜欢的 SQL 风格）：

library(dplyr)
library(dbplyr)

df = data.frame(start_dates = c('2020-01-31','2020-02-28','2020-03-31'))

# simulate a connection to test translation (pick your preferred flavor)
df = tbl_lazy(df,con = simulate_mssql())
# df = tbl_lazy(df,con = simulate_hive())
# df = tbl_lazy(df,con = simulate_impala())
# df = tbl_lazy(df,con = simulate_oracle())
# df = tbl_lazy(df,con = simulate_postgres())
# df = tbl_lazy(df,con = simulate_mysql())
# df = tbl_lazy(df,con = simulate_sqlite())

(2) 示例——提取日期分量，增加年份，并重新组合：

output = df %>%
  mutate(text_date = as.character(start_dates)) %>%
  mutate(text_year = substr(text_date,1,4),text_month = substr(text_date,6,7),text_day = substr(text_date,9,10)) %>%
  mutate(num_year = as.numeric(text_year),num_month = as.numeric(text_month),num_day = as.numeric(text_day)) %>%
  select(start_dates,num_year,num_month,num_day) %>%
  mutate(next_year = num_year + 1) %>%
  mutate(next_year_text_date = paste0(next_year,'-',num_day)) %>%
  mutate(next_year_date = as.Date(next_year_text_date)) %>%
  select(start_dates,next_year_date)

调用 show_query(output) 然后给出以下翻译，但格式不那么好。我知道嵌套查询不被认为是好的 SQL 实践，但这就是 dbplyr 翻译的工作原理。

SELECT `start_dates`,TRY_CAST(`next_year_text_date` AS DATE) AS `next_year_date`
FROM (
    SELECT `start_dates`,`num_year`,`num_month`,`num_day`,`next_year`,`next_year` + '-' + `num_month` + '-' + `num_day` AS `next_year_text_date`
    FROM (
        SELECT `start_dates`,`num_year` + 1.0 AS `next_year`
        FROM (
            SELECT `start_dates`,TRY_CAST(`text_year` AS FLOAT) AS `num_year`,TRY_CAST(`text_month` AS FLOAT) AS `num_month`,TRY_CAST(`text_day` AS FLOAT) AS `num_day`
            FROM (
                SELECT `start_dates`,`text_date`,SUBSTRING(`text_date`,4) AS `text_year`,2) AS `text_month`,2) AS `text_day`
                FROM (
                    SELECT `start_dates`,TRY_CAST(`start_dates` AS VARCHAR(MAX)) AS `text_date`
                    FROM `df`
                ) `q01`
            ) `q02`
        ) `q03`
    ) `q04`
) `q05`

(3) 提取组件，压缩：

output = df %>%
  mutate(num_year = as.numeric(substr(as.character(start_dates),4)),num_month = as.numeric(substr(as.character(start_dates),7)),num_day = as.numeric(substr(as.character(start_dates),10)))

来自 show_query(output) 的 SQL 翻译要短得多：

SELECT `start_dates`,TRY_CAST(SUBSTRING(TRY_CAST(`start_dates` AS VARCHAR(MAX)),4) AS FLOAT) AS `num_year`,2) AS FLOAT) AS `num_month`,2) AS FLOAT) AS `num_day`
FROM `df`

希望这适用于 dbplyr 可以转换的所有 SQL 风格。由于我无法访问所有 SQL 风格来测试它，因此在特定 SQL 风格上测试过它的人的评论会有所帮助。

dbplyr dplyr dplyr r r