是否有 tidypredict_sql 挂钩到 h2o.ai

问题描述

我刚刚发现了这个，我有兴趣探索使用 sql 存储来计算我的一些学习者输出。我认为数据库调用可能比基本 R 或 Python 快得多。

很棒的小插图： http://cran.nexr.com/web/packages/tidypredict/vignettes/randomForest.html

基本代码：

require(pacman)
p_load(randomForest,tidypredict,dbplyr)

model <- randomForest(Species ~ .,data = iris,ntree = 10,proximity = TRUE)
tidypredict_sql(model,dbplyr::simulate_mssql())

它给出了每棵树的 sql 代码，然后我可以使用模式聚合这些代码以获得估算器输出。

那么我如何将它与 h2o.ai 之类的东西一起使用，尤其是 h2o.randomForest 之类的东西？

解决方法

在小插图中，数据源自本地 R 内存，模型是本地 R 模型（这可以从页面中间的 parse_model(model) 和 tidypredict_fit(model) 推断出来）。您所指的 SQL 组件仅用于以更易于阅读的格式显示模型。

根据您的问题，我了解到您想从 SQL 数据库中读取数据并使用 SQL 拟合模型。但是，从小插图来看，数据未存储在 SQL 中，并且模型未使用 SQL 拟合。

从（简要）研究 h2o.ai 看来，这是一个软件或平台，而不是一个数据库。 dbplyr 提供从标准 dplyr 命令到数据库语言 (SQL) 的翻译。这允许您在 R 中编写操作，并让它们在数据库上进行翻译和执行，而无需将信息提取到本地 R 内存中。

我编写了可以将本地或数据库表作为输入处理的 R 函数。但这需要一些深思熟虑的设计选择。因此，虽然您可能能够将远程 dbplyr 表传递给 h2o.ai 模型，但除非底层函数是用 R 编写的，并且可以与 dbplyr 翻译配合使用，否则我预计模型会出错。

如果商业 AI 软件没有内置的访问数据库的方式，那将是非常令人惊讶的。因此，调查 h2o.ai 如何推荐摄取数据可能会更有效。

dbplyr h2o.ai r r tidypredict