是否有 tidypredict_sql 挂钩到 h2o.ai

问题描述

我刚刚发现了这个,我有兴趣探索使用 sql 存储来计算我的一些学习者输出。我认为数据库调用可能比基本 R 或 Python 快得多。

很棒的小插图: http://cran.nexr.com/web/packages/tidypredict/vignettes/randomForest.html

基本代码

require(pacman)
p_load(randomForest,tidypredict,dbplyr)

model <- randomForest(Species ~ .,data = iris,ntree = 10,proximity = TRUE)
tidypredict_sql(model,dbplyr::simulate_mssql())

它给出了每棵树的 sql 代码,然后我可以使用模式聚合这些代码以获得估算器输出

那么我如何将它与 h2o.ai 之类的东西一起使用,尤其是 h2o.randomForest 之类的东西?

解决方法

在小插图中,数据源自本地 R 内存,模型是本地 R 模型(这可以从页面中间的 parse_model(model)tidypredict_fit(model) 推断出来)。您所指的 SQL 组件仅用于以更易于阅读的格式显示模型。

根据您的问题,我了解到您想从 SQL 数据库中读取数据并使用 SQL 拟合模型。但是,从小插图来看,数据未存储在 SQL 中,并且模型未使用 SQL 拟合。

从(简要)研究 h2o.ai 看来,这是一个软件或平台,而不是一个数据库。 dbplyr 提供从标准 dplyr 命令到数据库语言 (SQL) 的翻译。这允许您在 R 中编写操作,并让它们在数据库上进行翻译和执行,而无需将信息提取到本地 R 内存中。

我编写了可以将本地或数据库表作为输入处理的 R 函数。但这需要一些深思熟虑的设计选择。因此,虽然您可能能够将远程 dbplyr 表传递给 h2o.ai 模型,但除非底层函数是用 R 编写的,并且可以与 dbplyr 翻译配合使用,否则我预计模型会出错。

如果商业 AI 软件没有内置的访问数据库的方式,那将是非常令人惊讶的。因此,调查 h2o.ai 如何推荐摄取数据可能会更有效。