DVC - 进行预定的 csv 转储

问题描述

假设我们有一些数据库(任何支持 csv 转储的数据库),实时收集原始数据,以便在 ML 中进一步使用。 另一方面,我们有 DVC,可以处理 csv 文件

我想使用日期时间参数组织存储 SELECT 到该数据库的预定运行(并且还支持手动运行),以制作新的 csv 文件,并将它们发送到 DVC。

在我发现的 DVC 文档和示例中,csv 文件已经存在。

我可以使用 DVC 本身与数据库进行这种交互吗,或者我出了什么问题,并且有一个单独的 csv 转储工具?

解决方法

这个过程有3个步骤:

  1. 创建 CSV 转储。许多数据库都有这些工具,但 DVC 本身并不支持。
  2. 版本 CSV 转储并将其移动到某个存储。 DVC 负责这项工作。
  3. 安排定期转储。您可以使用 Cron(简单)、AirFlow(不容易)或 periodical jobs in GitHub Actions/GitLab CI/CD。 DVC 团队的另一个项目可以帮助 CI/CD 选项:https://cml.dev