如何设计数据提供者

问题描述

我有一个由许多单独脚本组成的应用程序。它们每个的输出是下一个的输入。每个脚本都会读取开始数据,并将修改后的数据保存为最后一个活动。简而言之:

  • script1.py:将mariadb数据读取到df->做事->将原始数据保存为mysql.sql sqlite3格式
  • script2.py:读取sqlite3文件->做事情->将原始数据保存在data.txt中-用制表符分隔的值
  • program3.exe:读取data.txt->做东西->写another.txt-制表符分隔的值
  • script4.py:读取another.txt->做东西->创建data4.csv
  • script5.py:读取data4.csv->做事->插入mariadb条目

我要寻找的是:是否有任何设计模式(或其他机制)用于为此类情况创建数据提供程序? “数据提供者”应该是一些抽象层,

  • 预定义了不同的数据源类型(例如mariadb连接,csv文件,txt文件等),并且易于替换该列表。
  • 应从“数据指定的源”中读取数据,并将数据传送到给定的脚本/程序中(例如,通过执行带有参数的脚本)
  • 应验证每个应用程序部分(每个脚本/程序)的输出是否有效或承担生成此数据的任务

通常,“数据提供者”将在某些沙箱中使用某些参数(dataframe?)运行script1.py,在保存数据之前接管数据,并准备数据以正确执行script2.py。或者它可以只运行带有某些参数的script1.py,等待执行,检查输出是否有效,将输出转换为其他格式(如有必要),然后使用准备好的数据运行script2.py。

我可以访问python脚本源(script1.py ... script5.py),并且可以对其进行修改。我无法修改program3.exe源代码,但它始终是整个过程的一部分。设计这样一个图层的最佳方法(或只是一种方法)是什么?

解决方法

由于包含了.exe文件,因此我假设您使用的是Windows。您可以编写batch filepowershell script。在Linux上,等效项将是bash脚本。

如果您的源和目标是硬编码的,则批处理文件将类似于

script1.py 
REM assume output file is named mysql.sql
script2.py
REM assume output file is data.txt and has tab separated values
program3.exe
REM assume output file is another.txt and has tab separated values
script4.py
REM creates data4.csv
script5.py

REM是批处理文件中REMARK的缩写,可以注释。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...