问题描述
我有一堆脚本从互联网和本地服务收集数据,将它们写入磁盘,脚本转换数据并将其写入数据库,脚本从数据库读取数据并生成新数据等,用 bash 编写, Python、SQL、...(Linux)。
除了一些时间触发的脚本之外,脚本之间的粘合剂目前是我,不时运行脚本以特定顺序更新所有内容。
用观察依赖关系并在满足前提条件后立即触发下一步的工具来代替我的最简单方法是什么?
我发现了很多 ETL 和数据仓库工具,但对于我的简单设置来说,这些工具似乎太重了。我更喜欢具有基于文本的配置的 CLI 解决方案(也许能够可视化依赖关系图)。有什么建议吗?
解决方法
尝试气流:airflow.apache.org