问题描述
我最近有一个ETL工作,我迁移到了Databricks,它有一个主Notebook,该笔记本通过%run script1
,%run script2
等依次调用另外三个。
三个笔记本中的每一个所做的最后一件事是将数据保存到拼花地板,然后由下一个顺序脚本读取。 script1
读取原始数据并将其半转换保存,script2
读取script1
保存的半转换数据并继续执行,依此类推。确实需要保存数据的不同阶段在每个步骤中出于其他目的。
如果以这种方式执行ETL,通过运行调用其他脚本的主脚本,我是否在内存中保存了多余的数据副本?因此,script1
保存到拼花后,它是否仍留在内存中,而script2
又读回了它,现在实际上迫使将两个副本保留在内存中?如果是这样,防止这种情况的惯用方法是什么?
谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)