Databricks ETL内存使用情况

问题描述

我最近有一个ETL工作,我迁移到了Databricks,它有一个主Notebook,该笔记本通过%run script1%run script2等依次调用另外三个。

三个笔记本中的每一个所做的最后一件事是将数据保存到拼花地板,然后由下一个顺序脚本读取。 script1读取原始数据并将其半转换保存,script2读取script1保存的半转换数据并继续执行,依此类推。确实需要保存数据的不同阶段在每个步骤中出于其他目的。

如果以这种方式执行ETL,通过运行调用其他脚本的主脚本,我是否在内存中保存了多余的数据副本?因此,script1保存到拼花后,它是否仍留在内存中,而script2又读回了它,现在实际上迫使将两个副本保留在内存中?如果是这样,防止这种情况的惯用方法是什么?

谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)