问题描述
在 Kubeflow 中 - 当输入文件大小非常大 (60 GB) 时,我收到“节点资源不足:临时存储”。看起来 kubeflow 正在使用 /tmp 文件夹来存储文件。我有以下问题:
- 交换真正大文件的最佳方式是什么?如何避免临时存储问题?
- 所有的 InputPath 和 OutputPath 文件都会存储在 Kubeflow 的 MinIO Instance 中吗?如果是,我们如何从 MinIO 中清除数据?
- 当数据在工作流的一个阶段传递到下一个阶段时,Kubeflow 是否从 MinIO 下载文件并将其复制到 /tmp 文件夹并将 InputPath 传递给函数?
- 是否有更好的方法在工作流程的不同阶段之间传递 Pandas 数据框?目前,我正在将 Pandas 数据帧作为 CSV 导出到操作的 OutputPath,并在下一阶段从 InputPath 重新加载 Pandas 数据帧。
- 与使用临时存储相比,有没有一种方法可以使用不同的卷进行文件交换?如果是,我该如何配置?
import pandas as pd
print("text_path:",text_path)
pd_df = pd.read_csv(text_path)
print(pd_df)
with open(text_path,'r') as reader:
for line in reader:
print(line,end = '')
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)