Kubeflow 处理大型输入文件时出错：节点资源不足：ephemeral-storage

问题描述

在 Kubeflow 中 - 当输入文件大小非常大 (60 GB) 时，我收到“节点资源不足：临时存储”。看起来 kubeflow 正在使用 /tmp 文件夹来存储文件。我有以下问题：

交换真正大文件的最佳方式是什么？如何避免临时存储问题？
所有的 InputPath 和 OutputPath 文件都会存储在 Kubeflow 的 MinIO Instance 中吗？如果是，我们如何从 MinIO 中清除数据？
当数据在工作流的一个阶段传递到下一个阶段时，Kubeflow 是否从 MinIO 下载文件并将其复制到 /tmp 文件夹并将 InputPath 传递给函数？
是否有更好的方法在工作流程的不同阶段之间传递 Pandas 数据框？目前，我正在将 Pandas 数据帧作为 CSV 导出到操作的 OutputPath，并在下一阶段从 InputPath 重新加载 Pandas 数据帧。
与使用临时存储相比，有没有一种方法可以使用不同的卷进行文件交换？如果是，我该如何配置？

   import pandas as pd 
   print("text_path:",text_path)
   pd_df = pd.read_csv(text_path)
   print(pd_df)
   with open(text_path,'r') as reader:
       for line in reader:
           print(line,end = '')

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

kubeflow-pipelines