如何为分散在磁盘和每个文件中的数据正确定义 Pytorch 数据集和数据加载器?

问题描述

  1. 我将数据分散在多个文件中,例如 f1f2f3,其路径为 p1p2p3
  2. 每个文件都有 1000 个样本,可以使用 pandas 加载 to_pd(path) 数据帧。
  3. 由于我已经拥有一个现有的文件获取系统,因此必须按顺序加载文件
  4. 可以随机抽取每个文件中的数据。

我已经看到了 loading from within a single file
解决方案 而对于 reading a list of files,
但不是为了两者兼而有之。


我想不出只定义自定义 pytorch 数据集的方法,因为我事先没有所有路径,但是它们在运行时出现,只有在我完成最后一个后才加载一个

>

我可以为每个文件创建一个数据集,但随后我必须创建一个知道如何处理这些多个数据集的数据加载器。


在 Pytorch 中执行此操作的正确方法是什么?

如果有帮助,我也在使用 Pytorch 闪电。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...