您如何使用PyTorch数据集访问S3和其他对象存储提供程序上的CSV数据？

问题描述

我的数据集作为CSV文件的集合存储在Amazon Web Services（AWS）简单存储服务（S3）存储桶中。我想根据此数据训练PyTorch模型，但内置的Dataset类不提供对对象存储服务（如S3或Google Cloud Storage（GCS），Azure Blob存储等）的本地支持。我在https://pytorch.org/docs/stable/data.html#处查看了PyTorch文档中有关可用的数据集类的信息，当涉及到公共云对象存储支持时，会显得很短。

看来我必须根据以下说明创建自己的自定义数据集：https://pytorch.org/tutorials/beginner/data_loading_tutorial.html#dataset-class，但工作似乎不胜枚举：我需要弄清楚如何将数据从对象存储下载到本地节点，并解析CSV文件将其读取到PyTorch张量中，然后处理由于我的数据集为100 s GB而导致磁盘空间用尽的可能性。

由于PyTorch模型是使用梯度下降训练的，我只需要一次将一小部分数据（小于1GB）存储在内存中，是否有一个自定义的数据集实现方式可以帮助您？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

amazon-s3 azure-blob-storage google-cloud-storage object-storage pytorch