问题描述
我的数据集作为CSV文件的集合存储在Amazon Web Services(AWS)简单存储服务(S3)存储桶中。我想根据此数据训练PyTorch模型,但内置的Dataset类不提供对对象存储服务(如S3或Google Cloud Storage(GCS),Azure Blob存储等)的本地支持。我在https://pytorch.org/docs/stable/data.html#处查看了PyTorch文档中有关可用的数据集类的信息,当涉及到公共云对象存储支持时,会显得很短。
看来我必须根据以下说明创建自己的自定义数据集:https://pytorch.org/tutorials/beginner/data_loading_tutorial.html#dataset-class,但工作似乎不胜枚举:我需要弄清楚如何将数据从对象存储下载到本地节点,并解析CSV文件将其读取到PyTorch张量中,然后处理由于我的数据集为100 s GB而导致磁盘空间用尽的可能性。
由于PyTorch模型是使用梯度下降训练的,我只需要一次将一小部分数据(小于1GB)存储在内存中,是否有一个自定义的数据集实现方式可以帮助您?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)