问题描述
这是有关准备数据集的技术问题。
我正在尝试遵循这个官方示例
https://github.com/pytorch/examples/tree/master/imagenet
但是我什至不能开始,因为我不理解要求。它说
- 安装PyTorch(pytorch.org)
-
pip install -r requirements.txt
- 从http://www.image-net.org/下载ImageNet数据集 然后,使用以下shell脚本将验证图像移动到带标签的子文件夹中
对于第一个要求,我正在研究Colab,所以我认为不需要在本地PC上再次安装PyTorch。
第二个无效,因为显然没有名为“ requirements.txt”的模块。这就是我开始意识到此git repo上有些东西我完全不知道如何使用的地方。无论如何,我可以直接从git repo打开文本文件,它只是说使用torch
和torchvision
。好的,导入它们没有问题。
第三个要求。因此,我访问了ImageNet网站并签署了供研究使用的协议。现在,要求告诉我要下载ImageNet数据,但是我看到那里有很多其他选项(例如,按发布年份,竞赛目的,解决方案等)。数据集是哪一个?
我是PyTorch的新手,我想我缺少有关PyTorch开发人员社区如何通过这种方式提供示例的协议...
任何帮助将不胜感激。谢谢。
解决方法
显然没有名为“ requirements.txt”的模块
这是该存储库中的requirements.txt
文件。您可以在这样的文件中添加软件包名称,然后使用pip一次安装所有软件包,这就是pip install -r requirements.txt
的原因。当然,由于它仅包含火炬和火炬,因此您无需安装它,因为它们已安装在google colab中。
数据集中的哪个?
尽管您可以下载任何年份的任何数据集,但如果没有注册,我将无法访问此页面,重要的是,为了使用pytorch和Imagefolder
api(即您提到的回购中使用的一种),其结构应如下所示:
train/
dog/
xxx.png
xxy.png
cat/
xxz.png
val/
...
您可以使用他们提到的Imagenet数据脚本。
如果您刚开始使用pytorch,建议您使用pytorch tutorials,例如this one。