如何准备这个PyTorch官方ImageNet示例?

问题描述

这是有关准备数据集的技术问题。

我正在尝试遵循这个官方示例

https://github.com/pytorch/examples/tree/master/imagenet

但是我什至不能开始,因为我不理解要求。它说

  1. 安装PyTorch(pytorch.org)
  2. pip install -r requirements.txt
  3. http://www.image-net.org/下载ImageNet数据集 然后,使用以下shell脚本将验证图像移动到带标签的子文件夹中

对于第一个要求,我正在研究Colab,所以我认为不需要在本地PC上再次安装PyTorch。

第二个无效,因为显然没有名为“ requirements.txt”的模块。这就是我开始意识到此git repo上有些东西我完全不知道如何使用的地方。无论如何,我可以直接从git repo打开文本文件,它只是说使用torchtorchvision。好的,导入它们没有问题。

第三个要求。因此,我访问了ImageNet网站并签署了供研究使用的协议。现在,要求告诉我要下载ImageNet数据,但是我看到那里有很多其他选项(例如,按发布年份,竞赛目的,解决方案等)。数据集是哪一个

我是PyTorch的新手,我想我缺少有关PyTorch开发人员社区如何通过这种方式提供示例的协议...

任何帮助将不胜感激。谢谢。

解决方法

显然没有名为“ requirements.txt”的模块

这是该存储库中的requirements.txt文件。您可以在这样的文件中添加软件包名称,然后使用pip一次安装所有软件包,这就是pip install -r requirements.txt的原因。当然,由于它仅包含火炬和火炬,因此您无需安装它,因为它们已安装在google colab中。

数据集中的哪个?

尽管您可以下载任何年份的任何数据集,但如果没有注册,我将无法访问此页面,重要的是,为了使用pytorch和Imagefolder api(即您提到的回购中使用的一种),其结构应如下所示:

train/
    dog/
        xxx.png
        xxy.png
    cat/
        xxz.png
val/
    ...

您可以使用他们提到的Imagenet数据脚本。

如果您刚开始使用pytorch,建议您使用pytorch tutorials,例如this one