如何准备这个PyTorch官方ImageNet示例？

问题描述

这是有关准备数据集的技术问题。

我正在尝试遵循这个官方示例

https://github.com/pytorch/examples/tree/master/imagenet

但是我什至不能开始，因为我不理解要求。它说

安装PyTorch（pytorch.org）
pip install -r requirements.txt
从http://www.image-net.org/下载ImageNet数据集然后，使用以下shell脚本将验证图像移动到带标签的子文件夹中

对于第一个要求，我正在研究Colab，所以我认为不需要在本地PC上再次安装PyTorch。

第二个无效，因为显然没有名为“ requirements.txt”的模块。这就是我开始意识到此git repo上有些东西我完全不知道如何使用的地方。无论如何，我可以直接从git repo打开文本文件，它只是说使用torch和torchvision。好的，导入它们没有问题。

第三个要求。因此，我访问了ImageNet网站并签署了供研究使用的协议。现在，要求告诉我要下载ImageNet数据，但是我看到那里有很多其他选项（例如，按发布年份，竞赛目的，解决方案等）。数据集是哪一个？

我是PyTorch的新手，我想我缺少有关PyTorch开发人员社区如何通过这种方式提供示例的协议...

任何帮助将不胜感激。谢谢。

解决方法

显然没有名为“ requirements.txt”的模块

这是该存储库中的requirements.txt文件。您可以在这样的文件中添加软件包名称，然后使用pip一次安装所有软件包，这就是pip install -r requirements.txt的原因。当然，由于它仅包含火炬和火炬，因此您无需安装它，因为它们已安装在google colab中。

数据集中的哪个？

尽管您可以下载任何年份的任何数据集，但如果没有注册，我将无法访问此页面，重要的是，为了使用pytorch和Imagefolder api（即您提到的回购中使用的一种），其结构应如下所示：

train/
    dog/
        xxx.png
        xxy.png
    cat/
        xxz.png
val/
    ...

您可以使用他们提到的Imagenet数据脚本。

如果您刚开始使用pytorch，建议您使用pytorch tutorials，例如this one。