如何构建自己的手写数字数据集

问题描述

我有一组从 0 到 20 的数字图像,中间类(0,25 / 0,5 / 0,75)。每个数字将被定义为它自己的一个类。我每节课有 22 张图片

这些图像将用于在卷积神经网络上进行分类训练和测试。我并不担心准确性,这只是一个概念证明,所以我意识到数据集对于任何真正可靠的结果来说都太小了。就像我说的,它只是作为概念证明。

编辑:按照@Kaveh 的建议,我查看了 ImageDataGenerator.flow_from_directory

据我所知,这用于使用数据增强来增加数据集大小。但是,我要问的是,现在我将这些图像设置在不同的文件夹中(每个文件夹 22 个图像,每个文件夹创建一个类)我该如何使用它们。我一直在加载构成数据集的一个文件(例如:mnist;通过 keras)。我从未使用过自己的数据,因此不知道下一步是什么。

解决方法

按如下所示组织您的目录

data_dir
-----train_dir
---------zero_dir
-------------first_zero_image.jpg
-------------sencond_zero_image,jpg
...
-------------twenty_second_zero_image.jpg
---------ones_dir
-------------first_ones_image.jpg
-------------second_one_image.jpg
...
-------------twenty_second_ones_image.jpg
......
         twenty_dir
-------------first_20_image.jpg
-------------seccond_20_image.jpg
...
-------------twenty_second_20_image.jpg
-----test_dir
--------zeros_dir
#  structure the test directory like the train directory and put
# your test images in it

现在您可以使用 Keras ImageDataGenerator.flow_from_directory 为 model.fit 提供数据。

train_path=os.path.join(data_dir,train_dir)
from tensorflow.keras.preprocessing.image import ImageDataGenerator
gen=ImageDataGenerator(rescale=1/255,validation_split=.2)
train_gen=gen.flow_from_directory( train_path,target_size=(256,256),color_mode="rgb",classes=None,class_mode="categorical",batch_size=32,shuffle=True,seed=123,subset='training' )  
valid_gen=gen.flow_from_directory( train_path,shuffle=False,subset='validation' )
history=model.fit(train_gen,epochs=20,validation_data=valid_gen)

应该可以