在colab上生成/保存的整个数据集当馈送到model.fit时出现RAM错误，而使用数据生成器时却没有，为什么？最佳做法是什么？

问题描述

对于此DL项目，我正在生成灰度“图像”，它们实际上是numpy（超过50000个，每个约3000个像素）。首先，我在计算机上生成它们并将它们加载到我安装在colab上的驱动器中。我使用了数据生成器来获取保存的图像/ numpy，然后使用tf.data.Dataset.from_generator将其输入到model.fit中。由于需要对数据集进行混洗，因此使用此方法的速度非常慢。据我了解，colab在驱动器上获取大量数据的速度可能非常慢。

然后我切换到直接在colab上生成图像，并将其保存在一个大数组（nb图像，高度图像，宽度图像）中，并且仍然使用生成器将其输入到model.fit中，它的工作速度要快得多。然后，我尝试删除数据生成器，因为我认为保留它没有意义，因为所有数据都保存在colab /笔记本中，并将整个数据提供给model.fit，但这总会给我“您的会话”使用完所有可用的RAM后崩溃”错误（我不知为什么从来没有像以前那样选择升级内存的方法。）

所以我想知道，为什么我会收到此错误，因为我不明白为什么数据生成器会更好地工作。我应该继续使用数据生成器，还是有另一种方法可以使数据生成器更健壮/更快或更“看起来”更好？

提前谢谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

deep-learning google-colaboratory large-data python tensorflow

在colab上生成/保存的整个数据集当馈送到model.fit时出现RAM错误，而使用数据生成器时却没有，为什么？最佳做法是什么？

问题描述

解决方法

相关问答