在python中快速迭代文件读取

问题描述

我问了一个问题here,该问题是关于如何读取一个很大的文件以python的,我得到了一个基于zip_longest的响应。

问题是此解决方案的速度非常慢-keras的模型花费了2多个小时来处理文件中的200,000行,将文件直接加载到内存中通常需要

此后,我在熊猫中发现了分块功能,但我不了解如何加载文件的块,调整数据的形状然后使用这些方法使用它,而且我也不知道这是否会读取和使用大文件中数据的最快方法

欢迎快速解决此问题。

解决方法

如果您正在寻找快速执行的迭代python函数,则应查阅itertools软件包+文档。我很确定它不会比这快得多。

但是请注意,如果您忽略任何形式的预处理或整形,则在处理大型数据集时将获得最高的性能。试想一下,您的2e5行文件仅包含一个字符(1个字节)的信息。如果我正确理解的话,那仍然可以读取200 MB的信息,这是您可以想象的下限。因此,如果一次获得3或4 GB的信息量,那么您将不得不面对漫长的解释时间。