R - 块列表使用的 RAM 是否比读取/写入每个块少?

问题描述

我有一系列数据集,我想在 R 中读入、清理和写入。我目前将它们全部读入数据帧列表,然后一次性全部写入。数据帧可能会变得非常大并且相对较快地耗尽 RAM。我正在尝试对数据进行分块,以便代替数据帧列表,我有一个仍然由数据帧索引的列表,但列表中的每个项目都是一个块列表。

显然,答案取决于上下文,我无法在这里分享我的数据,但我的主要问题是:

以下哪种方法在规模上使用最少的 RAM(即许多数据帧的大小 > 10GB)?

  1. 现状,一次将所有数据帧读入数据帧列表,根据需要进行转换,然后写入。

  2. 使用 readr::read_csv_chunkedchunked library 读取所有数据帧,列表中的每一项都是数据帧块的列表。使用 lapply 遍历列表列表以根据需要进行转换,然后使用 chunked::collect 连接块并写入每个数据帧。

  3. 将整个读取、转换和写入协议放入一个循环中,以便一次只将一个块加载到内存中。

如果此问题已在其他地方得到解答而我无法找到,我们深表歉意。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)