问题描述
我有一系列数据集,我想在 R 中读入、清理和写入。我目前将它们全部读入数据帧列表,然后一次性全部写入。数据帧可能会变得非常大并且相对较快地耗尽 RAM。我正在尝试对数据进行分块,以便代替数据帧列表,我有一个仍然由数据帧索引的列表,但列表中的每个项目都是一个块列表。
显然,答案取决于上下文,我无法在这里分享我的数据,但我的主要问题是:
以下哪种方法在规模上使用最少的 RAM(即许多数据帧的大小 > 10GB)?
-
现状,一次将所有数据帧读入数据帧列表,根据需要进行转换,然后写入。
-
使用
readr::read_csv_chunked
或chunked
library 读取所有数据帧,列表中的每一项都是数据帧块的列表。使用lapply
遍历列表列表以根据需要进行转换,然后使用chunked::collect
连接块并写入每个数据帧。
如果此问题已在其他地方得到解答而我无法找到,我们深表歉意。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)