如何加快将熊猫保存数据帧到CSV的速度？

问题描述

有什么方法可以加快保存过程。我有一个仅包含600,000行的数据框，在退出程序之前，我的程序在将文件保存大约8个小时之前就卡住了。熊猫将在短短45秒内成功保存50,000行的数据帧，但是由于某种原因，这个较大的数据帧使它崩溃了。我知道肯定是pandas to_csv命令正在减慢程序速度。这是一些代码： df.to_csv（mes_csv +“ _copy.csv.gz”，chunksize = 100000，标头= True，压缩='gzip'，编码='utf-8'）

解决方法

您也可以尝试使用羽毛或镶木地板格式。理由：加快保存和重新加载文件的速度，以及压缩（用于实木复合地板）。

df.to_feather('test.feather')

df.to_parquet('test.hd5')

文档在这里：

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#feather
https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#parquet

csv pandas performance python

如何加快将熊猫保存数据帧到CSV的速度？

问题描述

解决方法

相关问答