如何加快将熊猫保存数据帧到CSV的速度?

问题描述

有什么方法可以加快保存过程。我有一个仅包含600,000行的数据框,在退出程序之前,我的程序在将文件保存大约8个小时之前就卡住了。熊猫将在短短45秒内成功保存50,000行的数据帧,但是由于某种原因,这个较大的数据帧使它崩溃了。我知道肯定是pandas to_csv命令正在减慢程序速度。这是一些代码: df.to_csv(mes_csv +“ _copy.csv.gz”,chunksize = 100000,标头= True,压缩='gzip',编码='utf-8')

解决方法

您也可以尝试使用羽毛或镶木地板格式。理由:加快保存和重新加载文件的速度,以及压缩(用于实木复合地板)。

df.to_feather('test.feather')

df.to_parquet('test.hd5')

文档在这里:

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...