与pandas DataFrameGroupBy对象进行for循环的多处理

问题描述

我想在多处理框架内对pandas DataFrameGroupBy对象运行以下循环以减少运行时间(应从一个大数据框中创建约13个Mio csv文件,每个文件约1 kb):

for d,g in dataframe.groupby(['key']):
      g.to_csv(path + d + '.csv',index=True,header=True)

我在先前提出的问题中找到了一些帮助,并尝试过:

import multiprocessing as mp 
import threading

def dupl(key):
    return(d,g in key)

def mp_handler():
    p = mp.Pool(8)
    for i in p.imap(dupl,dataframe.groupby(['key'])):
        g.to_csv(path + g + '.csv',header=True)

if __name__== '__main__':
    mp_handler()

但是执行此代码既不会导致错误消息,也不会导致csv输出的创建。

我将非常高兴获得任何帮助。我才刚刚开始了解如何在Python中并行运行进程。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...