与pandas DataFrameGroupBy对象进行for循环的多处理

问题描述

我想在多处理框架内对pandas DataFrameGroupBy对象运行以下循环以减少运行时间（应从一个大数据框中创建约13个Mio csv文件，每个文件约1 kb）：

for d,g in dataframe.groupby(['key']):
      g.to_csv(path + d + '.csv',index=True,header=True)

我在先前提出的问题中找到了一些帮助，并尝试过：

import multiprocessing as mp 
import threading

def dupl(key):
    return(d,g in key)

def mp_handler():
    p = mp.Pool(8)
    for i in p.imap(dupl,dataframe.groupby(['key'])):
        g.to_csv(path + g + '.csv',header=True)

if __name__== '__main__':
    mp_handler()

但是执行此代码既不会导致错误消息，也不会导致csv输出的创建。

我将非常高兴获得任何帮助。我才刚刚开始了解如何在Python中并行运行进程。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

for-loop large-data multiprocessing pandas-groupby python

与pandas DataFrameGroupBy对象进行for循环的多处理

问题描述

解决方法

相关问答