问题描述
我想在多处理框架内对pandas DataFrameGroupBy对象运行以下循环以减少运行时间(应从一个大数据框中创建约13个Mio csv文件,每个文件约1 kb):
for d,g in dataframe.groupby(['key']):
g.to_csv(path + d + '.csv',index=True,header=True)
我在先前提出的问题中找到了一些帮助,并尝试过:
import multiprocessing as mp
import threading
def dupl(key):
return(d,g in key)
def mp_handler():
p = mp.Pool(8)
for i in p.imap(dupl,dataframe.groupby(['key'])):
g.to_csv(path + g + '.csv',header=True)
if __name__== '__main__':
mp_handler()
但是执行此代码既不会导致错误消息,也不会导致csv输出的创建。
我将非常高兴获得任何帮助。我才刚刚开始了解如何在Python中并行运行进程。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)