将文件并行写入 google colab 上的目录

问题描述

我已经定义了一个迭代器,它在我的驱动器上的一个目录中迭代超过 50k .json 文件一个处理每个文件然后将它们写入驱动器上不同目录的函数。依次执行上述任务时间太长,所以我决定使用joblib库并行执行任务。但是,似乎该操作仍在按顺序进行。 这是我编写的并行化代码

from joblib import Parallel,delayed
Parallel(n_jobs=6,prefer='processes',verbose=12,backend='multiprocessing')(delayed(write_files(itf)) for itf in iter_list)

'iter_list' 是对应于输入目录分区的迭代器列表。 'write_files(itf)' 将迭代器作为输入并将输出文件写入不同的目录。

P.S - 所有这些都是在 google colab 上完成的,它显然为每个会话分配了 2 个 cpu

提前致谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)