问题描述
我有一个包含200个分区的dask数据框。使用.compute()计算分析结果之后,我可以看到所用内存,任务进度等的诊断仪表板。但是,我想要每个工作人员在函数的每个步骤中读取多少数据。我使用4个工人,每个工人1个核心。
更具体地说,我首先为原始数据的子集选择列和过滤后的行。然后,我按行使用apply()函数创建一个新列。最后,我在新创建的列上使用了value_counts()来计算该列中每个唯一值的频率。我对整个过程的理解是,工作人员读取了一部分数据(有多大?我想知道。它每次都读取数据的一个分区吗?),选择列,过滤,应用函数并计算唯一值的频率。然后,它存储频率并移至数据的下一部分。最后,它汇总所有频率计数并给出最终结果。我怎么知道每个工人每次读取多少数据,然后计算value_counts()
的结果?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)