Dask中的每个工人正在处理多少行/大小的数据?

问题描述

我有一个包含200个分区的dask数据框。使用.compute()计算分析结果之后,我可以看到所用内存,任务进度等的诊断仪表板。但是,我想要每个工作人员在函数的每个步骤中读取多少数据。我使用4个工人,每个工人1个核心。

更具体地说,我首先为原始数据的子集选择列和过滤后的行。然后,我按行使用apply()函数创建一个新列。最后,我在新创建的列上使用了value_counts()来计算该列中每个唯一值的频率。我对整个过程的理解是,工作人员读取了一部分数据(有多大?我想知道。它每次都读取数据的一个分区吗?),选择列,过滤,应用函数并计算唯一值的频率。然后,它存储频率并移至数据的下一部分。最后,它汇总所有频率计数并给出最终结果。我怎么知道每个工人每次读取多少数据,然后计算value_counts()的结果?

任务图是

enter image description here

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...