问题描述
我正在使用 featuretools Deep Feature Sintesys 为 40k 行和 200 列的数据集构建特征。我选择了大约 40 个转换原语,如下面的代码所示:
feature_matrix,feature_defs = ft.dfs(entityset=es,target_entity="df",n_jobs=6,trans_primitives=primitives.name.to_list(),verbose=True)
但是当我运行我的代码时,需要花费大量时间来发现要构建的功能,而且这个过程不会在我的 cpu 中的多个内核中运行,甚至单个内核也无法获得 100% 的使用率。换句话说,我正在等待几个小时来运行一个仅使用我机器上最少资源的进程(内存也不是问题)。
在特征工具发现特征(并打印日志“构建 n 个特征”)之后,它会创建集群并使用“n_jobs”参数中指定的所有核心,100% 的能力。这第二个时刻真的很快,只要几秒钟,一旦我所有的资源都被用完。
我的问题是,为什么会发生这种情况?是否可以更快地发现功能以减少此时间?只是不明白一个不使用资源的过程是如何花费太长时间的。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)