当我使用 modin.pandas 时,为什么比使用 Pandas 花费的时间更长 [ray]

问题描述

我只是一个 Python 新手,喜欢用 Python 处理数据。

当我能够使用 Python 的代表性数据工具 Pandas 时,它似乎可以很快在 Excel 上工作。

然而,我有点失望地看到检索 470,000 行的数据(.xlsx)需要超过 1 到 2 分钟,结果,我发现使用 modin 和 ray(或 dask)可以实现更快操作。

在简单地学习如何使用它之后,我将其与仅使用 Pandas 进行了比较。 (这次是100M行数据,大约5GB)

import ray
ray.init()
import modin.pandas as md

%%time
TB = md.read_csv('train.csv')
TB

但是写pandas只用了1分3秒,但是写modin[ray]却用了1分9秒。 我很失望地看到它需要更长的时间,而不仅仅是一个小的差异。

如何比 Pandas 更快地使用 modin?复杂的操作,例如 groupby 或 merge?单纯读取数据有什么区别吗?

当其他人使用时,Modin 读取数据的速度更快,我的电脑设置有问题吗?我想知道为什么。

enter image description here

写下提示时安装的方法,以备不时之需。

!pip install modin[ray]
!pip install ray[default]

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)