在 python 中加速数据挖掘

问题描述

我是 Python 和数据挖掘方面的完全新手,但我的工作期限很紧,并且被迫为我正在进行的项目提出一些拙劣的解决方案。事实证明,这非常耗时,我认为必须有更好的方法

现在,我从一些 CLI 工具拼凑了一个 Web 抓取工具,这些工具分发资产队列以将其刮成碎片。然后,我将代码上传到 google colab,并让它在 3 台计算机上运行 8 个实例、5 封电子邮件,每个电子邮件都处理自己的资产列表。

我还没有实现指数退避或抖动,“104 错误:连接被对等端终止”似乎是我目前的主要障碍。

运行这台 rube goldberg 机器让我感觉就像在船的内部铲煤。 Colab 实例不断崩溃,需要重新启动,我不知道如何在内核断开连接时保存我的工作,所以我重复了很多工作。

有人可以告诉我有更好的方法吗?一个不需要近乎持续的关注并且需要几个小时来协调的?多个工作人员会遇到相同的速率限制错误吗?有人告诉我 Apache Spark(或者更具体地说是 PySpark)可能是我问题的解决方案。我应该从哪里开始寻找更好的选择?

任何和所有输入都将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)