在 python 中加速数据挖掘

我是 Python 和数据挖掘方面的完全新手，但我的工作期限很紧，并且被迫为我正在进行的项目提出一些拙劣的解决方案。事实证明，这非常耗时，我认为必须有更好的方法。

现在，我从一些 CLI 工具拼凑了一个 Web 抓取工具，这些工具分发资产队列以将其刮成碎片。然后，我将代码上传到 google colab，并让它在 3 台计算机上运行 8 个实例、5 封电子邮件，每个电子邮件都处理自己的资产列表。

我还没有实现指数退避或抖动，“104 错误：连接被对等端终止”似乎是我目前的主要障碍。

运行这台 rube goldberg 机器让我感觉就像在船的内部铲煤。 Colab 实例不断崩溃，需要重新启动，我不知道如何在内核断开连接时保存我的工作，所以我重复了很多工作。

有人可以告诉我有更好的方法吗？一个不需要近乎持续的关注并且需要几个小时来协调的？多个工作人员会遇到相同的速率限制错误吗？有人告诉我 Apache Spark（或者更具体地说是 PySpark）可能是我问题的解决方案。我应该从哪里开始寻找更好的选择？

任何和所有输入都将不胜感激。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）