Python大数据爬虫

问题描述

我开始了一个新的 Python 项目,该项目每周收集特定网站上的数据并将其添加到 Nosql 数据库中。 有没有办法在服务器上运行它并每周自动添加新项目? (我正在考虑使用 sleep 库,但我认为这不是最好的方法。)

大约有 5000000 个项目,每次在网站的数据库中查找新项目,就意味着搜索 5000000 +(新项目)每个项目。

我使用 grequests 来提高请求速度, 和 bs4 用于抓取。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)