可伸缩性受限制的Scrapy Spider

问题描述

我目前正在使用蜘蛛抓取25个域的页面。为了避免给这些域带来太多负担,我启用了限制功能。这样会导致蜘蛛网速度大大降低,直到运行时间结束。我的理解是,它随后陷入了响应缓慢的领域。我们假设蜘蛛在24小时内完成工作(最后12小时仅用于最慢域的最后一页)。

我现在的问题是,在将要抓取的域数量增加到例如200.我的理解是正确的,它不会导致运行时间为8天(8 * 24小时),而是几天,因为它由于节流而减慢了速度?

如果我错了,请纠正我,但是我的理解是,如果您指示抓取工具抓取100个域,它将开始同时抓取所有这些域,以便将每分钟的请求数量减少到同一域。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)