Scrapy中意外的速度波动与节流有何关系?

问题描述

我正在运行一个爬网程序,该爬网程序对大约25个域进行爬网,总共约10万个页面。最初的速度为每分钟500页,但此后速度显着降低为每分钟100页。我的理由是,这可能是由于我在settings.py文件中启用的限制。但是,在运行蜘蛛五个小时之后,我注意到速度甚至降低到了每分钟5页。

我最初的理解是,蜘蛛可能会停留在响应速度较慢的一个域中。但是,当我发现抓取速度出现较大波动时,这种理解就不再有意义。在每分钟0至20页范围内停留数小时后,有时速度可达每分钟100至500页(大多数情况下只有一到两分钟)。考虑到某个域对我的响应会变慢,如何解释后者的提速?

解决方法

您最初的理解可能是正确的-听起来好像您被暂时踩住了油门,导致速度波动。