Scrapy HTTP状态代码未处理或不允许

问题描述

我正在尝试从此https://www.matchesfashion.com/intl/mens/shop/shoes?page=1网址中抓取所有鞋子数据,以跟随至第7页上的下一个按钮。但是,当我尝试这样做时,我得到的HTTP状态代码未处理或不允许错误

Code Snippet

Error  Snippet

解决方法

在输出中,您将看到它重试了您的请求3次。所有这些请求都从服务器收到了状态码429的响应。该状态码表示服务器拒绝了您的请求,因为您在一定时间内发送了太多请求。

默认情况下,Scrapy配置为忽略这些响应,因为它们将不包含您要查找的数据。

要绕过此操作,请使用诸如scraper API或Crawlera之类的代理。 或者,增加scrap_downloads的scrapy直到不再被阻止为止。像这样:

class Website2Spider(scrapy.Spider):
    download_delay = 2 #The number you write here will be how many seconds scrapy waits before sending another request. 

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...