Python使用scrapy采集时伪装成HTTP/1.1的方法

Python 2019-08-23

本文实例讲述了Python使用scrapy采集时伪装成HTTP/1.1的方法。分享给大家供大家参考。具体如下：

添加下面的代码到 settings.py 文件

复制代码代码如下:

DOWNLOADER_HTTPCLIENTFACTORY = 'myproject.downloader.HTTPClientFactory'

保存以下代码到单独的.py文件

复制代码代码如下:

from scrapy.core.downloader.webclient import ScrapyHTTPClientFactory,ScrapyHTTPPageGetter
class PageGetter(ScrapyHTTPPageGetter):
    def sendCommand(self,command,path):
        self.transport.write('%s %s HTTP/1.1\r\n' % (command,path))
class HTTPClientFactory(ScrapyHTTPClientFactory):
     protocol = PageGetter

希望本文所述对大家的Python程序设计有所帮助。

相关文章

将双通道音频转换为两条单通道音频的解决方案

方案一代码在Python中，可以使用wave模块来读取双通道（立...

python3 numpy的一些小知识点

简介一个用python实现的科学计算，包括： 1、一个强大的N维...

使用爬虫利器 Playwright，轻松爬取抖查查数据

使用爬虫利器 Playwright，轻松爬取抖查查数据我们先分析登...

轻松爬取灰豚数据的抖音商品数据

轻松爬取灰豚数据的抖音商品数据调用两次登录接口实现模拟登...

成功绕过阿里无痕验证码，一键爬取飞瓜数据

成功绕过阿里无痕验证码，一键爬取飞瓜数据飞瓜数据的登录接...

一文教你从零开始入门蝉妈妈数据爬取，成功逆向破解数据加密算法

一文教你从零开始入门蝉妈妈数据爬取，成功逆向破解数据加密...