Scrapy可视化管理管理工具总结

本文总结了与Scrapy框架相关的一些开源工具

1、scrapyd

项目地址:https://github.com/scrapy/scrapyd

文档: https://scrapyd.readthedocs.io/

Scrapyd 是一个运行 Scrapy 爬虫程序的服务

pip install scrapyd

scrapyd  # 启动服务

环境测试: http://localhost:6800/

在这里插入图片描述

2、ScrapydAPI

项目地址:https://github.com/djm/python-scrapyd-api

一个 Scrapyd API 的python封装

pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI

scrapyd = ScrapydAPI('http://localhost:6800')

3、ScrapydArt

项目地址:https://github.com/dequinns/ScrapydArt

ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API

pip install scrapydart 

$ scrapydart  # 启动

web界面 http://localhost:6800

在这里插入图片描述

4、ScrapydWeb

项目地址:https://github.com/my8100/scrapydweb

功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth

pip install scrapydweb

$ scrapydweb -h    # 初始化
$ scrapydweb  # 启动

管理页面:http://127.0.0.1:5000

在这里插入图片描述

参考:
如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

5、Gerapy

项目地址:https://github.com/Gerapy/Gerapy

一款分布式爬虫管理框架
控制爬虫运行,
查看爬虫状态,
查看爬取结果,
项目部署,
主机管理,
编写爬虫代码

pip3 install gerapy

$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

web界面: http://localhost:8000

在这里插入图片描述

参考:
scrapyd部署、使用Gerapy 分布式爬虫管理框架

6、SpiderKeeper

项目地址:https://github.com/DormyMo/SpiderKeeper
一个scrapyd的可视化工具

pip install spiderkeeper

$ spiderkeeper  # 启动

web ui : http://localhost:5000

在这里插入图片描述

7、SpiderAdmin

github: https://github.com/mouday/SpiderAdmin
pypi: https://pypi.org/project/spideradmin/

功能介绍
1、对Scrapyd 接口进行可视化封装,对Scrapy爬虫项目进行删除 和 查看

2、对爬虫设置定时任务,支持apscheduler 的3中方式和随机延时,共计4中方式
单次运行 date
周期运行 corn
间隔运行 interval
随机运行 random

3、基于Flask-BasicAuth 做了简单的权限校验

启动运行

$ pip3 install spideradmin

$ spideradmin       # 启动服务

访问:
http://127.0.0.1:5000/

在这里插入图片描述

8、Spider Admin Pro

Github: https://github.com/mouday/spider-admin-pro

Gitee: https://gitee.com/mouday/spider-admin-pro

Pypi: https://pypi.org/project/spider-admin-pro

Spider Admin Pro 是Spider Admin的升级版

简化了一些功能;
优化了前端界面,基于Vue的组件化开发;
优化了后端接口,对后端项目进行了目录划分;
整体代码利于升级维护。
目前仅对Python3进行了支持

运行启动

$ pip3 install spider-admin-pro

$ python3 -m spider_admin_pro.run

在这里插入图片描述

总结

分类 名称 简介
爬虫框架 Scrapy 爬虫程序
服务端 Scrapyd Scrapy爬虫管理程序
服务端 ScrapydArt 增强版的 Scrapyd
客户端 ScrapydAPI 对Scrapyd API的封装
客户端 ScrapydWeb 管理调度 Scrapyd
客户端 Gerapy 管理调度 Scrapyd
客户端 SpiderKeeper 管理调度 Scrapyd
客户端 SpiderAdmin 管理调度 Scrapyd
客户端 Spider Admin Pro(推荐) 管理调度 Scrapyd

相关文章

学习编程是顺着互联网的发展潮流,是一件好事。新手如何学习...
IT行业是什么工作做什么?IT行业的工作有:产品策划类、页面...
女生学Java好就业吗?女生适合学Java编程吗?目前有不少女生...
Can’t connect to local MySQL server through socket \'/v...
oracle基本命令 一、登录操作 1.管理员登录 # 管理员登录 ...
一、背景 因为项目中需要通北京网络,所以需要连vpn,但是服...