网络爬虫工具

DenseSpider 网络爬虫

本项目 fork 项目go_spider，github：https://github.com/hu17889/go_spider ，因此项目架构的部分文档可以参考此项目。

Pholcus Pholcus

已删除源码

WebFetch 极简网络爬虫组件

WebFetch 是无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标：

Creeper <strong>简单的用例：</strong> Go 版本开源爬虫框架

Creeper 是一个基于简单脚本（ Creeper Script ，扩展名 .crs ）的下一代开源爬虫框架。

Beats 轻量型数据采集器

Beats 是一款轻量级的数据采集器，采用 Go 语言编写。它集合了多种单一用途数据采集器。这些采集器安装后可用作轻量型代理，从成百上千或成千上万台机器向Logstash 或Elasticsearch 发送数据。

Jedi-Crawler Node/PhantomJS爬虫

Jedi-Crawler 是一款轻量级 Node/PhantomJS爬虫，可以动态的抓取网页内容。安装： npm install jedi-crawler

phpDhtSpider PHP分布式dht爬虫

php实现的dht (BT种子)分布式爬虫 24小时采集 bt种子磁力链接信息区别于传统爬虫不会被封ip

vscrawler 适合抓取封堵的爬虫框架

VSCrawler是一个适合用作抓取的爬虫框架，在更多场景倾向于功能扩展性而牺牲使用简便性。这让VSCrawler非常强大，让他可以灵活的应对目标网站的反爬虫策略。为了方便描述，文档中可能使用VS替代VSCrawler作为VSCra

Zerg <a href="https://github.com/huichen/zerg#%E7%89%B9%E6%80%A7"></a>特性如何部署基于docker的分布式爬虫服务

zerg 基于docker的分布式爬虫服务特性多机多 IP，充分利用 IP 资源服务自动发现和注册（基于 etcd 和 registrator）

wyps 在线采集系统

wyps 是一个采用Java编写的一个在线采集系统，通过jsoup解析html网页，，只要会写jQuery语法就可以轻松采集任意网页的内容。并且使用selenium自动化测试工具解析动态网站或者需要登录的网站，使用chrome浏览器模拟

ghost-login 网络爬虫模拟登陆

ghost-login **此处所说的模拟登录不是指利用网站本身提供的认证API接口进行登录，主要是通过分析前端代码，摸清登录认证原理、核心加密代码，然后程序模拟，来实现自动登录网站的过程；

BaiduyunSpider 技术栈演示站点百度云网盘搜索引擎

包含百度云网盘爬虫、网站前后端、搜索，整套服务。技术栈网站： PHP Codeigniter

crawl 1.dbconfig.php 添加正确的数据库配置2. 安装程序安装完成后，在setting表添加来源站点及正则提取规则启动程序 (参数是 setting 表id)清除项目数据完整代码目录 php爬虫系统

php爬虫系统程序只支持CLI 安装程序 1.dbconfig.php 添加正确的数据库配置 2. 安装程序

zhihu-spider Spring Boot 项目框架

项目背景从一开始是想编写一个单纯的知乎爬虫，并实现其持久化，并由此展开周期性爬取知乎问题及答案以及其用户资料信息，完善前后端分离归档分类，信息检索等项目模块。但是在实现过程中，我逐渐发现自己对信息爬

nspider Node 版的轻量级爬虫框架

nspider node版的轻量级爬虫框架特性: 在服务端进行dom处理，默认使用的jquery语法

Scrapy-Python scrapy实例Demo版本+环境库应用网站爬虫框架库

scrapy Scrapy：Python的爬虫框架实例Demo 抓取：汽车之家、瓜子、链家等数据信息

OSCspider 爬取开源中国中的项目信息

爬取开源中国中的项目信息并保存到数据库(sqlite)，方便按收藏、评论、评分查找。

crawler-java Java 爬虫框架

一个简约灵活强大的Java爬虫框架。 Features: 1、代码简单易懂，可定制性强 2、简单且易于使用的api

xxl-crawler 分布式爬虫框架XXL-CRAWLER特性文档地址技术交流分布式爬虫框架

分布式爬虫框架XXL-CRAWLER XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫，拥有”多线程、异步、IP动态代理、分布式、JS渲染”等特性；

DribbbleCrawler Python爬虫工具

DribbbleCrawler 是一款小而美的爬虫工具。 Windows平台应用程序点击获取使用 PATH:存储图片的地址

V5_DataCollection 仿火车头数据采集器

V5 数据采集器是一款面向个人及专业用户提供的一款专业的数据采集软件,即适用于简单化配置操作，也适应针对复杂数据采集的能力,所见即可采。

Python-goose 示例用于文章提取的 Python 库

Python- goose项目是用Python重写的Goose，Goose原来是用Java写的文章提取工具。Python-

Grabant Grabant使用方法 Go 语言开发的爬虫框架

Grabant Grabant是一个用go语言开发，用javascript语法书写规则的爬虫框架规则开发和神箭手的爬虫规则类似，开发的目的是兼容大部分神箭手已有的规则

百度云分享爬虫

百度云分享爬虫项目 github上有好几个这样的开源项目，但是都只提供了爬虫部分，这个项目在爬虫的基础上还增加了保存数据，建立elasticsearch索引的模块，可以用在实际生产环境中，不过web模块还是需要自己开发

WebPasser 开源爬虫框架

WebPasser是一款可配置的开源爬虫框架，提供爬虫控制台管理界面，通过配置解析各类网页内容，无需写一句java代码即可抽取所需数据。

owllook 运行效果关于网络小说搜索引擎

网络小说搜索引擎 — owllook owllook是一个基于其他网站的垂直小说搜索引擎，至于为什么写这个，一个是想利用sanic尽量做成异步服务，二是想就此练习下推荐系统，顺便作为毕业设计。

CatGate 演示视频功能Demo安装插件License 基于浏览器的爬虫框架

CatGate 是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入，能最真实的模仿用户行为和特征。

Zicada 本地模式远程模式爬虫规则录制客户端

Zicada系统最基本的功能就是录制爬虫抓取的页面规则。将抓取规则划分为登录页、列表页、详情页以及翻页，自由定制。 Zicada系统分为本地模式和远程模式。

神箭手云爬虫快速开发爬虫系统的云框架

神箭手云爬虫是一个帮助开发者快速开发爬虫系统的云框架。神箭手提供上手简单，灵活开放的爬虫云开发环境，让开发者只需要在线写几行js代码就可以实现一个爬虫。并且爬虫将自动运行在云服务器上，爬取速度更快，效

Hawk_Crawler 数据采集和清洗工具

HAWK是一种数据采集和清洗工具，依据GPL协议开源，能够灵活，有效地采集来自网页，数据库，文件，并通过可视化地拖拽，

marmot 项目代号：土拨鼠土拨鼠Golang爬虫包|Web Crawler Package

项目代号：土拨鼠万维网网络机器人,又称蜘蛛,爬虫,原理主要是通过构造符合HTTP协议的网络数据包,向指定主机请求资源,获取返回的数据.万维网有大量的公开信息,人力采集数据费时费力,故激发了爬虫的产业化.

Beanbun 简介特点安装快速开始插件可扩展的爬虫框架

$\"Build$

Gather Platform 数据采集平台

Gather Platform 数据抓取平台是一套基于 Webmagic 内核的，具有 Web 任务配置和任务管理界面的数据采集平台，一个轻量级的搜索引擎系统。具有以下功能

Node-cnblogs-spider 基于 Node 实现的爬虫

$\"Build$

Crawlab 要求Docker要求直接部署Docker直接部署主节点工作节点MongoDBRedis前端集成Scrapy 分布式爬虫管理平台

Crawlab 是一个使用 Golang 开发的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

NowView Android 图文精选 APP

Jsoup + MaterialViewPager + RxJava2 + Retrofit + Lifecycle + Realm + Fresco + Retrolambda example 一款Android图文精选app，通过抓取网页获得图文列表。目前包含猫弄（MONO）早午茶、站酷（Zcool）精选、国家