网络爬虫工具

jfinal_jsoup_meinvtu JFinal+JSoup 开发的爬虫

去年，做了几个JFinal项目，大量使用了Java爬虫去全网抓取数据，清洗筛选后入库，成为本地结构化数据。

spider-flow 爬虫平台

介绍 spider-flow，新一代爬虫平台，以图形化方式定义爬虫流程，不写代码即可完成爬虫。

Colly 项目特性示例简单快速的 Web 爬虫框架

Colly 是一个采用 Go 语言编写的 Web 爬虫框架，旨在提供一个能够写任何爬虫/采集器/蜘蛛的简洁模板。通过 Colly

ProxyIpPool 爬虫代理 IP 池

ProxyIpPool 是一个爬虫代理 ip 池，主要用途爬取代理 ip ，然后将这些代理 ip 放入池子里（池子是某个数据结构的概念，比如我用的是队列）进行维护。

GoldDataSpider 网页数据抽取工具

GoldDataSpider 是用于抓取网页和抽取数据的工具。其核心代码是从金色数据抓取融合平台分离而来。

XCrawler <strong>XCrawler - 轻量级、易维护的PHP爬虫框架</strong> 轻量级的 PHP 爬虫框架

XCrawler - 轻量级、易维护的PHP爬虫框架特性: 极易上手，具备完善的文档和示例

WebCollector-Python WebCollector Java版本安装示例快速入门自动探测URL手动探测URL用detected_filter插件过滤探测到的URL用RedisCrawler进行可断点的采集可在关闭后恢复用Requests定制Http请求基于 Python 的开源网络爬虫框架

WebCollector-Python WebCollector-Python 是一个无须配置、便于二次开发的 Python 爬虫框架（内核），它提供精简的的

grab_huaban_board for Pythonfor JavaScript(花瓣、堆糖) 花瓣网下载工具

grab_huaban_board 花瓣网下载工具是一个用户脚本，用来批量抓取花瓣网用户画板的高清原图，支持PC与Mobile，并可以选择通过不同方式下载到本地。

GNE-JS 新闻网页正文通用抽取器

GNE-JS 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。

VW-Crawler 背景特点使用离线使用步骤抓取CSDN某用户的博客内容 Java 爬虫框架

VW-Crawler 背景自己一直对爬虫比较感兴趣，大学的毕业论文也是一个爬虫项目(爬教务处信息，然后做了个Android版教务管理系统，还获得了优秀毕业设计的称号)，自那以后遇到自己感兴趣的网站就会去抓一下。前段时间

Dodder 注意分布式 DHT 网络爬虫

_________________________ _____ \\___________/_____/____________ __/ / /__ \\__/___/__ \\____/ _/_/ // /_/ / /_/ / / /_/ / /__//

BeiJingSubwayFlows 结果：其他：北京地铁客流量统计工具

北京地铁客流量统计（py爬虫+js统计图) 很好奇北京地铁每天的客流量变化，于是写了个爬虫。结果很有意思，每周7天的客流变化都很规律。

AiPa 一款小巧、灵活的Java多线程爬虫框架AiPa1.框架简介2.下载安装3.如何使用3.3 自定义爬虫类4.测试用例5.关于作者 Java 多线程爬虫框架

一款小巧、灵活的Java多线程爬虫框架（AiPa） 1.框架简介 AiPa 是一款小巧，灵活，扩展性高的多线程爬虫框架。

CrawlerForReader 支持书源模版示例调用方式ScreenShotLicense Android 本地网络小说爬虫

CrawlerForReader Android 本地网络小说爬虫，基于 jsoup 与 xpath，通过模版解析网页。

wind-bell 轻量级的爬虫工具

wind-bell 风铃虫是一款轻量级的爬虫工具，似风铃一样灵敏，如蜘蛛一般敏捷，能感知任何细小的风吹草动，轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序，内置了二十余种常见或不常见的浏览器标

skycaiji 基于 PHP 的数据采集发布爬虫系统

蓝天采集器(skycaiji)是一款免费的数据采集发布爬虫软件，采用php+mysql开发，可部署在云服务器，几乎能采集所有类型的网页，无缝对接各类CMS建站程序，免登录实时发布数据，全自动无需人工干预！是大数据、云时代

Ferret 特性示例声明式 Web 爬虫系统

Ferret 是一个声明式的 Web 爬虫系统，旨在简化网络上的数据提取，以用于 UI 测试、机器学习和分析等等。

GNE 新闻网页正文通用抽取器

GNE 是基于论文《基于文本及符号密度的网页正文提取方法》实现的新闻网页正文通用抽取器。

http-proxy-pool 网站代理工具

http-proxy-pool 是一个流量代理工具。对于代理地址，期望是越多越好，但是对于代理质量有着更高的要求，宁缺勿滥，因此proxy-

AntNest 简明飞快的异步爬虫框架

AntNest 简明飞快的异步爬虫框架（python3.6+），只有600行左右的代码功能开箱即用的HTTP客户端

Douyin-Bot 特性原理脸部截取 Python 抖音机器人

Douyin-Bot 是一个用 Python 和 ADB 打造的 Python 抖音机器人。特性自动翻页颜值检测

finndycloud 特色功能安装说明开发文档版权信息开源分布式云采集工具化引擎

发源地开源云采集引擎发源地云采集引擎是由发源地研发团队开发的一套开源分布式云采集工具化引擎，致力于让用户快捷挖掘大数据矿山背后的价值！

Scrapyd 运行 Scrapy 爬虫的守护进程

Scrapyd 是一个部署和运行 Scrapy 爬虫的应用，它允许使用 HTTP JSON API 部署 Scrapy 项目并控制其爬虫。

Blog-Hunter <strong>主要功能</strong> 基于 webMagic 的博客爬取工具

Blog-Hunter（博客猎手），基于 webMagic 的博客爬取工具，支持慕课、csdn、iteye、cnblogs、掘金和 V2EX

Botsonar Openresty Lua 智能反爬虫 Lua 插件

简介 Botsonar 一款企业使用的反爬虫管理平台。该平台集爬虫发现，策略，防御，流量分析于一体，目前处于 Alpha 测试版本，开源测试版本为旁路分析模式。

gugu 金融/投资领域数据分析及量化工具

gugu(股估) gugu(股估)是适用于金融/投资领域数据分析及量化工程的开源项目，通过对互联网上的公开数据进行采集、清洗和存储，完成了对股票/债券/基金等金融数据的统一调用和分析。其优点是速度快、可定制及高度的

cetty 基于事件分发的爬虫框架

一个轻量级的基于事件分发的爬虫框架。功能介绍基于完全自定义事件处理机制的爬虫框架。