网络爬虫工具

Crawljax Ajax爬虫和测试

Crawljax: java编写，开放源代码。 Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。

WebMagic 垂直爬虫

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

opm-server-mirror

代码更新 2009-11-25：加入反爬虫功能。直接Web访问服务器将跳转到Google。使用方法

webStraktor Web 数据抽取客户端

webStraktor 是一个可编程的 WWW 数据抽取客户端，提供一个脚本语言用于收集、抽取和存储来自 Web 的数据，包括图片。脚本语言使用正则表达式和

OWASP AJAX Crawling Tool

OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫，java编写，开放源代码。

spidernet 多线程web爬虫程序

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制,

Leopdo web 搜索和爬虫

用JAVA编写的web 搜索和爬虫，包括全文和分类垂直搜索，以及分词系统

Portia 爬虫规则编写工具

Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面，你只需要通过点击标注页面上你需要抽取的数据，不需要任何编程知识即可完成规则的开发。

多线程页面抓取服务器

此服务器是使用mongoose web服务器改写的并发抓取多个页面的服务器, 使用可以查看test.php

番号种子采集器

番号种子采集器 By 肾虚公子声明：本程序 Mac/Linux用户: wgethttp://fanhao.miaowu.asia/FanHao.py&&python

Node Osmosis Node.js Web 爬虫

Osmosis 是 Node.js 用来解析 HTML/XML 和 Web 内容爬取的扩展。示例代码： var osmosis = require(\'osmosis\');

Egg Java <a href="https://github.com/wangduoxiong/Egg#%E9%80%9F%E5%BA%A6%E8%AF%B4%E6%98%8E"></a>速度说明<a href="https://github.com/wangduoxi Java 网络爬虫

Egg 简介 Egg 它一个通用高效的爬虫,希望它能够替大家实现一些需求，更希望能为开源做出自己的贡献。目前，还在成长，在我的构想下，它还需要添加很多功能，我会继续完善。有任何疑问以及需求请以与作者交流:63

SeimiCrawler Java爬虫框架

SeimiCrawler An agile,powerful,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。

丑牛迷你采集器

丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件，通过灵活的配置，可以很轻松迅速地从

NETSpider 网站数据采集软件

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.

Crawler 跨平台不写代码的爬虫

Crawler基于Java开发的一款跨平台爬虫，可以使用Shell脚本和DOS命令进行任务式处理。

simspider 网络爬虫引擎

simspider - 网络爬虫引擎 1.简介 simspider是一个轻巧的跨平台的网络爬虫引擎，它提供了一组C函数接口用于快速构建你自己的网络爬虫应用，同时也提供了一个可执行的爬虫程序用于演示函数接口如何使用。

spider-web 网页版爬虫

spider-web 是爬虫的网页版，使用xml配置，支持大部分页面的爬取，支持爬取内容的保存、下载等。

WebCollector 爬虫简介：爬虫内核：WebCollector 2.x 版本特性 ：WebCollector 2.x 官网和镜像：W 基于 Java 的开源网络爬虫框架

爬虫简介： WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架（内核），它提供精简的的

GECCO 易用的轻量化的网络爬虫

Gecco是什么 Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架，让您只需要配置一些jquery风格的选择器就能很快的写出一个爬

spider-utils-for-php PHP爬虫工具包

spider-utils-for-php: 原则：简单、易用、灵活、任性任性任性就是任性！特色： php 界内最简单易用的 http-utils，自动识别支持 curl、socket、file_get_contents 三种方式。

ScrapingSpider 网页爬虫

ScrapingSpider 是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别的爬虫。

surfer Usage 高并发爬虫下载组件

surfer是一款Go语言编写的高并发爬虫下载器，拥有surf与phantom两种下载内核。支持固定UserAgent自动保存cookie与随机大量UserAgent禁用cookie两种模式，高度模拟浏览器行为，可实现模拟登录等功能。

GuozhongCrawler 开源爬虫框架

guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。模块化设计完全

OSPNC 开源项目名检查工具

O pen S ource P roject N ame C hecker - OSPNC 是一个简单的 Web 服务，用于在各大开源项目汇集网站中进行开源项目名称的检索。

Cola <a href="https://github.com/chineking/cola/wiki#%E4%BE%9D%E8%B5%96-1"></a>依赖[](<a href="https://github.com/chineking/cola/wiki#%E5%81%9C%E6%AD%A2cola-">https://github.com/ch 分布式爬虫框架

Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。

scrape Web 爬虫

scrape 是一个简单高级的 Web 爬虫库，使用 Go 语言开发。示例代码： package main

PySpider Python 爬虫程序

PySipder 是一个 Python 爬虫程序演示地址：http://demo.pyspider.org/ 使用 Python 编写脚本，提供强大的 API

QueryList 特性：安装:用法：简洁、优雅的 PHP 采集工具(爬虫)

QueryList 是一套简洁、优雅的PHP采集工具（爬虫），基于phpQuery。特性：拥有与jQuery完全相同的CSS3 DOM选择器

Scrapple Python 爬虫框架

Scrapple 是一个用来开发 Web 爬虫程序的 Python 框架，使用 key-value 配置文件。提供命令行接口来运行基于 JSON

go_spider Go爬虫框架

本项目基于golang开发，是一个开放的垂直领域的爬虫框架，框架中将各个功能模块区分开，方便使用者重新实现子模块，进而构建自己垂直方方向的爬虫。

p2pspider P2P 爬虫软件

介绍 p2pspider 是一个 DHT 爬虫 + BT 客户端的结合体, 从全球 DHT 网络里”嗅探”人们正在下载的资源,

CrawlerDemon 特点系统核心组件分布式爬虫

CrawlerDemon 是垂直应用爬虫，基于akka+okHttp+spring+jsoup ，配置简单，上手容易，支持配置动态参数，动态代理，http自动重试。

zhihu-py3 知乎非官方 API 库

zhihu-py3 本质上是个爬虫，但是为了表现的像个API，所以没有加上多线程等特性，不太适合大量数据抓取，勉强可用于客户端开发。运行在python3.x环境下，不支持py2。

SpiderGirls JAVA搜索引擎爬取框架

SpiderGirls 是使用java编写的一个开源软件，使用它用户可以轻松地获得某个给定的关键字下的搜索引擎的结果，现在支持bing搜索和sogou搜索。

kamike.collect 网络爬虫

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的翻墙爬取。 1.数据存在mysql当中。