网络爬虫工具

Grub Next Generation 网站爬虫

Grub Next Generation 是一个分布式的网页爬虫系统，包含客户端和服务器可以用来维护网页的索引。

LARM

LARM能够为Jakarta Lucene搜索引擎框架的用户提供一个纯Java的搜索解决方案。它包含能够为文件，数据库表格建立索引的方法和为Web站点建索引的爬虫。

Arachnid

Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web

Arale Spider

Arale主要为个人使用而设计，而没有像其它爬虫一样是关注于页面索引。Arale能够下载整个web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。

JoBo

JoBo是一个用于下载整个Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如：自动登录)和使用cookies来处理session。JoBo还有灵活的

ItSucks

ItSucks是一个java web spider（web机器人，爬虫）开源项目。支持通过下载模板和正则表达式来定义下载规则。提供一个swing

Heritrix web爬虫

Heritrix是一个开源，可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META

YaCy 网页爬虫

YaCy基于p2p的分布式Web搜索引擎.同时也是一个Http缓存代理服务器.这个项目是构建基于p2p

WebLech

WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

Spindle Spider

spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它包括一个用于创建索引的HTTP

Snoopy 网站内容采集器

Snoopy是一个强大的网站内容采集器（爬虫）。提供获取网页内容，提交表单等功能。

Combine Perl爬虫程序

Combine 是一个用Perl语言开发的开放的可扩展的互联网资源爬虫程序。

Spidr

Spidr 是一个Ruby 的网页爬虫库，可以将整个网站、多个网站、某个链接完全抓取到本地。

WebSPHINX

WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成：爬虫工作平台和WebSPHINX类包。

Nutch 搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Web-Harvest

Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-

NZBGet 新闻采集器

NZBGet是一个新闻采集器，其中从新闻组下载的资料格式为nzb文件。它可用于单机和服务器/客户端模式。在独立模式中通过nzb文件作为参数的命令行来下载文件。服务器和客户端都只有一个可执行文件”nzbget”。

urlwatch URL监控脚本

urlwatch 是一个用来监控指定的URL地址的 Python 脚本，一旦指定的 URL 内容有变化时候将通过邮件方式通知到。

Methabot

Methabot 是一个经过速度优化的高可配置的 WEB、FTP、本地文件系统的爬虫软件。

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider（robot：机器人，crawler：爬虫)和包含许多有趣功能的搜索引擎。

PhpDig PHP的Web爬虫和搜索引擎

PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时，它将按一定的排序规则显示包含关

weboob Web网站交互工具

Weboob ( Web Out Of Browsers ) 提供了很多工具用来和很多的网站进行交互。例如在youtube上搜索并播放视频；查询天气、银行帐号等等信息。

JSpider Java网页爬虫

JSpider 是一个用Java实现的WebSpider，JSpider的执行格式如下： jspider [URL] [ConfigName]

baidupost 百度贴吧发贴机

贴吧精灵* 百度贴吧发贴机要的请自己下载哦。有啥问题，BUG请联系我哦，[email protected]，完全免费中。 *

larbin 网络爬虫/网络蜘蛛

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就

QuickRecon 信息收集工具

QuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone

MetaSeeker 网页抓取／信息提取软件

爬虫软件MetaSeeker，现已全面升级为GooSeeker。新版本已经发布，在线版免费下载和使用，源代码可阅读。自推出以来，深受喜爱，主要应用领域：

Crawler4j Java多线程Web爬虫

Crawler4j是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。

SimpleCD SimpleCD是什么？谁需要使用SimpleCD？SimpleCD长啥样子？为什么用web.py？为什么使用 sqlite做数据库？其他一些数据库的更新方法：下载全数据库(截止2009.12.18)设置自动更新为什么simplecd.org的主页和deployment不一致？山寨版的 VeryCD

SimpleCD是什么？是山寨化VeryCD的全套工具，包括抓取脚本，网站代码等谁需要使用SimpleCD？

Chukwa 数据收集系统

什么是 Chukwa，简单的说它是一个数据收集系统，它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供Hadoop 进行各种MapReduce 操作。Chukwa

网络矿工采集器原soukey采摘网站数据采集软件

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件，也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源，但并不会影响软件功能的提供，甚至要比一些商用软件的功能还要丰富。Soukey采摘当前

HttpBot 简易HTTP爬虫

HttpBot 是对java.net.HttpURLConnection类的简单封装，可以方便的获取网页内容，并且自动管理session，自动处理301重定向等。虽然不能像HttpClient那样强大，支持完整的Http协议，但却非常地灵活，可以满足我目前

Sinawler 爬虫小新

国内第一个针对微博数据的爬虫程序！原名“新浪微博爬虫”。登录后，可以指定用户为起点，以该用户的关注人、粉丝为线索，延人脉关系搜集用户基本信息、微博数据、评论数据。

hispider 网页爬虫框架

HiSpider is a fast and high performance spider with high speed 严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载,

BlueLeech 网页搜索爬虫

BlueLeech是一个开源程序，它从指定的URL开始，搜索所有可用的链接，以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。

Ex-Crawler 网页爬虫

Ex-Crawler 是一个网页爬虫，采用 Java 开发，该项目分成两部分，一个是守护进程，另外一个是灵活可配置的 Web 爬虫。使用数据库存储网页信息。