Xenu Link Sleuth
也许是你所见过的最小但功能最强大的检查网站死链接的软件了。你可以打开一个本地网页文件来检查它的链接,也可以输入任何网址来检查。它可以分别列出网站
commoncrawl 源码库是用于 Hadoop 的自定义 InputFormat 配送实现。
Common Crawl 提供一个示例程序 BasicArcFileReaderSample.java (位于
crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題
playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具
根据批量URL生成一个有书签的pdf文档的解决方案。h2p-file是一个xml文件,该xml文件主要描述url的信息和url的层次结构,h2p-tool根据h2p-file生成有书签的pdf文档。还可以通过xsl直接展示url的层次结构,而且合作网
jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.
Smart and Simple Web
Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫可以从单个链接或一个链接数组开始,提供两种遍历模式:最大迭代和最大深度。可以设置
Scrapy
是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便~
本系统采用主流编程语言php和mysql数据库,您可以通过自定义采集规则,或者到我的网站下载共享的规则,针对网站或者网站群,采集您所需的数据,您也可以向所有人共享您的采集规则哦。通过数据浏览和编辑器,编辑您
Methanol 是一个模块化的可定制的网页爬虫软件,主要的优点是速度快。
NWebCrawler是一款开源的C#网络爬虫程序
JobHunter旨在自动地从一些大型站点来获取招聘信息,如chinahr,51job,zhaopin等等。JobHunter
Bixo 是一个开放源码的Web挖掘工具包,基于 Hadoop
开发和运行。通过建立一个定制的级联管总成,您可以快速创建Web挖掘是专门为特定用例优化的应用程序。
DotNetWikiBot Framework 是一个全功能的客户端API和一个控制台应用,用来构建抓取基于MediaWiki 网站的爬虫,采用 .NET 开发。
Ebot 是一个用 ErLang 语言开发的可伸缩的分布式网页爬虫,URLs 被保存在数据库中可通过 RESTful 的 HTTP 请求来查询。
Spiderman - 又一个Java网络蜘蛛/爬虫
Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。
Harvestman 是一个非常简单、轻量级的 Web 爬虫,使用 Ruby 编写,示例代码:
require \'harvestman\'
作为一个入门级的程序员,用ruby写的一个小脚本,可以采集某人才网的人才数据,写的不好。头一次发布,希望大大们批评指正。
Upton 是一个用于简化web抓取与一个有用的调试模式的框架,可单独为目标网站编写内容解析。
crawl-me是一个基于plugin的轻量级快速网页图片下载工具。crawl-
me通过简单的命令行就可以用你想要的方式下载各个网站下的图片。目前暂时只支持gamersky(游明星空),
NCrawler 是一个Web Crawler 工具,它可以让开发人员很轻松的发展出具有Web Crawler
TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。
Maven引用坐标:
<dependency>
Crowbar: 基于Mozilla浏览器的 ajax 爬虫,还可作为远程浏览器使用,比较有意思。
这是一个非常简单易用的抓取工具
怎么使用? 首先你需要创建一个对应站点的规则文件 比如test.json
goodcrawler(GC) 网络爬虫
GC是一个垂直领域的爬虫,同时也是一个拆箱即用的搜索引擎。
phpcrawl是一个爬虫/蜘蛛功能的基于php开发的框架,所以我们称它为网站或爬虫的PHP库。
ThinkUp
是一个可以采集推特,facebook等社交网络数据的社会媒体视角引擎。通过采集个人的社交网络账号中的数据,对其存档以及处理的交互分析工具,并将数据图形化以便更直观的查看。
NEOCrawler(中文名:牛咖),是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源,适合用于垂直领域的数据采集和爬虫二次开发。
heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架,遵循GNU GPL V3协议。
JAVA平台上的网络爬虫脚本语言 CrawlScript
网络爬虫即自动获取网页信息的一种程序,有很多JAVA、C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个简单
美容新闻淘客免维护全自动采集
1.采集瑞丽女性美容频道文章,免维护全自动采集
一个可扩展的PHP WEB 蜘蛛,示例代码:
use VDB\\Spider\\Spider;
use VDB\\Spider\\Discoverer\\XPathExpressionDiscoverer;
Spiderq 是一个网页爬虫,性能依赖于服务器配置和网络情况。
Goutte 是一个抓取网站数据的 PHP 库。它提供了一个优雅的 API,这使得从远程页面上选择特定元素变得简单。
Nutch Htmlunit Plugin
重要说明:
当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch
一个基于gevent的爬虫框架,最初的版本在一定程度上模仿了scrapy。