Crawljax: java编写,开放源代码。
Crawljax 是一个 Java 的工具用于自动化的爬取和测试现在的 Ajax Web 应用。
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
代码更新
2009-11-25: 加入反爬虫功能。直接Web访问服务器将跳转到Google。
使用方法
webStraktor 是一个可编程的 WWW 数据抽取客户端,提供一个脚本语言用于收集、抽取和存储来自 Web 的数据,包括图片。脚本语言使用正则表达式和
OWASP AJAX Crawling Tool (FuzzOps-NG) OWASP出品的ajax爬虫,java编写,开放源代码。
spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制,
用JAVA编写的web 搜索和爬虫,包括全文和分类垂直搜索,以及分词系统
Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要抽取的数据,不需要任何编程知识即可完成规则的开发。
此服务器是使用mongoose web服务器改写的并发抓取多个页面的服务器,
使用可以查看test.php
番号种子采集器
By 肾虚公子
声明:本程序
Mac/Linux用户:
wgethttp://fanhao.miaowu.asia/FanHao.py&&python
Osmosis 是 Node.js 用来解析 HTML/XML 和 Web 内容爬取的扩展。
示例代码:
var osmosis = require(\'osmosis\');
Egg 简介
Egg
它一个通用高效的爬虫,希望它能够替大家实现一些需求,更希望能为开源做出自己的贡献。目前,还在成长,在我的构想下,它还需要添加很多功能,我会继续完善。有任何疑问以及需求请以与作者交流:63
SeimiCrawler
An agile,powerful,distributed crawler framework.
SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。
丑牛迷你采集器是一款基于Java Swing开发的专业的网络数据采集/信息挖掘处理软件,通过灵活的配置,可以很轻松迅速地从
NETSpider网站数据采集软件是一款基于.Net平台的开源软件。
软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的.
Crawler基于Java开发的一款跨平台爬虫,可以使用Shell脚本和DOS命令进行任务式处理。
simspider - 网络爬虫引擎
1.简介
simspider是一个轻巧的跨平台的网络爬虫引擎,它提供了一组C函数接口用于快速构建你自己的网络爬虫应用,同时也提供了一个可执行的爬虫程序用于演示函数接口如何使用。
spider-web 是爬虫的网页版,使用xml配置,支持大部分页面的爬取,支持爬取内容的保存、下载等。
爬虫简介:
WebCollector 是一个无须配置、便于二次开发的 Java 爬虫框架(内核) ,它提供精简的的
Gecco是什么
Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架,让您只需要配置一些jquery风格的选择器就能很快的写出一个爬
spider-utils-for-php:
原则:
简单、易用、灵活、任性任性任性就是任性!
特色:
php 界内最简单易用的 http-utils,自动识别支持 curl、socket、file_get_contents 三种方式。
ScrapingSpider 是一个业余时间开发的,支持多线程,支持关键字过滤,支持正文内容智能识别的爬虫。
surfer是一款Go语言编写的高并发爬虫下载器,拥有surf与phantom两种下载内核。
支持固定UserAgent自动保存cookie与随机大量UserAgent禁用cookie两种模式,高度模拟浏览器行为,可实现模拟登录等功能。
guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全
O pen S ource P roject N ame C hecker - OSPNC 是一个简单的 Web
服务,用于在各大开源项目汇集网站中进行开源项目名称的检索。
Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。
scrape 是一个简单高级的 Web 爬虫库,使用 Go 语言开发。
示例代码:
package main
PySipder 是一个 Python 爬虫程序
演示地址:http://demo.pyspider.org/
使用 Python 编写脚本,提供强大的 API
QueryList 是一套简洁、优雅的PHP采集工具(爬虫),基于phpQuery。
特性:
拥有与jQuery完全相同的CSS3 DOM选择器
Scrapple 是一个用来开发 Web 爬虫程序的 Python 框架,使用 key-value 配置文件。提供命令行接口来运行基于 JSON
本项目基于golang开发,是一个开放的垂直领域的爬虫框架,框架中将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。
介绍
p2pspider 是一个 DHT 爬虫 + BT 客户端的结合体, 从全球 DHT 网络里”嗅探”人们正在下载的资源,
CrawlerDemon 是垂直应用爬虫,基于akka+okHttp+spring+jsoup
,配置简单,上手容易,支持配置动态参数,动态代理,http自动重试。
zhihu-py3
本质上是个爬虫,但是为了表现的像个API,所以没有加上多线程等特性,不太适合大量数据抓取,勉强可用于客户端开发。运行在python3.x环境下,不支持py2。
SpiderGirls 是使用java编写的一个开源软件,使用它用户可以轻松地获得某个给定的关键字下的搜索引擎的结果,现在支持bing搜索和sogou搜索。
Another Simple Crawler 又一个网络爬虫,可以支持代理服务器的翻墙爬取。
1.数据存在mysql当中。