WebPasser 开源爬虫框架

程序名称:WebPasser

授权协议: MIT

操作系统: 跨平台

开发语言: Java

WebPasser 介绍

WebPasser是一款可配置的开源爬虫框架,提供爬虫控制台管理界面,通过配置解析各类网页内容,无需写一句java代码即可抽取所需数据。

1.包含强大的页面解析引擎,提供jsoup、xpath、正则表达式等处理链,通过简单配置即可抽取所需的指定内容
2.提供爬虫控制管理界面,可实时监控抓取状态,动态添加抓取任务,动态配置定时任务,可对单个网页进行测试抓取。
3.提供抓取各阶段的触发器、拦截器,方便扩展。

控制台部分截图:

使用:

1.查看目标网站的页面特征,在xml中配置所需抓取内容
2.在控制台添加一个抓取任务,将xml配置提交。
3.对单个网页测试或整个任务执行测试。
4.在webpasser.project中扩展数据持久化类或使用现有持久化类存储数据
5.设置定时任务。

WebPasser 官网

http://git.oschina.net/passer/webpasser

相关编程语言

Pacman 是一个软件包管理器, 作为 ArchLinux 发行版...
Smb4K 是KDE下的网络共享浏览器 更多屏幕截图请看:...
Wine (“Wine Is Not an Emulator” 的首字母缩写)...
虚拟桌面软件,可管理最多9个虚拟桌面,你可以用热键...
UNetbootin (Universal Netboot Installer)为一种跨...
Cobbler 可以用来快速建立 Linux 网络安装环境,它已...