PlayFish 网页抓取工具

程序名称:PlayFish

授权协议: MIT

操作系统: 跨平台

开发语言: Java

PlayFish 介绍

playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具

应用开源jar包包括httpclient(内容读取),dom4j配置文件解析),jericho(html解析),已经在
war包的lib下。

这个项目目前还很不成熟,但是功能基本都完成了。要求使用者熟悉XML,熟悉正则表达式。目前通过这个工具可以抓取各类论坛,贴吧,以及各类CMS系统。像discuz!,PHPbb,论坛跟博客文章,通过本工具都可以轻松抓取。抓取定义完全采用XML,适合Java开发人员使用。

使用方法, 1.下载右边的.war包导入到eclipse中, 2.使用WebContent/sql下的wcc.sql文件建立一个范例数据库
3.修改src包下wcc.core的dbConfig.txt,将用户名密码设置成你自己的MysqL用户名密码
4.然后运行SystemCore,运行时候会在控制台,无参数会执行认的example.xml的配置文件,带参数时候名称配置文件名。

系统自带了3个例子,分别为baidu.xml抓取百度知道,example.xml抓取我的javaeye的博客,bbs.xml抓取一个采用
discuz论坛的内容

PlayFish 官网

http://code.google.com/p/playfish/

相关编程语言

Pacman 是一个软件包管理器, 作为 ArchLinux 发行版...
Smb4K 是KDE下的网络共享浏览器 更多屏幕截图请看:...
Wine (“Wine Is Not an Emulator” 的首字母缩写)...
虚拟桌面软件,可管理最多9个虚拟桌面,你可以用热键...
UNetbootin (Universal Netboot Installer)为一种跨...
Cobbler 可以用来快速建立 Linux 网络安装环境,它已...