Hawk_Crawler 数据采集和清洗工具

程序名称:Hawk_Crawler

授权协议: GPL

操作系统: 跨平台

开发语言: C#

Hawk_Crawler 介绍

HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库文件, 并通过可视化地拖拽,
快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗。

Hawk的含义为“鹰”,能够高效,准确地捕杀猎物。

HAWK使用C# 编写,其前端界面使用WPF开发,支持插件扩展。通过图形化操作,能够快速建立解决方案。

GitHub地址:https://github.com/ferventdesert/Hawk

其Python等价的实现是etlpy:http://www.cnblogs.com/buptzym/p/5320552.html

笔者专门为其开发的工程文件已公开在GitHub:https://github.com/ferventdesert/Hawk-Projects

使用时,点击文件,加载工程即可加载。不想编译的话,可执行文件在:https://github.com/ferventdesert/Hawk/tree/master/Versions

编译路径在: Hawk.Core\Hawk.Core.sln

2.gif-3330.9kB

获取大众点评的所有北京美食为例,使用本软件可在10分钟内完成配置,在1小时之内自动并行抓取全部内容,并能监视子线程工作情况。而手工编写代码,即使是使用python,一个熟练的程序员也可能需要一天以上:

1.gif-1001.8kB

视频演示,复杂度由小到大:

Hawk_Crawler 官网

https://github.com/ferventdesert/Hawk

相关编程语言

Pacman 是一个软件包管理器, 作为 ArchLinux 发行版...
Smb4K 是KDE下的网络共享浏览器 更多屏幕截图请看:...
Wine (“Wine Is Not an Emulator” 的首字母缩写)...
虚拟桌面软件,可管理最多9个虚拟桌面,你可以用热键...
UNetbootin (Universal Netboot Installer)为一种跨...
Cobbler 可以用来快速建立 Linux 网络安装环境,它已...