CrawlZilla Web爬虫程序

程序名称:CrawlZilla

授权协议: Apache License 2

操作系统: Linux

开发语言: Java

CrawlZilla 介绍

CrawlZilla

  • crawlzilla 是一個幫你輕鬆建立搜尋引擎的自由軟體,有了它,你就不用依靠商業公司的收尋引擎,也不用再煩惱公司內部網站資料索引的問題
  • 由 nutch 專案為核心,並整合更多相關套件,並開發設計安裝與管理UI,讓使用者更方便上手。
  • crawlzilla 除了爬取基本的 html 檔外,還能分析網頁上的檔案,如( doc、pdf、ppt、ooo、RSS )等多種文件格式,讓你的搜尋引擎不只是網頁搜尋引擎,而是網站的完整資料索引庫
  • 擁有中文分詞能力,讓你的搜尋更精準
  • crawlzilla的特色與目標,最主要就是提供使用者一個方便好用易安裝的搜尋平台,詳細可以看這裡
  • crawlzilla 使用 apache license 2.0 授權,有興趣的使用者可下載其原始碼來修改符合自己需求的自由或商業搜尋引擎

CrawlZilla 官网

http://code.google.com/p/crawlzilla/

相关编程语言

Pacman 是一个软件包管理器, 作为 ArchLinux 发行版...
Smb4K 是KDE下的网络共享浏览器 更多屏幕截图请看:...
Wine (“Wine Is Not an Emulator” 的首字母缩写)...
虚拟桌面软件,可管理最多9个虚拟桌面,你可以用热键...
UNetbootin (Universal Netboot Installer)为一种跨...
Cobbler 可以用来快速建立 Linux 网络安装环境,它已...