Nutch/Elastic 搜索术语定义

问题描述

我使用 nutch 和 Elastisearch 抓取/解析 99 个网站/链接,以便在 Elasicsearch 中为它们编制索引,以便我可以使用搜索引擎。它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。我想了解什么是重定向添加/更新是什么意思?如果有可能找出哪些已经消失并重定向

[A-Za-z0-9_]

解决方法

Nutch 不知道某个页面是否已经在索引中。为了保持索引和抓取的内容同步,

  • 成功获取的页面将发送到索引并计为添加或更新
  • (使用索引器选项 -deleteGone)从索引中删除 404 和其他失败的提取并计为“消失”
  • 与重定向相同,但单独计为“重定向”

如果有可能找出哪些已经消失并重定向?

您可以使用 Nutch 工具

  • readdb 转储 CrawlDb
  • readseg 转储已编入索引的段

然后搜索 404、获取失败、重定向等。调用 bin/nutch readdb 响应。 bin/nutch readseg 将显示所有可用的命令行选项。