问题描述
我使用 nutch 和 Elastisearch 抓取/解析 99 个网站/链接,以便在 Elasicsearch 中为它们编制索引,以便我可以使用搜索引擎。它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。我想了解什么是重定向,添加/更新是什么意思?如果有可能找出哪些已经消失并重定向?
[A-Za-z0-9_]
解决方法
Nutch 不知道某个页面是否已经在索引中。为了保持索引和抓取的内容同步,
- 成功获取的页面将发送到索引并计为添加或更新
- (使用索引器选项
-deleteGone
)从索引中删除 404 和其他失败的提取并计为“消失” - 与重定向相同,但单独计为“重定向”
如果有可能找出哪些已经消失并重定向?
您可以使用 Nutch 工具
-
readdb
转储 CrawlDb -
readseg
转储已编入索引的段
然后搜索 404、获取失败、重定向等。调用 bin/nutch readdb
响应。 bin/nutch readseg
将显示所有可用的命令行选项。