Apache Nutch仅将文章页面索引到Solr

问题描述

我已经设置了Nutch 1.17,用于抓取一些网站。像往常一样,可以有两种高级网页。首先,那些是类别页面或主页的页面,不包含任何特定故事的详细信息,但提供多个页面链接和短文本。其次,有些页面包含详细的完整故事信息,即文章

现在,我的问题是如何确定这是实际文章页面,而该页面是类别页面。此外,我也只希望对故事页面进行索引?

我认为Nutch的认设置中没有任何内容。我该如何实现这种行为?

解决方法

从根本上讲,问题归结为如何识别文章/故事页面与首页或类别页面。这通常是非常特定于域的,并且可能取决于许多因素(服务器端的重写规则或使用的CMS等)。

如果您相当熟悉要爬网的域,则可以使用正则表达式来区分不同类型的页面。假设您可以使用正则表达式(或NutchDocument中存在的其他字段)来区分页面,则您应该能够使用index-jexl-filter插件选择性地仅对那些文章页面进行索引。

我想说的是,通常您不希望完全跳过类别页面(或首页),因为这些类型的页面通常是您进行爬网的新链接的好来源。