Apache Nutch仅将文章页面索引到Solr

我已经设置了Nutch 1.17，用于抓取一些网站。像往常一样，可以有两种高级网页。首先，那些是类别页面或主页的页面，不包含任何特定故事的详细信息，但提供多个页面的链接和短文本。其次，有些页面包含详细的完整故事信息，即文章。

现在，我的问题是如何确定这是实际文章页面，而该页面是类别页面。此外，我也只希望对故事页面进行索引？

我认为Nutch的默认设置中没有任何内容。我该如何实现这种行为？

从根本上讲，问题归结为如何识别文章/故事页面与首页或类别页面。这通常是非常特定于域的，并且可能取决于许多因素（服务器端的重写规则或使用的CMS等）。

如果您相当熟悉要爬网的域，则可以使用正则表达式来区分不同类型的页面。假设您可以使用正则表达式（或NutchDocument中存在的其他字段）来区分页面，则您应该能够使用index-jexl-filter插件选择性地仅对那些文章页面进行索引。

我想说的是，通常您不希望完全跳过类别页面（或首页），因为这些类型的页面通常是您进行爬网的新链接的好来源。