Nutch http.redirect.max我可能知道这是什么意思

问题描述

我正在抓取1000个网站。当我为某些网站读取db时,如果我将http.redirect.max = 10设置为每个网站的值,则显示db_redirect_temp和db_redirect_moved,或者对于整个抓取网站,该值仅处理10个重定向

解决方法

http.redirect.max定义为:

尝试获取页面时,提取程序将遵循的最大重定向数。如果设置为负数或0,则提取程序不会立即跟随重定向的URL,而是会记录它们以供以后提取。

该数字适用于单个网页页面的重定向。 10是一个非常大的限制,在大多数情况下3应该足够,因为无论如何在以后的获取周期之一中都将尝试重定向目标。请注意,重定向源始终以db_redir_perm或db_redir_temp的形式记录在CrawlDb中。