Nutch-一次又一次访问几页以查找新链接

问题描述

我已将Nutch 1.17设置为仅使用内联爬网来爬网数千个域。我的主要要求之一是我必须一次又一次地访问主页(假设两小时后),如果有任何新页面,则仅应对其进行爬网。

最好的方法应该是什么? 我正在考虑一次又一次地爬行运行喷油器作业以爬行首页。这是正确的方法吗?同时,我应如何确保链接也会随着时间而获取

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)