问题描述
我已将Nutch 1.17设置为仅使用内联爬网来爬网数千个域。我的主要要求之一是我必须一次又一次地访问主页(假设两小时后),如果有任何新页面,则仅应对其进行爬网。
最好的方法应该是什么?
我正在考虑一次又一次地爬行运行喷油器作业以爬行首页。这是正确的方法吗?同时,我应如何确保链接也会随着时间而获取。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)