Nutch删除原始html和已解析的数据,但保留抓取历史记录

问题描述

我已经设置了Nutch 1.17来抓取某些域。在存储方面,我的资源有限。几个小时后,搜寻器将一次又一次启动,以查找和下载域上的新页面。每次数据也被索引到Solr中。现在,有什么方法可以从Nutch(crawldb)中删除已解析的HTML和原始HTML数据,但是将已经爬网的URL的历史记录保留在db中。这将有助于减少存储量,但也可以避免重新爬网页面(在时段之前)。

在Nutch可能吗?有其他最佳策略吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)