Nutch删除原始html和已解析的数据，但保留抓取历史记录

问题描述

我已经设置了Nutch 1.17来抓取某些域。在存储方面，我的资源有限。几个小时后，搜寻器将一次又一次启动，以查找和下载域上的新页面。每次数据也被索引到Solr中。现在，有什么方法可以从Nutch（crawldb）中删除已解析的HTML和原始HTML数据，但是将已经爬网的URL的历史记录保留在db中。这将有助于减少存储量，但也可以避免重新爬网页面（在时段之前）。

在Nutch可能吗？有其他最佳策略吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

nutch nutch nutch2 web-crawler