为什么我的Apache Nutch warc和commoncrawldump在爬网后失败了?

问题描述

我已经成功使用Nutch抓取了一个网站,现在我想根据结果创建一个warc。但是,同时运行warc和commoncrawldump命令都会失败。此外,在同一段文件夹上运行bin/nutch dump -segement .... 可以成功运行。

我正在使用nutch v-1.17并运行:

bin/nutch commoncrawldump -outputDir output/ -segment crawl/segments

hadoop.log中的错误ERROR tools.CommonCrawlDataDumper - No segment directories found in my/path/ 尽管刚刚在那儿爬行了。

解决方法

segments文件夹内是来自先前爬网的,引发错误的段。他们不包含所有细分受众群数据,因为我认为抓取工作已提前取消/完成。这导致整个过程失败。删除所有这些文件并重新开始即可解决此问题。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...