在Storm Crawler中使用不同的crawlRequestId分别爬行完全相同的URL

问题描述

我将基于Storm Crawler项目开发一个工件。我想从Kafka主题中获取种子URL。 Kakfa中的每个消息都有两个重要的字段: 我们可能有具有不同的crawlId的重复seedUrl。例如在Kafka中,也许我有以下两条消息: 我希望Storm Crawler尝试独立于其他种子处理每个seedUrl。我们正在使用Solr来跟踪每个网址的状态。为此要求需要更改默认拓扑的哪一部分(即SolrSpout)?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...