使用Kafka主题向Storm Crawler输入种子网址

问题描述

我们想将来自Kafka主题的种子URL馈送到基于StormCrawler的项目。 是否需要更换“风暴爬虫”?

解决方法

显然,您需要稍微更改拓扑并添加一个KafkaSpout并将其连接到StatusUpdaterBolt;像we do in the ES archetype with the FileSpout。 KafkaSpout必须为 status 流生成与FileSpout相同类型的输出,即URL,元数据和状态(具有发现值)。如果那很困难,您可以在Kafka Spout和statusupdater螺栓之间插入一个螺栓,以将字符串从字符串转换为该输出