通过所有子级发现的URL从种子URL发出自定义元数据

问题描述

我有一个基于Storm Crawler的项目,该项目索引了Solr集合中的所有内容和状态。对于每个seedUrl,我有一些元数据需要通过每个种子URL的所有子节点发出。例如,我有一个与此类似的数据结构:

如何为每个seedUrl向所有发现的子代发出crawlId和相应的MetaData?有没有可用的内置功能

解决方法

metadata.transfer 是您所需要的,see conf from the archetype