StormCrawler：URL数据库规范

问题描述

我对 StormCrawler 还是陌生的-在浏览文档，自述文件和其他资源时，我注意到它通常被称为“ URL数据库“ ，它应处理存储有关搜寻器运行时URL的信息（例如here）。

但是，我找不到该数据库的类型，如何对其进行自定义或将其替换为自定义模块的信息。我一直在遵循代码，然后转到IOOutputController，它具有一些相当混乱的方法，并且缺少文档字符串，因此实际上甚至确定负责处理此问题的类也颇具挑战性。

我将非常感谢您提供任何指导！

感谢您的时间，Matyáš

解决方法

StormCrawler中最常用的URL存储是Elasticsearch。 tutorials中对此进行了说明。还有其他可用的选项，例如SQL或SOLR，请参见enter link description here；请参见https://sequelize.readthedocs.io/en/1.7.0/docs/models/。 StormCrawler不仅限于特定的数据库。在大多数情况下，人们只使用现有的后端实现，例如Elasticsearch。

java java stormcrawler url