StormCrawler:URL数据库规范

问题描述

我对 StormCrawler 还是陌生的-在浏览文档,自述文件和其他资源时,我注意到它通常被称为“ URL数据库,它应处理存储有关搜寻器运行时URL的信息(例如here)。

但是,我找不到该数据库的类型,如何对其进行自定义或将其替换为自定义模块的信息。我一直在遵循代码,然后转到IOOutputController,它具有一些相当混乱的方法,并且缺少文档字符串,因此实际上甚至确定负责处理此问题的类也颇具挑战性。

我将非常感谢您提供任何指导!

感谢您的时间,Matyáš

解决方法

StormCrawler中最常用的URL存储是Elasticsearch。 tutorials中对此进行了说明。还有其他可用的选项,例如SQL或SOLR,请参见enter link description here;请参见https://sequelize.readthedocs.io/en/1.7.0/docs/models/。 StormCrawler不仅限于特定的数据库。 在大多数情况下,人们只使用现有的后端实现,例如Elasticsearch。