Stormcrawler:在 Elasticsearch 中存储已爬取页面的 Outlinks

问题描述

我想在 ElasticSearch 的内容索引中存储 outlink Array(URLs,Anchors)。我可以为此在 indexer.md.mapping 中添加一个新行,还是需要创建一个新的 parsefilter 来存储已抓取页面的 Outlinks?

解决方法

这是一个很好的问题,谢谢!

索引器从元数据生成 ES 的字段。要将外链存储在 content 索引中,您需要创建一个自定义 ParseFilter 并将外链从 ParseResult 转换为元数据中的键/值,然后配置 indexer。相应地进行 md.mapping