在 StormCrawler 中使用 Apache Tika 进行语言检测

问题描述

StormCrawler 的 Apache Tika 集成是否支持文档的语言检测?是否有 Tika 生成的变量列表可以包含在 StormCrawler 的输出中?

解决方法

简短的回答是否定的,但您可以使用 the langid module instead,上次我检查它比 Tika 中的更快、有更多语言并且更准确。

我不知道 Tika 返回的值的详尽列表。