SolR 数据导入处理程序有没有办法从 RDBMS 获取元数据以及从 Tika 获取相关文件内容?

问题描述

我打算使用 solr 的数据导入处理程序从 rdbms 记录创建文档。 rdbms 列之一是 pdf/word 文件路径。我想做的是用 Tika 解析文件并将文本结果保存在上述文档的另一个字段中。我的最终文档应该在同一个文档中包含 rdbms 和 tika 导入的数据。

例如

来自数据库的文档字段:作者、发布年份、电子邮件

来自 tika 的文档字段:plain_text

这是否可以作为数据导入处理程序中的单个文档类型配置,或者我应该进行单独的数据处理程序导入(sql 和 tika 作为单独的文档类型),然后从我的查询中进行连接?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)