如何在使用apache tika文本解析时更改文本编码为utf-8最专门用于.txt文件

问题描述

我正在使用apache tika进行文本提取。除非我尝试使用中文书写的.txt文档在中文计算机上进行测试，否则它几乎可以在所有文件类型上正常工作。我没有以utf-8编码格式保存文件。 Tika开始解析错误的字符串字符。这似乎是编码问题，我尝试设置像这样的编码类型 Metadata.add(Metadata.CONTENT_ENCODING,"UTF_8") 仍然没有运气。我已经看到了Java中的一些方法，这些方法可以将文本从一种编码类型转换为另一种编码类型，但前提是必须知道源编码类型。就我而言，我不确定客户端的编码类型，也不能强迫他使用utf-8。请帮助我！预先感谢：）

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-tika character-encoding java java