如何在使用apache tika文本解析时更改文本编码为utf-8最专门用于.txt文件

问题描述

我正在使用apache tika进行文本提取。除非我尝试使用中文书写的.txt文档在中文计算机上进行测试,否则它几乎可以在所有文件类型上正常工作。我没有以utf-8编码格式保存文件。 Tika开始解析错误的字符串字符。这似乎是编码问题,我尝试设置像这样的编码类型 metadata.add(Metadata.CONTENT_ENCODING,"UTF_8") 仍然没有运气。我已经看到了Java中的一些方法,这些方法可以将文本从一种编码类型转换为另一种编码类型,但前提是必须知道源编码类型。就我而言,我不确定客户端的编码类型,也不能强迫他使用utf-8。请帮助我! 预先感谢:)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...