问题描述
我正在使用apache tika进行文本提取。除非我尝试使用中文书写的.txt文档在中文计算机上进行测试,否则它几乎可以在所有文件类型上正常工作。我没有以utf-8编码格式保存文件。 Tika开始解析错误的字符串字符。这似乎是编码问题,我尝试设置像这样的编码类型
metadata.add(Metadata.CONTENT_ENCODING,"UTF_8")
仍然没有运气。我已经看到了Java中的一些方法,这些方法可以将文本从一种编码类型转换为另一种编码类型,但前提是必须知道源编码类型。就我而言,我不确定客户端的编码类型,也不能强迫他使用utf-8。请帮助我!
预先感谢:)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)