Apache Tika-XHTML文档-无法获取图像

问题描述

我正在尝试将Word文档转换为XHTML文档。我正在使用V 1.24版。我使用的代码与landing page

完全相同

复制代码以供参考:

org.xml.sax.ContentHandler handler = new ToXMLContentHandler();

AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
File initialFile = new File("C:\\TikaHTML\\Doc3.docx");
InputStream targetStream = 
    new DataInputStream(new FileInputStream(initialFile));    

parser.parse(targetStream,handler,metadata);

BufferedWriter writer = new BufferedWriter(new FileWriter("C:\\TikaHTML\\Doc3.XHTML"));
writer.write(handler.toString());
writer.close();
targetStream.close();

当我尝试在浏览器中打开XHTML文件时,出现与编码有关的错误。感谢以下评论,此问题已解决。

enter image description here

而且,为什么我没有得到图像?该文件具有如下标签:

<p><img src="embedded:image6.png" alt="image6.png" /></p>

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...