如何在Java中将Word文档的段落内容转换为html格式?

问题描述

我确实有一个要求,我需要阅读Java中的word文档并将其逐节保存到数据库中。另外,我需要使用此数据库内容来生成具有相同样式,字体大小,项目符号点等的同类Word文档。

我需要的内容(一行)-希望将相同样式的单词段落内容转换为html

技术-到目前为止,我已经在Java中尝试使用Apache POI。

到目前为止我尝试过的-

  1. 使用 Apache POI
  2. 在Java中阅读Word文档
  3. 我能够获得标题/部分/子部分的详细信息等。
  4. 通过 XWPFRun ,我可以获取以下字体的大小,粗体,字体家族等 给定的段落。但是如果段落包含项目符号/项目列表,那么我就是 无法获取该信息。另外,这里有点复杂,因为我 需要手动查看所有XWPFRun的属性并生成等效的html。

注意:我知道有 XHTMLConverter 类可用于将完整的Word文档转换为HTML文件。但这对我来说没有用。

shorted_dict = OrderedDict(sorted(list.items(),key=lambda x: (operator.getitem(x[1],'role'),operator.getitem(x[1],'perm'))))

如果您需要其他任何信息,请告诉我。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)