将HTML / PDF转换为开放文档格式

问题描述

我正在尝试将HTML页面转换为开放文档格式(odt)。

我尝试了什么?

  1. Pandoc:pandoc -f html“ https:///blog.html” -o output_1.odt

    问题:此html页面需要在浏览器中启用JS,因此输出文档包含 请在浏览器中启用JavaScript以使用XXXX。

  2. libreoffice:libreoffice --headless --convert-to odt“ https:///blog.html”

    问题:这里的问题也仍然存在,它需要启用JS才能呈现页面

  3. 因此,基于以上所述,我认为我们需要一个无头浏览器才能首先对其进行渲染。 我尝试在无头浏览器中渲染后保存html,然后使用pandoc转换为odt。

    问题:输出文档中缺少样式和图像。文字部分完整无缺。

  4. 我使用无头浏览器的puppeteer使用nodejs创建了PDF,这是完美的,

    问题:现在我无法将PDF转换为ODT格式。

PS: 答:该网页包含带有标签和src作为外部URL的嵌入式图像。

B。技术堆栈是java / nodejs

我还能尝试获得所需的ODT格式吗?

预先感谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)