AWS Lambda 上的 PDF2image - 导致 PNG 字体错误

编程问答 2022-05-03

问题描述

我在自己的 PDF 中使用 pdf2image convert_from_bytes 以便将它们转换为 PNG 格式。上下文是 AWS Lambda，py 3.8。

...
images = convert_from_bytes(infile,dpi=DPI,fmt=FMT)

for page_num,image in enumerate(images):
    location = "png/" + event.key.split('.')[0] + "-page" + str(page_num) + '.' + FMT

    buffer = BytesIO()
    image.save(buffer,FMT.upper())
    buffer.seek(0)
    ...

尽管我能够“正确”生成 PNG（意味着包含所有信息和文本），但生成的 PNG 似乎在此过程中使用 Times New Roman 作为 PDF 中每个段落的字体。同时，PDF 本身使用正确的字体正确显示，我确保它通过属性嵌入了字体。只有当我尝试将其转换为 PNG 格式时才会出现问题。此外，我不想使用任何花哨的字体，只使用 Courrier-Bold 和 Helvetica。

这里有一个 pdf 的例子（部分）：

结果图像：

到目前为止我尝试了什么？

我尝试使用一些在线工具转换我的 PDF，看看这是否有效，或者 PDF 本身是否有问题。 PNG 图像正确，字体正确。
我尝试使用我的 Lambda 函数处理一些随机 PDF，生成的 PNG 也具有正确的字体，因此转换似乎适用于大多数 PDF。
我尝试了几种不同的字体，但结果相同。
我尝试在 Include custom fonts in AWS Lambda 之后将字体嵌入 AWS lambda 中，但没有成功

但在这一点上我一无所知。知道如何调试吗？

编辑： PDF字体属性

EDIT2： 我写了一个小的 python 程序来为每个现有的基本字体生成一个句子。

然后当我通过 lambda 时我得到这个：

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

aws-lambda fonts fonts pdf pdf pdf pdf2image python-3.x

相关问答

Selenium Web驱动程序和Java元素在(x，y)点处不可单击其他元素将获得点击?

Selenium Web驱动程序和Java。元素在(x，y)点处不可单击。其...

Python-如何使用点“” 访问字典成员？

Python-如何使用点“。” 访问字典成员？

Java 字符串是不可变的到底是什么意思？

Java 字符串是不可变的。到底是什么意思？

Java中的“ final”关键字如何工作？我仍然可以修改对象

Java中的“ final”关键字如何工作？（我仍然可以修改对象。...

“loop:”在Java代码中这是什么，为什么要编译？

“loop:”在Java代码中。这是什么，为什么要编译？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常为什么？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbc...