有什么方法可以识别 PDF 是否被编辑/篡改以及使用 Python 编辑/篡改 PDF 的确切位置？

我正在努力识别银行对帐单 PDF 文档中的伪造/篡改。信息元数据和 XMP 元数据并不总是出现在我拥有的 PDF 中，因此我无法创建任何通用规则来识别篡改的 PDF。我正在使用 Python 库，例如 PyMuPDF、PDFminer、PyPDF2 等。

我有两个问题：

附上 2 个 PDF 以供参考 -

在经过调整的 PDF 中，我已将“信用”列下的“2,412.00”编辑为“12.00”。

如果有任何开源解决方案，请告诉我，最好使用 Python。

谢谢。

确保 PDF 不被篡改的规范方法是只接受原始作者带有数字签名的 PDF 并验证它们，正如 Frank 已经通过 Adobe 论坛链接指出的那样。

其变化可能是

如果正确实施，这种加密方法是相当安全的。

遗憾的是，这些安全方法要求 PDF 的制作者在发布 PDF 时进行相应的合作。

如果制作者不合作而只是发布没有这种加密保护的 PDF，您仍然可以比较应该以类似方式创建的 PDF 的内部细节。如果这些内部细节差异很大，要么是有人业余篡改了 PDF，要么是 PDF 制作者更新或更换了 PDF 制作软件。

就您的示例文件而言，此类细节存在许多差异，例如

当然，您可以使用 Python PDF 库来检查此类详细信息并确定分歧。

但要注意，这样你只能抓到不熟的伪造者。了解其业务的伪造者几乎不会在其输出中留下任何此类痕迹...

Adobe 表示，除非经过签名，否则无法检测 pdf 是否已被修改。