从PDF提取PDF表单元数据

问题描述

我想使用Web应用程序填写政府PDF表格。这是一个这样的例子:

https://www.uscis.gov/sites/default/files/document/forms/g-28.pdf

在填写表单之前,我需要具有表单字段名称才能将其与数据源映射。

我尝试使用pdftk提取表单字段数据,但文档受所有者密码保护。

$ pdftk g-28.pdf dump_data_fields output g-28-Metadata.txt

OWNER PASSWORD required,but not given (or incorrect)
Errors encountered.  No output created.
Done.  Input errors,so no output created.

有人知道如何使用任何开放源代码或付费库提取表单存档数据吗?

解决方法

PDFTK在执行任何操作时确实支持密码加密和解密。您需要在命令中使用2020-08-31 = 1 2020-09-30 = 3 2020-09-29 = 1 2020-09-28 = 5 2020-09-27 = 5 2020-08-27 = 4 2020-09-25 = 3 2020-10-21 = 1 2020-10-18 = 1 2020-10-17 = 5 2020-10-16 = 4 2020-10-15 = 5 2020-10-14 = 6 2020-09-14 = 1 2020-10-13 = 2 2020-09-13 = 2 和密码。使用以下命令

input_pw

如果您正在寻找如何以编程方式填写表格,请检查我的答案here

如果有任何问题,请发表评论。