问题描述
我正在尝试使用pdfplumber库从pdf提取文本以将其导出到json文件。下面的代码段将文本格式化为看起来像下面所示的页面,其中的键和值采用半结构格式,其中某些项目没有键和值,例如下面的日期。
import pdfplumber
with pdfplumber.open('jarjar.pdf') as pdf:
first_page = pdf.pages[0]
print(first_page.extract_text())
B / R:芝麻街公司。 P / M:PBS公司
汽车责任 2020年8月25日
来自:William Tell
电话:(808)333-4444 净和/或条约:
A)每个$ 100,000组合单一限额(csl) 事故
其他合同:
按公司放置在其他地方
没有
合同限制 此处:
B)接受依据:损失过多 每项$ 700,000综合单一限额 事故超额$ 100,000合并单一限额 每次事故
C)接受依据:损失过多 每个$ 1,000,000的综合单一限额 事故超额$ 500,000综合单个限额 每次事故
此问题是“ first_page.extract_text()”不是上面的结构页面,而是一个字符串。因此,如果索引一个值,我将从长字符串中获取一个字符,该字符串表示为上表。 如何将其转换为json文件?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)