如何从不是表格的pdf中提取文本,然后使用pdfplumber库将其导出到json文件

问题描述

我正在尝试使用pdfplumber库从pdf提取文本以将其导出到json文件。下面的代码段将文本格式化为看起来像下面所示的页面,其中的键和值采用半结构格式,其中某些项目没有键和值,例如下面的日期。

import pdfplumber
with pdfplumber.open('jarjar.pdf') as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())

B / R:芝麻街公司。 P / M:PBS公司

汽车责任 2020年8月25日

来自:William Tell

电话:(808)333-4444 净和/或条约:

A)每个$ 100,000组合单一限额(csl) 事故

其他合同:

按公司放置在其他地方

没有

合同限制 此处:

B)接受依据:损失过多 每项$ 700,000综合单一限额 事故超额$ 100,000合并单一限额 每次事故

C)接受依据:损失过多 每个$ 1,000,000的综合单一限额 事故超额$ 500,000综合单个限额 每次事故


此问题是“ first_page.extract_text()”不是上面的结构页面,而是一个字符串。因此,如果索引一个值,我将从长字符串中获取一个字符,该字符串表示为上表。 如何将其转换为json文件

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)