如何从不是表格的pdf中提取文本，然后使用pdfplumber库将其导出到json文件

我正在尝试使用pdfplumber库从pdf提取文本以将其导出到json文件。下面的代码段将文本格式化为看起来像下面所示的页面，其中的键和值采用半结构格式，其中某些项目没有键和值，例如下面的日期。

import pdfplumber
with pdfplumber.open('jarjar.pdf') as pdf:
    first_page = pdf.pages[0]
    print(first_page.extract_text())

B / R：芝麻街公司。 P / M：PBS公司

汽车责任 2020年8月25日

来自：William Tell

电话：（808）333-4444 净和/或条约：

A）每个$ 100,000组合单一限额（csl）事故

其他合同：

按公司放置在其他地方

没有

合同限制此处：

B）接受依据：损失过多每项$ 700,000综合单一限额事故超额$ 100,000合并单一限额每次事故

C）接受依据：损失过多每个$ 1,000,000的综合单一限额事故超额$ 500,000综合单个限额每次事故

此问题是“ first_page.extract_text（）”不是上面的结构页面，而是一个字符串。因此，如果索引一个值，我将从长字符串中获取一个字符，该字符串表示为上表。如何将其转换为json文件？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）