通过python类型从pdf提取文本

大家好，我有此pdf文件样本，我有30多个文件，每个文件包含10页。如您所见，每个段落都包含三种类型的文本字体和颜色，我想要将pdf文件转换为cvs文件或xls文件，其中每种类型都使用单独的coulmn。此外，我要排除黄色的高亮文本。类似的东西：

我应该使用python libries是什么？任何意见或建议都会有所帮助谢谢

那里有几个图书馆。我之前曾与https://pypi.org/project/pdfminer/合作。对于您的用例，它可能会很好地工作。

pdf2txt.py my_text.pdf

要处理pdf文件，您可以使用PyPdf2