问题描述
大家好,
我有此pdf文件样本,我有30多个文件,每个文件包含10页。
如您所见,每个段落都包含三种类型的文本字体和颜色,
我想要将pdf文件转换为cvs文件或xls文件,其中每种类型都使用单独的coulmn。此外,我要排除黄色的高亮文本。
类似的东西:
我应该使用python libries
是什么?任何意见或建议都会有所帮助
谢谢
解决方法
那里有几个图书馆。我之前曾与https://pypi.org/project/pdfminer/合作。对于您的用例,它可能会很好地工作。
pdf2txt.py my_text.pdf
,
要处理pdf文件,您可以使用PyPdf2