如何使用 PyPDF2 或任何其他包从旋转的 PDF 中提取文本而不将其从 Web 响应对象中保存？

问题描述

我想从 this link 中提取文本。这里 pdf 被旋转，当我尝试旋转它并提取时，我得到一个空白响应或空字符串，即使我只是尝试提取文本，我也会得到空白响应/空字符串。请建议可以做些什么，以便我可以在不将文件保存在我的系统上的情况下提取文本。

import requests
import PyPDF2
from io import BytesIO

pdf_resp = requests.Session().get("https://www.mbmc.gov.in/master_c/download_file/63161")
pdf_file_obj = BytesIO(pdf_resp.content)
pdf_table_text = PyPDF2.PdfFileReader(pdf_file_obj).getPage(0).rotateClockwise(90).extractText()

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdf-scraping pdftotext python-3.x web-scraping