如何在 Python 中的 PDF 文本提取中删除换行符?

问题描述

我使用 PyMuPDF 来获取 PDF 中的文本,这是我的代码

import fitz

pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)

page1 = doc.loadPage(0)
page1text = page1.get_text()
print("Text from PDF: ",page1text)

输出应该是

KRIPTOGRAFI

但结果是

KRIPTOGRAFI

“KRIPTOGRAFI”一词后有一个换行符。 有什么办法可以去掉吗?

解决方法

您需要删除末尾的空格。函数 strip() 为您完成了这项工作。

您的新代码将是:

import fitz

pdf_document = "KRIP.pdf"
doc = fitz.open(pdf_document)

page1 = doc.loadPage(0)
page1text = page1.get_text().strip()
print("Text from PDF: ",page1text)