PDF 抓取不会使用 PyPDF2 加载文本

问题描述

我正在尝试从 PDF 列表中提取所有文本,但在从对象中提取文本时遇到错误。知道是什么原因造成的吗?

ls = os.listdir(resumes)
pdf = [s for s in ls if '.pdf' in s]
print(pdf)

for p in pdf:
    pdfFileObj = open(os.path.join(resumes,p),'rb') 
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
    print(pdfReader.numPages)
    pageObj = pdfReader.getPage(0) 
    print(pageObj.extractText()) 
    pdfFileObj.close() 

错误:

  File "C:\Program Files\Python39\lib\encodings\cp1252.py",line 19,in encode
    return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u0141' in position 305: character maps to <undefined>

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)